昨夜的315晚会让无数人激动,央视点名批评一堆企业,以网易为代表的一批精准广告投放企业中枪。微博上不出所料的闹翻了天,形象清新的网易和强悍凶狠的央视谁是灰姑娘谁是后妈似乎一目了然。
可是网易真的是完全无辜吗?激情过后我们去仔细研究下Cookies定义和央视视频,发现尽管央视有自己的硬伤,但似乎没有完全冤枉网易。而其他几个被央视点名的公司如品友、易传媒、传漾,根据视频中展示出来的证据,则基本上可以确定的确通过非正常手段搜集了大量用户信息。
淼叔不站在任何势力或公司的立场,只站在传播、发现真相的立场上,来分析、重现一下这段恩怨。
一、Cookies的确记录了个人信息
首先来看央视揭露网易的视频,在央视自己的官网CNTV上有。这次很多技术大牛站出来支持网易,但我基本可以确定他们没有完整地看这段视频,因为这里面暴露的问题其实在技术上并不高深。
视频中对网易提出了两个指控,第一个是让第三方势力获取了用户在本站的Cookies,第二个是网易邮箱内容可以被人为查看,由此确定用户身份职业,针对性地投放广告。实际上,第一个指控成立的可能性较大,第二个指控则未必成立,需要更多的证据来支撑。
还要先向不了解Cookies的读者介绍一下这种“小甜饼”;即使了解它定义的人很多也未必了解它的使用禁忌(确定你完全懂的读者可以直接去读第二个小标题,看网易怎样向第三方网站提供了Cookies)。昨晚在Google被央视无辜引用中枪后,其旗下一个官方帐号马上介绍了Cookies的定义,依据是维基百科。根据定义,Cookies是某些网站为了辨别用户身份而储存在用户本地终端上的数据(通常经过加密)。好了下面我们要开始说人话了(注意,人话是为了便于不了解技术的人了解原理,并不像技术表达那样严谨无瑕,请懂技术的人别拿这个来攻击我)。由于我们通常访问网站所使用的HTTP协议没有记忆功能,但有些场合下网站服务器必须“记住”用户访问了哪些网页、做了哪些操作,所以需要一种中间手段去记录这些东西,这时候网站服务器就会在用户电脑中写下一小段纯文本文件作为标记,这种类似于“备忘录即时贴”的文本文件就是Cookies。
常用的例子是,如果你在网络上买东西,下单了一个鼠标,然后再去买键盘;这时候浏览器已经离开了鼠标商品页面,由于HTTP协议没有记忆功能,所以在你看键盘的时候,鼠标的购买记录已经被后一个访问记录冲掉了。就算你买了100件商品,最后结账时也只能看到最后一样。为了避免这种情况出现,购物网站会在每次下单后,都在你的电脑上写下一小段Cookies来记录;最后结账时,读取这些Cookies,从而汇总出你的购物清单。
按照定义和上面的例子来看,Cookies有几个特点,第一,它具有专属性,就是谁发出的Cookies就只有谁有权限读。你去淘宝买完了东西又上京东,京东的服务器来读取Cookies时是无法读取淘宝放在你机器中的Cookies的,它只能放置自己的Cookies,在需要时读取。所以尽管你电脑上存储了淘宝京东新浪草榴等一堆网站的Cookies,但只要电脑不丢,这些Cookies本身都是安全的,没有哪个网站能主动取走。
第二个特点,Cookies的确能记录你的很多个人信息,比如你经常访问哪类网页,在网页上停留多久,通常在什么时候上网等等。这些信息有些人可能毫不在乎,但如果有广告商集中搜集过去,就能掌握这个人的上网兴趣口味,有时还能推算出收入水平等个人信息。不过,对于很多地方强调的Cookies会保存用户密码问题,在我看来倒未必是迫在眉睫的危险,因为这些密码通常会用不可逆的方式加密,泄露出去也无法还原出用户密码;这方面的话题还可以专门开一篇文章讲,我们暂时打住,还是去谈主题。广告商怎么搜集用户的Cookies?这就来讲。
二、如何非正常获取Cookies
根据专属性特点,只有用户主动访问的网站,才能下发、获取属于自己的Cookies,那要收集大批用户的Cookies,只有两个途径:一个是做出一个受人欢迎的网站,有成千上万人来访问你,那你自然就能获得大批量用户的Cookies,并由此得出整个人群的访问特点。通常这种做法虽然还存在一定争议,但熟悉互联网的人会倾向于认为这是合法的,毕竟网站需要根据每个人的不同特点提供个性化服务,比如你去亚马逊买书,一进去它就会给你推荐一批经管书,因为你此前几次购买、浏览的都是这类书籍。这给用户带来了便利,也便于提高网站出售货品的效率。Google、网易等网站也通过这种方式来分析用户行为习惯,针对性地推送广告,并计算广告的投放效率。因此,像Google 百度、网易新浪这些超大型网站,拥有数亿甚至十几亿用户的Cookies都很正常,只要不向第三方出售这些数据,目前他们拥有这些数据还是合法的。
但在央视报道中,品友、传漾、易传媒等公司声称自己拥有数千万甚至数亿用户数据,很明显他们自己的网站没达到这种受欢迎程度,那这些数据怎么来的?如果上述公司没拿出确凿的证据来,我们倾向于相信央视的结论,这几个公司的确用非正常途径获取了大批量用户信息。而这的确是应该受到谴责甚至法律惩罚的行为。我们来看下网站怎么获取不属于自己的Cookies。
第二个获取大批量Cookies的途径,就是明买暗偷。自己做不出受人欢迎的网站,那就去跟大网站买。类似网易这样的商业性大网站出于谨慎考虑,通常不敢用这种方式出售数据,但一些个人搭建而又人气火爆的论坛,不排除以这种方式获利。暗偷的话,就是在大型网站上放置Cookies窃贼,术语叫网络信标或网络臭虫。
网络臭虫的工作原理是,在受用户欢迎、被广泛访问的网页上放置一个一像素大小的图片,这样用户看不到这张图片,但它依然可以正常工作:它的工作就是通过获取Cookies来获知用户的浏览习惯。举例来说,现在窃贼公司在网易女人频道的所有网页上都放置了臭虫。当用户访问网易女人频道页面时,由于臭虫位于本网页,因此它有权下发、获得用户的Cookies;又由于臭虫中内嵌了窃贼网站的地址,因此它可以把网易女人频道访问者的Cookies搜集并回传到窃贼公司。如果网易女人频道一天有1000万人访问,则该公司一天就获取了1000万份个人信息。
三、网易到底干没干外泄Cookies的事
网易有没有干这样的事?我们把上述央视视频拉到5分3秒处播放,面对记者“网站能不能加代码”的询问,网易公司华东渠道销售经理郭兴华总监说,“如果你放得比较靠里面,比如说是女性频道,对网站影响不大的,一般还是可以申请得到”。也就是说,如果以投放广告等利益相诱惑,网易的销售人员还是可以承诺,在自己的网站上挂上网络臭虫代码的(只需要跟广告图标放在一起即可,技术上很简单)。而由于网易具有的巨大流量,一旦真的做出这种事,那所有网易用户的Cookies就会被出价购买广告的公司获取。
而在网易公司事后的声明中,对于自己的网页是否允许加挂第三方代码只字未提,我们还注意到,这个声明是由网易邮箱发出,而非网易公司。也就是说,邮箱撇清了自己,却把具有更大嫌疑的网易门户撇在了一边。
网易邮箱的确有底气发出这种声明,尽管他们愚蠢的销售人员大言不惭地在镜头前声称“邮件内容我们都看得到啊”。我们应该知道,自从Gmail推出后,根据用户邮件内容投放广告已经成为一种生意。Gmail的原理是,用机器自动扫描用户的邮件内容并进行语义分析,根据分析结论,投放高度相关的广告在用户邮箱界面上。
这个技术在推出初期在美国引发了争议,因为Google的确扫描并获知了邮件内容;但后来这项做法渐渐得到了认可,因为执行扫描、分析、投放一条龙的全部是机器,Gmail用户的邮件隐私并未被任何人类获取。而且机器扫描分析邮件的逻辑与人类并不相同,即使Google的分析邮件服务器数据暴露了,人类基本也没办法从中反推出邮件内容,只能看到一堆主题词、权重。既然Gmail承诺了提供数G的容量(当年这可是天文数字)和免费使用的便利(尼玛Google现在开始对超出容量收费了淼叔每年为此支出25美刀),用户也就默许了它用广告收入来维持这些服务。
网易邮箱投放广告的原理应该也是这个,不过从此前的一些报道和网易自己发布的资料看,它还没智能到扫描邮件内容匹配广告的程度,网易的做法应该是从一些公司那儿承接了邮件发放的单子,再将广告邮件投放给具有相关兴趣的邮箱用户——如何知道用户具有这方面的兴趣?通过分析他们的邮件获得。这个分析、投放的过程应该也是全自动全机器的,所以网易邮箱声明说“不存在任何个人参与窥探用户隐私的可能性”。销售人员所说的“我们能看到邮件内容”,其实技术化表达应该是“俺们网易的服务器可以根据邮件分析出用户的习惯喜好”,可惜正如淼叔一开始所说的,人话就是没技术用语严密,估计这个销售人员真要被网易给规范掉了。
最后要说明的是,央视引用FTC惩罚Google的案例来证明美国也反对收集Cookies,这个例子是错的。这次罚款的罪名不是Google收集了Cookies,而是Google无视苹果电脑上safari浏览器的隐私设置(用户可以在浏览器中设置拒绝接受Cookies),直接在用户电脑上放置Cookies,引发处罚。也就是说,惩罚的是未经允许获得Cookies的行为,如果用户不反对,那网站本身获得Cookies的行为并不会受惩罚。
四、不泼脏水,欢迎探讨
好了,说了这么多,我们基本得出结论,央视说网易协助第三方公司获取了大量用户Cookies,这个指控成立的可能性更大;对邮箱的指控,则有可能是出于对技术的误读。之所以我们都不用很确定的词语,因为这两种行为都是网易销售人员披露出来的。又有人要问,都是她们说的,为什么你认为第一个指控可信,第二个指控不可信?这必须得说,还是靠经验。外泄邮箱内容,这在各国都是足以信誉破产的死罪(当然根据当地法律法规……你懂的);而在网页上挂个代码泄露些Cookies出去,因为个人上网习惯本身算不算隐私还有争议,这种手法又隐蔽得多,再加上高出价或人情牌,是可能进行操作的。
当然,这并不代表央视就是正义的代表了,晚会集中打假的确给人搞运动的印象(虽然这在传播学上是有效的,但尼玛拿假货泛滥来当传播契机也够那啥的吧),暗访拍摄、事后不向采访对象求证等新闻操作方式也一直备受争议。但无论央视自身形象怎样,作为关注互联网行业的亲爱的读者们,我们还是要客观地看待真实暴露出来的问题。
限于技术水平,本文可能会存在一些照顾不到的地方甚至硬伤,也欢迎更了解Cookies原理的各位大牛或大妞们来函来电参与讨论。我无意给“任何个人”或公司泼脏水,希望能理性探讨,引发更多对于Cookies滥用现状的关注。
---------------------------------------------------------------
更新(李开复发了一条微博如下,供参考):
李开复:【网易邮箱是否有隐私问题?】按照邮件内容(或其他用户信息)投放精准广告和个性化体验,这是大部分邮箱(包括谷歌)都用的技术,虽有争议,但不是网易独家的问题。建议所有邮箱:1)告知用户那些信息被使用,2)保证不滥用信息,3)提供do not track选项(保护隐私,但放弃精准广告和个性化体验)
编辑:北京信诚IT保姆IT外包部 http:// www.xcitbm.com www.xcit.com.cn |