哪些算法我们可以信任

作者: 蒂姆·哈福德

2009年,谷歌的一个研究小组在世界顶级科学期刊之一《自然》上宣布了一项了不起的成就。不用知道医院的就诊记录,他们就能够追踪到流感在美国的传播情况。更重要的是,他们的反应比美国疾控中心快,因为后者依赖医生们上报的信息。谷歌的算法是在疾控中心2003年~2008年的病例中进行数据搜索,找出规律,看看流感暴发期间,流感地区的人们在网上搜索什么,以此来建立流感病例和搜索内容之间的相关性。在发现了这种规律或模式之后,该算法就可以根据今天人们上网的搜索内容来估计今天流感的发病人数,这样做比疾控中心发布官方消息要早至少一周的时间。

“谷歌流感趋势预测”不仅快、准、省钱,还不需要高深的理论。谷歌的工程师们甚至懒得去筛选哪类搜索词与疾病传播有关联。虽然,我们也想象得到,搜索“流感症状”或“我附近的药店”是和流感沾边的,但搜索“碧昂斯”就和流感毫无关系了,但在谷歌团队眼里,这都无所谓,他们只管输入流感期间网上最常被搜索的5,000万个词,然后让算法自己去找规律。

谷歌流感趋势预测一炮而红,它的成功标志着商业、科技领域的热门新趋势——大数据和算法。大数据可以有很多种,我们把重点放在留痕数据上,它指的是人们在网络上的各种搜索、信用卡支付和手机搜索附近连接热点留下的上网痕迹,这还不算政府掌握的个人大数据。

留痕数据的类型可谓庞杂,数据收集起来成本较低,可以实时更新,但也杂乱无章。随着我们的通信、休闲和商业走向互联网,而互联网又正进入我们的手机、汽车甚至我们的眼镜,生活可以被记录和量化,而这种方式在10年前是很难想象的。商业和管理杂志上,铺天盖地都是关于这方面机会的文章。

除了这些“抓住机会上车”的口号外,大数据的拥趸根据谷歌流感趋势预测的成功还提出了三个令人激动的观点。第一,数据分析能做出精准的预测。第二,每一个数据点都可以被捕获到,这就显得统计抽样模式过时了(这里指流感趋势捕获到每一次人们在网上的相关搜索)。第三,科学建模也已经过时:根本没有必要建立和验证“流感症状”搜索或“碧昂斯”搜索可能与流感传播相关或不相关的公式,因为,引用2008年《连线》杂志中一篇煽动性文章的话,“有了足够的数据,数字能说明一切问题”。

这种模式很有颠覆性。然而,在《自然》那篇文章发表4年后,《自然新闻》却传来一个不幸的消息:最近的流感暴发还造成了一个意外的受害者——谷歌流感趋势预测。在准确地预报了几个冬天的流感疫情后,这个无须建模、数据丰富的模型对流感突然失去了嗅觉。谷歌的模型预测了流感要大暴发,但疾控中心不紧不慢,说它的数据证明谷歌高估了流感暴发的可能性,还有,谷歌的数据一度比真实数据大了一倍多。不久,谷歌流感趋势项目团队就解散了。

问题出在哪儿?部分原因在于上面说的第三个观点:谷歌当时不知道,也不可能知道,它的算法中有哪些搜索词是与流感暴发相关联的。谷歌的工程师没有自己做筛选,他们让算法自己在数据中寻找流感暴发的相关统计模式。后来,谷歌的研究团队分析了这些算法算出的模式,发现了一些明显的错误相关性,而他们本可以指示算法剔除这些错误关联。例如,算法会将“高中篮球赛”搜索与流感关联起来。原因并不神秘:流感疫情和高中篮球赛都在11月中旬开始。但这意味着流感趋势部分探查的是流感,部分探查的是冬季球赛。当2009年夏季流感暴发时,这又成了一个问题:谷歌流感趋势预测仍然在搜索冬季球赛,自然一无所获,也就没预测出来这次非常规季节的疫情,导致他们预报的发病人数只是实际发病人数的20%。

有人说找出算法出错的原因是不可能的。但是找出两个东西是怎么关联起来的不难。一些数据发烧友,比如《连线》杂志那篇煽动性文章的作者克里斯·安德森也说过,除了相关性,讨论别的都没意义。他写道:“先从数学的角度处理好数据,然后再为数据设定好语义环境就可以了。”数据自然会呈现一定的规律。如果真是这样,我们是不是可以这样解读安德森的话,“如果高中球赛和流感疫情同时出现在搜索结果中,二者会关联在一起的原因并不重要”。

但这当然很重要,因为这种没有数学建模的简单关联明显不堪一击。所以如果我们不清楚建立关联的逻辑,那么这种关联迟早会出问题。

我书架上最显眼的位置放了两本很棒的书,讲述的是我们对大数据的看法在短短几年内是如何演变的。

一本是2013年出版的《大数据时代》,作者是肯恩·库克尔和维克托·迈耶·舍恩贝格。书中举了许多例子,像物美价廉的传感器、大数据集和模式识别算法,正如这本书的副标题所示,“大数据改变了我们的生活、工作和思维方式”。你猜作者在书中用的什么例子开篇?就是那个谷歌流感趋势预测。不过两位作者没料到的是,这本书付印之后,谷歌算法就彻底失灵了。

《大数据时代》出版三年后,凯西·奥尼尔的《算法霸权:数学杀伤性武器的威胁与不公》于2016年问世。你可能也猜到了,作者对大数据非常不看好,书的副标题告诉我们大数据“加剧不平等,威胁民主”。

两本书看大数据的视角不同:库克尔和舍恩贝格的视角是数据时代人怎么利用数据;奥尼尔的视角是数据时代人怎么被数据利用。视角不同,看法不同。这就好像一把榔头,对木匠来说,它是个有用的工具;但对钉子来说,它就是敌人。

两本书的不同观点正好也反映了2013年~2016年人们对大数据看法的转变。2013年,了解大数据的人还比较少,人们常常把自己想象成木匠,觉得可以利用大数据,大有可为。到2016年,许多人意识到自己就是颗钉子,逃不出大数据的掌控。大数据从备受推崇的划时代技术变成被人诅咒的技术灾星,有些人甚至为此在报纸上大声疾呼(比如美国有线电视新闻网上的一篇报道——“算法有种族主义”)。大数据还掀起了一场政治上的轩然大波。剑桥分析公司是一家和特朗普竞选团队有瓜葛的咨询公司,它被指控利用脸书在用户隐私规则方面的漏洞,在用户不知情或未授权的情况下,窃取了大约5,000万人的信息,并向他们精准投放拉票广告。大吃一惊的评论员甚至怀疑就是这些精准投放的拉票广告送唐纳德·特朗普坐上了总统的宝座,尽管事后经过冷静分析,人们认定剑桥分析公司的能力还没有达到精神控制的水平。

我们每个人都在网上留下了点点滴滴的数据,而这些数据被悄悄地收集起来,汇成数据的海洋,这样算法和大数据编织成了我们生活的天罗地网,从匹配对象到法律援助,它们似乎都可以帮到我们。所以,我们需要了解这都是些什么样的数据,以及我们该怎么利用它们。我们到底应该喜欢大数据还是害怕大数据?我们想当个木匠,但会不会无意中成了钉子的角色?

答案是,这都取决于我们自身,我希望能告诉你怎么才能让大数据为人所用。

2012年,人们还坚定地认为大数据给我们提供了无限遐想。记者查尔斯·杜希格敏锐地捕捉到这个迹象,他在《纽约时报》上发表了一个发生在美国塔吉特百货公司的故事,为大数据时代的到来拉开了序幕。

在杜希格的报道中,他说塔吉特公司收集了客户的大量数据,而且会认真分析这些数据,所以显得这家公司特别能洞悉客户需求。这个让人印象深刻的故事是这样开始的:一名男子冲进明尼阿波利斯附近的一家塔吉特公司,向经理大发雷霆,问该公司给他十几岁的女儿邮寄了妇婴用品优惠券是什么意思。经理忙不迭地道歉,后来又专程打电话再次道歉,结果却被告知女孩真的怀孕了。她父亲当时不知情。

其实塔吉特在分析了她购买无味湿巾和维生素补充剂等数据后,就已经洞悉这个事实。

统计真的这么神奇吗?数据专家和统计学家听了这个故事,眼皮都不抬,他们认为不用对此大惊小怪,这太稀松平常了。

首先,让我们想一想,根据一个人在商场买的东西来推测她是否怀孕是不是件很难的事:应该不太难。请参考国家卫生局关于维生素补充剂叶酸的建议:建议所有准备生育的女性在备孕期间和怀孕前12周每天补充400微克叶酸。如果你在怀孕前没有服用叶酸补充剂,发现自己怀孕后请马上开始服用。确保你摄入适量叶酸的唯一方法就是服用补充剂。

看到了吗?有这个常识的人,如果听说有个女人开始购买叶酸,除了她可能怀孕了,你还能联想到什么?这很好猜出来,不需要大数据告诉你。所以大数据没那么神。

杜希格关于塔吉特算法的故事以另一种方式让我们认识到我们高估了计算机的数据分析能力。

数据学家冯启思多年来就是为商超和广告公司开发类似算法的专家,他说:“这个故事其实反映了一个似是而非的问题。”他的意思是有些没怀孕的女性也收到了母婴优惠券,只是我们不知道而已。我们不能天真地认为塔吉特的电脑有读心术,还需要想一想他们天女散花般地发优惠券,射击目标错误的太多了。

其实购买叶酸不一定怀孕:这个女人可能因为别的原因需要服用叶酸,或者她可能在替别人买,或者她可能怀孕了但孩子没保住(这样的话她在看到母婴优惠券时该有多难过),或者她想怀孕,但没怀上。你觉得塔吉特的算法能神机妙算到把这些例外都剔除掉的地步吗?这是不可能的。

在查尔斯·杜希格的故事中,塔吉特商场提供的母婴优惠券里其实还混有其他商品的优惠券,比如酒杯优惠券。如果真有孕妇想喝酒,当意识到商场电脑连这个都能算出来,她们会不会感到害怕?但冯启思是这样解释的:塔吉特给顾客寄某种优惠券的同时还附带上其他商品的优惠券,不是因为给孕妇只寄一些母婴优惠券会显得突兀,而是因为公司知道,收到母婴优惠券的未必都是孕妇。

所以,当时那个接待女孩父亲的经理应该这样说:“您不用担心,我们的很多顾客都会收到那样的优惠券,不是只针对您的孩子。”他没那样说,是因为他和我们普通人一样,都不知道商场算法是怎么算的。

情况很有可能是这样的:通过顾客购买的商品,怀孕的顾客很容易被甄别出来,因此塔吉特的大数据肯定比盲猜的准确率要高一些。然而,毫无疑问,它肯定不是百发百中。孕妇大概率出现在15~45岁的女性中,如果让你盲猜谁是孕妇,你也有大约5%的命中率。如果塔吉特算法能把命中率提高到10%或15%,那也很值。因为即使某商品的优惠券投放精准度提高一点,也有助于提高商场的利润,但商场绝不应该为了利润率去深挖顾客的隐私。

因此,有必要给这些炒作降降温,不要认为剑桥分析公司已经掌握了人的思想,然后以为机器统治世界的时代来了;也不要昏了头,认为大数据轻松取代烦琐的老式统计方法(如疾控中心对流感的调查)就万事大吉了。

当我第一次与大数据打交道时,我给剑桥大学教授大卫·史匹格哈特爵士打了个电话——他是英国顶尖的统计学家之一,也是一位杰出的统计知识传播者。电话里,我总结了那些看好大数据的人的观点:不可思议的准确性;全数据覆盖把抽样统计比了下去;建模可以抛弃了,因为“数据自然会呈现一定的规律”。

他觉得没有必要用专业术语来表述以显得高大上。他说,那些说法都是胡扯,没一句对的。要让大数据发挥作用,说起来容易做起来难。200年来,统计学家们一直都很警惕,当我们试图通过数据来了解世界时,数据会给我们设什么样的误区。如今数据更大、更快、更易得,我们不要以为误区消失了。不,它们一直都在。

史匹格哈特说:“小的数据问题在大数据中比比皆是。并不是数据多就不会出问题,有时数据多了,问题更大。”

像查尔斯·杜希格写的塔吉特商场精准投放母婴优惠券那个故事,读者信了也就算了。但要是当权者也被他们不懂的算法吓到,并依靠这些算法做关系民生的重大决定,那就麻烦大了。

凯西·奥尼尔在《算法霸权:数学杀伤性武器的威胁与不公》一书中列举的最典型的例子之一是华盛顿特区用来评估教师教学质量的算法IMPACT。书中是这样描绘的:该市各个学校中,许多受学生爱戴的教师因为在系统上打分很低,突然被解雇了。

IMPACT算法声称衡量的是教学质量,也就是以考试成绩为准,检查每个教师在班上带的学生是进步了还是倒退了。其实,衡量教学质量很难,有时学生成绩高低与老师无关,原因有二。第一,不管老师教得如何,学生的成绩都会因人而异。所以一个班30个学生里,肯定有一些是算法应该排除的干扰项。又或者,如果有那么几个孩子,在开学考试中,运气好,蒙对不少答案,得到了高分,到了期末考试,运气差,得分低了,就把老师坑了,因为这样老师排名就会降低。所以,这种排名有运气的成分在里面。还有一种情况,孩子的学习还受其他因素影响,这些因素也是老师不可控的。譬如,孩子生病了,或在学校里被人欺负了,或者家里爸爸妈妈因故被监禁了,等等。这与学生运气好、蒙对题得高分不同,这是由某些具体原因导致的,可能是造成学生成绩下降的真正原因。所以,在评估老师的教育质量时,将这些课堂外的因素也考虑进来才是有意义的评估,而不分青红皂白地把学生成绩下滑都归咎于老师,这种做法不仅愚蠢,而且不公平。

上一篇 点击页面呼出菜单 下一篇