

“理论的终结”
作者:薛巍(
“现代遗传学之父”孟德尔 )
理论的终结
《连线》杂志主编、《长尾理论》一书的作者克里斯·安德森(Chris Anderson)在该刊6月23日的一期上撰写了一篇文章,题为《理论的终结:数据洪流使科研方法过时》,他宣称:“从宇宙学方程到关于人类行为的理论,理论模型好像可以融贯地解释我们周围的世界。今天在拥有大量信息的情况下,已经不需要依赖模型了。”
他认为信息数量的量变将带来一场科研方法的质变,“60年前,数字计算机使信息成为可读的;20年前,互联网开始触手可及;10年前,第一个搜索引擎使互联网成为一个数据库;现在谷歌和类似的公司正在经历历史上最整齐划一的时代,把大量信息当做关于人类境况的实验室。他们是拍字节(Petabyte,100万G)时代的孩子”。
“拍字节时代之所以异于以前的时代,是因为信息更多了,所以情况就变了。千字节用软盘保存,兆字节用硬盘保存,千兆字节用磁盘阵列保存,拍字节则是云存储。随着这种进步,在类比的意义上,以前我们从文件夹经过文件柜到了图书馆,到拍字节的时候,已经没有什么传统信息组织形态可以拿来跟它类比了。”
“对于拍字节这样的数量级,信息就不是简单的三维或四维的分类和序列,从尺寸上说已经算不出它有多大了。它需要一种完全不同的处理方法,不要以为它是总体上可以看见的数据。它迫使我们首先以数学的眼光看待数据,然后再为它建立一个背景,比如谷歌仅以应用数学就征服了广告界。它无需装作理解广告的文化和传统做法,只需要假定拥有更好的信息和分析工具就能获胜。”
( 基因测序“鸟枪法”发明人克雷格·文特尔
)
“谷歌的基本理念是,我们不知道为什么这个页面优于那个页面,如果对外部链接的统计显示它更好,那就足够了,不需要做语义和因果分析。这就是为什么谷歌不懂那些语言照样能够翻译它们(只要有足够的数据,谷歌可以像把法语翻译成德语那样,把外星人的克林贡语翻译成波斯语)。它可以把广告跟网页的内容匹配起来,而无需知道广告和网页的具体情况。”
他总结说:“现在大量的信息和应用数学取代了所有其他工具。所有关于人类行为的理论,从语言学到社会学都过时了,忘掉分类学、形而上学和心理学吧。谁知道人们为什么那样行事?问题在于他们就是那么做了,我们可以以前所未有的精度追溯和量度它。有了足够的数据,数字可以自己说明问题。”
( 《连线》杂志主编克里斯·安德森
)
他要说的不是广告,而是科学。“科学方法是建立在可验证的假说的基础上的。理论模型很大程度上是科学家脑海中可视化的体系,模型经过验证之后,试验证实或推翻关于世界运行模式的模型。这是几百年间科学研究的方法。科学家要学会分辨因果关系和相互关联,要知道不能因为X和Y之间有相互关联就得出什么结论,那可能只是巧合,科学家必须知道将二者联系在一起的表面下的机制。一旦有了模型,你就可以很自信地将数据联系起来,没有模型的数据只是噪声。”
“但是面对海量信息,这种假说、模型和证明的科研方法过时了。比如物理学,牛顿的模型大致接近真相(虽然在原子的水平上是错的,但仍很有用)。100年前,建立在统计基础上的量子力学提供了更好的图画,但是量子力学的模型仍然有缺陷,只是更复杂的现实的漫画像。物理学之所以在过去几十年间陷入关于‘n维大统一’模型的理论猜想,是因为我们不知道如何用实验推倒这些假说,需要的能量太高,加速器太贵等。”
他又以生物学为例证,“课堂上教的孟德尔关于显性和隐性基因的模型被证明,它对现实的简单化比牛顿的定律还厉害。基因和蛋白质的互动等实验胚胎学方面的发现已经对DNA命定论提出了挑战,甚至有证据证明环境可以影响遗传特性。简言之,关于生物学我们知道得越多,我们离解释它的模型就越远。现在有了更好的方法,拍字节让我们可以说,有关联就够了。我们停止寻找模型,我们可以在没有假说的情况下分析数据,可以把数据扔给最大的计算机群,让统计算法去寻找科学找不到的模式”。
“最好的例证是克雷格·文特尔的基因测序方法。使用能够分析数据的高速计算机,文特尔从给单个生物排序发展到给整个生态系统测序。在2003年,他开始给海洋测序。2005年,他开始给空气测序。在这一过程中,他发现了数千种以前不知道的细菌和其他生命形式。
如果‘发现新的物种’让你想起达尔文和鸟的画像,那么你还固守着旧的科研方式。对于新发现的物种,文特尔几乎告诉不了你什么。他不知道它们的样子,它们怎样生活,它们的形态,他甚至也没有它们的全部基因组。他有的只是统计信息,一个独特的序列,跟数据库里的其他序列都不同,所以一定是一个新的物种。”
“这一序列也许跟别的某种已知物种的序列有关联,在这种情况下,文特尔可以对这一物种做出一些猜测:它们以一种特别的方式将太阳光转化成能量,它们有着共同的祖先等。但除此之外,关于这一物种他没有更好的模型,就像谷歌没有关于你的个人空间的模型一样,有的只是数据。但是在用计算机对数据加以分析之后,文特尔对生物学的推进比他所有的同辈人都大。”
“海量数据和统计工具提供了认识世界的新方式。相关性超过了因果性,在没有自洽的模型、统一的理论或机械论解释的情况下,科学也能进步。”
理论只会更加重要
针对安德森的观点我们可以说,在一个数据越来越多、寻找事件之间的相关性的工具越来越完善的时代,我们比以往更需要科学的理论。康德说:“思维无内容是空的,直观无概念是盲的。”对数据的分析需要理论的指导,将来理论不会失势,那将是理论的年代,实验也一样。
认为更多的数据将使理论过时,反映出技术界人士乃至美国人乐观、自大的态度。如美国历史学家拉塞尔·雅各比在《乌托邦之死:冷漠时代的政治与文化》一书中对多元文化主义的评论:“难题不在于对多元主义的偏爱,而在于对它的崇拜。这种崇拜拥护对数量的美国式爱好,因此阻挠了对现实的清醒审查。多元主义这一隐语赞成这一骗局,即更多就是更好。更多的东西,也就是商品、汽车和文化。”现在再加上信息和数据。
这种只管相关性、不管因果联系的态度还很像原始认知,“原始认知把世界理解为一些互相感应的现象,死人和活人互相感应,星辰和生死兴衰感应,魔魇可以致死致病。但魔魇怎么导致疾病,星辰通过什么途径影响人事变迁,现象互动的机制是什么,原始思维却很不在乎(要应付小孩子的“为什么”并不困难,只要把一种现象和另一种现象连在一起,他就会觉得获得了答案)”。
在某种意义上,它又是非常近代的态度。在西方近代,理性认知以事实辅佐理解,起引导作用的是理解,科学认知则以事实为引导,可理解性不再作为主要标准。也可以说,真的概念发生了转变,真就是赤裸裸的事实。
纽约大学一位政治学博士说,他对克里斯·安德森这篇文章的反应可以用艾略特《岩石》合唱诗中的诗句来概括:“生活中我们业已失去的灵魂在哪里?认识中我们业已失去的智慧在哪里?信息中我们业已失去的知识在哪里?”
鉴于存储的数据如此之多,我们必须考虑一下这么多的信息如何影响分析的结果。泊松(Poisson)的大数法则(当随机事件发生的次数很大时,偶然性会互相抵消,使这些事件的结果的算术平均值在概率意义下十分接近其期望值)已经被人们引以为戒了近200年,现在它更加重要。有这么多的数据样本,答案将迅速地向中间值或人们预先期待的结果靠拢,获得的知识只会加强原来的假定。人们很可能从近乎无限的数据之井中打捞出符合他们的假定的数据,然后把这一发现当做知识。
再者,只从数据中获取知识是危险的。最重要、最有趣的人和事通常都是极端的人和事,而在安德森看来,我们的知识全部来自大部分数据提供的证明,那我们如何看待影响我们生活的随机性事件呢?比如研究恐怖主义活动,在这方面数据很少,甚至几乎不存在。为了提高我们对随机性事件的理解,相关的模型和数据必须建构起来并加以检验,但是这些模型无法用不存在的数据来证实。实际上,我们的最终目标就是使这类数据不存在,因为到数据存在,即出现恐怖袭击的时候,就表明我们的理解是有问题的。
对安德森来说很不幸、对我们来说很幸运的是,理论远没有终结。数百年来,科学的方法帮助我们获取知识,现在我们更需要它指引我们穿越数据的迷雾,让我们得到知识。■(文 / 薛巍) 终结理论