两个青年的谷歌
作者: 沃尔特·艾萨克
1994年1月,世界上总共只有700个网站。这个数字在同年年底,变成了1万,在次年年底更是增长至10万。
要利用好这个正在迅速膨胀的宇宙,需要找到一个简单的方法,来帮助人们找到所需的东西——一个将人、计算机和网络三者连接起来的简单接口。
斯坦福在读的杨致远和同伴费罗,开始亲手编纂一份不断扩展的网站目录。1994 年底,他们将万维网指南更名为“雅虎”(Yahoo!)。但这个网站目录存在一个显而易见的问题——每年网站的数量都会呈现 10 倍的增长,因此他们不可能人工持续更新这个目录。
幸好,当时出现一种用于搜索站点信息的工具——爬虫(Crawler)。它会一个接一个地“爬进”互联网的服务器,根据自身搜索到的信息建立索引。费罗和杨致远没有开发自己的网络爬虫,继续强调人工编纂网站目录的重要性。
然而,人工团队不可能追赶上网页数量增长的速度。自动化搜索引擎,将会成为万维网内容查找的主要方式,这个潮流,将由另外两位斯坦福大学研究生引领。
冤家相逢
拉里·佩奇(Larry Page)生长于一个计算机技术家庭。他的父亲是密歇根大学的计算机科学和人工智能教授,他的母亲也是那里的编程讲师。
1979年,拉里6岁的时候,他的父亲买了一台叫作 Exidy Sorcerer 的家用电脑回家。
“我还记得家里刚买电脑的时候,我感到非常兴奋,因为这可是一件大事,而且它的价格应该不便宜,就像是买一辆车一样。”拉里很快就学会了如何操作这台电脑。
佩奇也上了密歇根大学,他坚持要同时主修商科和计算机科学专业。
而后,在申请研究生院的时候,佩奇被麻省理工学院拒绝了,斯坦福大学录取了他。这其实是一件好事,对于那些有志于同时涉足技术和商业的人来说,斯坦福大学是一个理想的去处。
佩奇在1995年秋季正式入读斯坦福大学研究生院,在开学之前还参加了一个新生培训项目,其中有一天的培训活动设在旧金山进行。当时的领队,是一位善于交际的二年级研究生谢尔盖·布林(Sergey Brin)。
佩奇天生沉静,布林却是那种能连珠炮似的向他讲述自己想法的人,他们很快就进入关于各种话题的争论当中,从计算机到城市功能分区,无所不谈,两人一拍即合。
他们又是一对冤家。“我们都觉得对方很讨厌,”布林坦承,“不过我们只是开玩笑而已。当然,我们进行了很长时间的交流,所以我们之间肯定有合得来的地方。我们喜欢互相取笑。”
谢尔盖·布林的父母也是学者,都是数学家,他的童年跟佩奇的非常不一样。布林出生于莫斯科,他的父亲是莫斯科国立大学的教授,他的母亲是苏联石油与天然气研究所的研究工程师。因为他们都是犹太人,所以事业受到诸多制约。
当他的父亲提交了移民美国申请之后,夫妻两人同时失业了。一家的出境签证在1979年5月获批,当时谢尔盖只有5岁。
他的父亲在附近的马里兰大学找到了一份数学教授的工作,他的母亲也成为美国国家航空航天局的研究员。
谢尔盖入读的是一所采用蒙台梭利教育法的学校,他在那里培养出了独立思考的能力。这是他和佩奇之间的一个共同点。
另一个共同点是,两人在小时候都收到过父母送的电脑,布林在9 岁的时候,收到了一台Commodore 64电脑作为生日礼物。
布林在获得国家科学基金会的奖学金之后,进入了斯坦福大学,他在那里的研究重点是数据挖掘。同样,麻省理工学院也拒绝了布林的研究生申请。
灵感迸发
佩奇加入了斯坦福大学的人机交互小组,这个团队的工作,是探索改善人机共生关系的方法。
人机交互是佩奇在密歇根大学最喜欢的课程,他成为以用户为中心的设计概念的支持者,这种概念强调的是软件和计算机的界面必须直观,而且用户永远都是正确的。
布林的学术研究重点是数据挖掘。他和莫特瓦尼教授一起成立了一个小组,叫作斯坦福数据挖掘(Mining Data at Stanford,MIDAS)。
他们共同发表的论文当中,有两篇是关于购物篮分析。购物篮分析是对顾客购买商品种类的关联性的分析。写作过程中,布林开始对万维网数据模式的分析方法产生了兴趣。
佩奇则开始思考自己的博士论文题目。他最终选定了一个自己比较熟悉的题目——如何评估不同网站之间的相对重要性。
他采用的研究方法来自他所处的家庭学术环境。如果要知道一篇学术论文的价值,其中一个判断标准是,它在其他论文的注解和参考文献部分被引用的次数。按照同样的理论,如果要判断某个网页的价值,一种方法是了解链接到该网页的其他网页的数量。
这种方法存在一个问题。
蒂姆·伯纳斯-李在设计万维网的时候,他的理念是,任何人都可以在未经允许的情况下建立指向其他网页的链接,将网页链接保存在数据库中,或者双向使用链接。
这个理念让万维网得以迅速扩张,也意味着人们将无法轻易得知指向某个网页的链接数量或者来源。你可以在一个网页上看到所有向外的链接,但你无法看到指向这个网页的链接的数量和质量。
“在我见过的协作系统当中,万维网的协作功能是相对较弱的,因为它的超文本存在一个缺陷:它没有双向链接。”佩奇说道,他开始尝试建立一个含有大量链接的数据库,这样他就可以反向追踪这些链接,找出每个网页的链接会通向什么网站。
这项工作的其中一个目的是促进协作。他打算让人们在自己的网页上为其他网页添加注释。佩奇用于实现反向链接的方式,来自一个大胆的想法——这是他在一天半夜醒来之后突然想到的。“我当时在想:如果把整个万维网下载下来,然后只将其中的链接保存下来,那会怎样呢?”
要把整个万维网记录下来可不是一件易事。即使是在1996年1月,全世界也已经有10万个网站,这些网站总共含有1000万个文档,它们之间的链接有近10亿条,这些数字每年都会呈现指数级增长。
当年初夏,佩奇设计了一个网络爬虫工具,它会从佩奇的个人主页出发,一直跟踪它遇到的所有链接。这只在万维网上迅速移动的蜘蛛,会保存每条超链接的文本和来源,以及它们对应网页的标题。他将这个项目命名为“BackRub”。
这个项目很快就占用了斯坦福大学几乎一半的互联网带宽,而且它至少造成了一次全校范围内的网络中断。
“我的磁盘空间几乎已经用完了。”佩奇在1996年7月向威诺格拉德发了一封邮件,他当时收集了2400万条网址和超过1亿条链接。“我当时只保存大概15%的网页,不过情况看起来非常乐观。”
入局搜索
佩奇这个大胆而复杂的项目,吸引了拥有数学头脑的谢尔盖·布林的注意,后者正在寻找一个合适的博士论文题目。他兴致勃勃地加入自己好友的工作当中。
BackRub起初的目标,仍是收集万维网的反向链接,为将来可能实现的注释系统和引用分析功能打下基础。
随着项目的逐步推进,他和布林想出了更为复杂的网页价值分析方法,这些方法采用的依据是指向每个网页的链接的数量和质量。这时候,他们逐渐认识到,按照重要性排名的网页索引,可以成为一个高质量搜索引擎的基础。
这就是谷歌诞生的由来。“当一个伟大的梦想出现的时候,”佩奇后来说道,“你要马上抓住它!”这个经过改进的项目,最初被称为“PageRank”,因为它会对BackRub 索引收集到的每个网页进行排名。
佩奇和布林意识到,除了对指向网页的链接数量汇总以外,他们还可以尝试确定每条进入链接的价值。例如,来自《纽约时报》的链接,应该要比贾斯汀·霍尔在斯沃斯摩尔学院宿舍发出的链接有更高的价值。
这样,就建立了一个由多个反馈循环形成的递归过程:每个页面的排名依据是进入链接的数量和质量,这些链接的质量是由生成它们的页面的数量和质量来决定的,以此类推。
“整个过程都是递归的。”佩奇解释道,“这是一个巨大的循环。不过数学的力量是很强大的,它可以帮助我们解决这个问题。”
布林能够充分理解这种类型的数学难题。“事实上我们想出了很多数学方法来解决这个问题。”他回忆道,“我们将整个万维网,转换成一组含有数亿个变量的庞大方程,这些变量就是所有网页的排名。”
在各自导师的指导之下,他们合著了一篇论文。“如果一个网页的反向链接的整体排名越高,那么网页本身的排名就越高;同时考虑到了页面拥有大量反向链接和少量高排名链接的情况。”
那么,PageRank真的可以生成更好的搜索结果吗?这是一个价值 10亿美元的问题。他们为此进行了一项对比测试。
他们用到的测试关键词之一是“大学”(University)。如果在AltaVista 和其他引擎搜索这个关键词,它们只会列出在标题中含有该关键词的随机页面。
在PageRank中,以“大学”为关键词的最优先搜索结果,分别为斯坦福大学、哈佛大学、麻省理工学院和密歇根大学,他们对这个结果感到十分满意。
为了继续完善 PageRank 的搜索结果,佩奇和布林加入了更多的参考因素,例如关键字在网页上出现的频率、字号和位置。
他们会对比采用不同参数组合的搜索结果,不断调整和改进算法。他们发现,应该对锚文本给予较高的权重,锚文本指的是作为超链接的下划线文本。
例如,“比尔·克林顿”是许多指向美国白宫网站(Whitehouse.gov)的链接的锚文本,当用户搜索“比尔.克林顿”的时候,白宫网站应该出现在最优先的搜索结果,尽管网站的主页中没有明显地出现比尔·克林顿这个名字。
谷歌诞生
这个搜索引擎需要处理海量的页面和链接,所以佩奇和布林把它命名为谷歌(Google),名字来源于古戈尔(Googol)——是指1后有100个0。
他们在浏览器中输入“Google”,发现这个域名仍然可用,于是佩奇把它抢注了下来。
“之前已经有人注册了‘Googol. com’,我试过向那个人提出购买域名的请求,对方非常喜欢这个域名,不愿意出售。我们还是选择了‘Google’。”
这是一个很好玩的单词——简单易记,输入方便,还可以转换成动词来使用。
佩奇和布林从两个方面,继续改进谷歌的使用体验。首先,他们建立了比任何竞争对手都高出许多的网络带宽、处理能力和储存容量,从而将其网络爬虫的处理速度,提升至每秒索引100个网页。
他们还非常热衷于研究用户行为,这点有助于持续改进他们的算法。
如果用户在点击了最优先的搜索结果之后,没有返回搜索结果列表,这就意味着他们已经找到了自己想要的东西;如果完成搜索之后立刻修改自己的关键词,就说明他们对搜索结果不满意,这时候工程师们就需要查看用户修改过的搜索关键词,从而了解他们最初想要查找的东西。
用户每次跳转到第二页或第三页搜索结果的时候,都表明他们对搜索结果的排序不满意。这个反馈循环可帮助谷歌学习到用户的真正意图。
另外一个人也想到了跟PageRank相似的网页排名机制:一位来自中国的计算机工程师李彦宏。1998年初,佩奇和布林的数据库收录了5.18 亿条超链接,当时万维网的链接总数约为30亿条。
“如果你有一个自认为不错的发明,你想让它尽快被多数人用上。”
佩奇不希望谷歌仅仅停留在学术项目的层面,他想尽快把它打造成为一款热门产品。
两人想将自己的博士论文付诸实践变成一家公司,他们不愿意对已有的工作成果进行发表或者正式展示。他们的目标,显然是成立一家商业公司。
如果在那些主要以学术为目的而进行研究的大学里面,他们的做法也许是有问题。但是,斯坦福大学不仅允许学生参与商业项目,而且会为他们提供鼓励和帮助,学院甚至有专门帮助学生完成专利申请和授权事宜的办公室。