“全球辞海”:语言的狂欢

作者:鲁伊

(文 / 鲁伊)

“全球辞海”:语言的狂欢0

(插图:谢峰)

语言是一种悖论。一方面,它是人类重要的交流和沟通工具;另一方面,在不同时间和不同空间中的不同语言,却又给人类的交流与沟通形成了极大障碍。如果说《括地志》中可以让人一服之下便“通万里语”的仙草只不过是一个美好的神话,那么,实际上最接近仙草功能的,也许就只能是词典了。

尽管著名的词典学家塞缪尔·约翰生(Samuel Johnson)博士曾经戏谑地将像他这样的词典编纂者称为“不幸的凡人”和“无害的苦工”,但一直到最近为止,词典编纂还是被视为只有极其专业的语言学家们才有资格有能力完成的工作。一本词典的问世,往往是一个或几个学者皓首穷经、集毕生之力方得有成的结果。《英语词典》花了约翰生博士7年时间,詹姆斯·莫雷爵士(Sir James Murray)投入在《牛津英文词典》上的光阴更长达35年,而所有这些,还都只不过是单一语言的词典而已。各国语言间的转换,由于涉及到深厚的文化差异,更是难上加难。虽然在近几百年中,有无数学者在这方面做出了许多努力,但就像英国伍尔夫汉普敦大学的语言学专家拉姆什·克瑞斯南姆希所指出的,迄今为止,还不存在一本能够实现联合国五种正式语言(英、法、俄、西、中)间很好互译的词典,其他一些不甚常用的语言,就更说不上了。

不过,即将于今年5月13日至16日召开于美国加利福尼亚圣克拉拉市的奥瑞力新兴技术研讨会(O'Reilly Emerging Technology Conference)上,一位名叫布莱恩·麦克康奈尔(Brian McConnell)的计算机专家却要野心勃勃地将这一切变为历史。在这次会议上,这位“知本家”、软件开发者、发明家和电信工程师将首次向公众演示自己开发出来的“全球辞海”系统(World Wide Lexicon,简称WWL)。同以往任何一种在线词典或翻译软件不同,麦克康奈尔的“全球辞海”系统在两点上形成了对传统词典编纂学的颠覆:其一,词典编纂者不再是专业的语言学家,而是来自全球各地数目巨大的普通志愿者;其二,词典不仅要实现比较常见的语言(如英法日德俄中等)的互译,更要借助网络的巨大能量,在短时间内构筑起一个包括各种小语种在内的全球语言词汇互译数据库。

曾经撰写过《接触之外:SETI及同外星文明交流指南》(Beyond Contact:A Guide to SETI and Communicating with Alien Civilization)一书的麦克康奈尔对著名的SETI@home项目(意为“在家中搜索地外文明”,本刊2001年第50期曾有过介绍)极为熟悉,他的“全球辞海”系统属于一种新的使用了简单对象访问协议(Simple Object Access Protocol,简称SOAP)技术的分布式计算程序,其工作原理与SETI@home十分相近。不过,大多数网上分布式计算项目所利用的,都是网上闲置的计算机运算能力。复杂的需要大量计算的任务在分发到志愿者的计算机上之后,并不需要志愿者的人工干预即可自行完成。“全球辞海”的不同之处在于,它需要志愿者的大脑亲自参与到工作中来。在接受《新科学家》采访时,麦克康奈尔指出,“全球辞海”对分布式计算程序作了“聪明的小变化”,在这个系统中,“计算机就是人的大脑”。

掌握各种语言的志愿者首先需要到网站上注册相关的个人信息,并下载一个客户端软件程序,它将自动监测计算机用户的工作紧张程度。当计算机用户比较空闲的时候,这一程序会跳出一个窗口,要求他们翻译或解释一个词或一个短语。所有的词语,都是由麦克康奈尔设计的一个“蜘蛛”程序(Spider),按照一定标准从各国语言的网站中扫描记录下来的。服务器会根据志愿者情况将这些词语打成小的“数据包”分发到志愿者的计算机上。当志愿者完成一定数量词语的翻译或解释后,客户端程序会将这些数据上传到众多服务器中的一台,再复制到其他服务器上去。所有数据会由一个自动的修正系统来互相修订,从而保证翻译的准确性,而数目巨大的服务器一方面能确保整个系统的稳定性,另一方面又为可能的海量数据库提供了充足的存储空间。

当一个较大的词语数据库建立之后,会有另一个客户端程序专门供用户搜索查找使用。使用这个客户端程序,用户可以从数据库中搜索词语的解释和翻译。如果该词不存在于数据库中,程序又会将这一词语记录下来,继续发送给志愿者翻译。

“全球辞海”:语言的狂欢1

约翰生编纂的英语词典是专家词典的典范

考虑到分布式计算程序充分调动数以千万计的计算机用户能力,以及此前在解决数学问题、寻找癌症药物等方面所取得的成功,“全球辞海”系统似乎是相当有前途的一个项目。然而,许多语言学家却对此提出质疑。质量保障问题是所有问题中被关注最多的。语言学家克瑞斯南姆希指出,“翻译是一项高度专业的技能”,由志愿者编纂的词典很难具有传统词典的质量。尽管“全球辞海”中会有一个相应的修订程序,但兰开斯特大学的研究人员保罗·雷森对它的效果深表怀疑。他认为,并非娴熟的翻译者可能会将某些词的意思混淆,而且“通常需要上下文才能够做出很好的翻译”。

语言学家的顾虑听着言之成理。的确,很难想象由一群良莠不齐近乎“草台班子”的志愿者共同制造出来的网上词典可以同语言学专家倾数十年之功编写出来的严谨之作相提并论。而这也是以往的在线词典和翻译软件所不敢跨越的界限。著名的巴比伦(Babylon)在线词典可以提供英、德、法、中、日、荷兰、葡萄牙、西班牙、瑞典、意大利等众多语言的在线翻译,但却均以现有专家编纂的词典为蓝本而建立。敢于如此大胆地将词典的编纂权放在普罗大众手中的,麦克康奈尔是第一人,不能不让人为此担忧。

然而,仔细想来,又并不尽然。首先,运用分布式计算技术的“全球辞海”从技术上为建立前所未有的多语言互译数据库提供了可能,而这种庞大的数据库不仅有助于持各种语言者对其他语言信息的理解,更将有力促成拥有语言霸权的少数常用语言和处于弱势的多数不常用语言间的沟通。其次,就算单以同一语言的解释而言,“全球辞海”也未必不如传统的专家词典。数以千万计的志愿者在给出解释的同时,不可能不包含其自身的体验与理解。维特根斯坦在晚年的语言游戏说中提出过,“想象一种语言就意味着想象一种生活方式”,众多志愿者结合自身体验理解而给出的解释,本身就是一种最广泛的生活方式的集合,也是从前的语言学家们单凭自身力量无法全部掌握的最详尽的“上下文体系”。这种结合了人的游戏天性和语言的游戏规则的词典系统,运用最新的计算机技术,将以往语言学家们梦想中乌托邦式的语言狂欢转化为现实,而它的推出,必将极大改变人类彼此交流的未来。