报道:跨越Chinglish:化解亨廷顿的辅助工具

作者:三联生活周刊

(文 / 尚进)

报道:跨越Chinglish:化解亨廷顿的辅助工具0

亨廷顿

报道:跨越Chinglish:化解亨廷顿的辅助工具1 

《MIT技术观察》 

《MIT技术观察》借用去年获得奥斯卡最佳原创剧本奖的《Lost in Translation(迷失东京)》做标题,用《Less Lost in Translation》来形容这项语言技术。“中国人说的英语往往带有汉语的语气和思维,所以这类英语往往被称为Chinglish,而日本人的则是janglish。也许大多数亚洲人英文阅读都没有问题,但是书写却是个大问题。”这一波技术狂热分子的负责人周明博士说,“人们在英语写作中最大的问题是如何选择一个恰当的词,虽然有翻译软件在帮忙,但是对写成句子帮助不大。我曾经积攒了很多别人的英文E-mail,当我要写信的时候,我就修改一下抄过来,如果将这种朴素的技术思路梳理,试着让计算机自己从语料库里学习单词搭配,由此我们试图开发一套智能辅助写作工具。”

实际上供职于微软亚洲研究院的周明始终在领导自然语言计算组,这套英文写作辅助工具(English Writing Wizard)从2000年底立项,耗费了五个人四年的时间。“EWW不是一个翻译工具。”周明一再强调,EWW不能翻译整个句子,也不能翻译整篇文章,而且EWW也不是一个电子词典,因为它不提供单词的详细释义。实际上EWW的功能恰在单词与整句之间,它翻译的对象比单词长、比整句短,因为它只翻译短语。

如果从技术角度分析,EWW实际上是一套涵盖4种数学引擎的综合算法,从题为《配置译文获取物应用全集》的论文中记者可以看到。为了设计出这套系统智能的词与词搭配能力,研究者购买了十几年的英文版《华尔街日报》,又从AP和微软的用户手册上大量摘取文章。周明介绍道:“从《华尔街日报》这十几年的文章中我们进行句法分析,每个词之间的搭配方法和规律,利用句法分析器进行了统计,可以确信每个人都可以利用EWW模仿出《华尔街日报》的写法。”而一旦将马尔可夫链算法引入,EWW在进行整句翻译的时候,甚至可以扩充为一个语言模型。利用马尔可夫链算法的思路还可以比对出《红楼梦》是不是一个作者写的。

即便在美国,仍然有2000万人在说西班牙语,而汉语、阿拉伯语、法文和西班牙语等非英语国家说英语的人数加起来是母语为英语的人数的3倍。这被视作EWW施展技术拳脚的最大空间。信息技术媒体CNET非常关注这项技术,他们在文章中评论道:“以往的机器翻译软件出来的文章往往被当作笑话看待,而EWW的出现,这对于非英语占大多数人口的世界而言,至少极大提高了英语写作的效率。”在微软最新的中文Office2003企业版中,EWW被悄悄的内置其中,尽管是一套试验性的删减试验版本,EWW仍然成为了Office2003企业版最大的卖点。

至少对于那些希望不花力气学习英文,就能够写出英文文章的人而言,EWW确实是一个好消息。尽管EWW的出现被技术派视作解决非英语国家语言国际化问题的技术出路,但是并不能解决知识界对于英语全球化霸权化的恐惧。正如乔治·萨尔顿曾经在《民族》杂志探讨的,英语国家正在依靠灌输性的商业文化和经济压力,来瓦解西班牙语系和欧洲诸语的挑战,而同时非英语国家,也在依靠一些技术的方法向英语靠拢。乔治·萨尔顿谈这番话的时候,周明的EWW还没有出现,但是日本早在1993年就尝试的翻译机,以及90年代各语种的电子词典泛滥,实际上恰恰在依靠技术方法创造“亨廷顿的辅助工具”。正如意大利学者拉尼洛·萨尔瓦在《未来知识的延续》中提及的那样,“《圣经》中的巴伦塔典故,曾经记录了人类在语言上如何走向分歧,而全球化和科技,注定要将巴伦塔效应掉过来”。