

美国人理查德·希尔斯的汉字资料库
作者:三联生活周刊被关注的网站
约定采访时间,理查德会再三确认:“你的晚上22点,是我的早上9点。”然后这个60岁的美国人会早早守在电脑前,他话不多,语速很慢——即便是说英文,但是认认真真回答问题。
理查德在美国田纳西州诺克斯维尔市一个人生活,自己租了一个二层公寓里的一个房间。他没有工作,每天的生活内容几乎就是看书,看有关物理、化学、数学、中文、俄文和西班牙语的书籍。“有钱的时候喜欢背包旅游,喜欢去中国、印度、缅甸、蒙古,2000年我花了一个月从莫斯科坐火车、汽车、搭便车到上海。”理查德说,那是他还在外面给公司做电脑顾问时候的生活方式,工作、看书、瑜伽、旅行。
因为从来没有在一个地方工作足够长的时间,理查德没有退休金,3年时间没有工作,他差不多花完了自己不多的积蓄。但是在他生活的地方,电脑方面的工作不容易找到,而且他也已经是60岁的年纪。“也许是因为那些公司不想雇用一个像我这样上了年纪的人,但是我其实没有那么认真地去找工作。我觉得看书、学习和旅游比工作有趣多了。”
“有3年了,我都没有更新网站,白天弄电脑、看书,最近几个月我对量子力学很有兴趣。但是最近这一个月发现突然有很多人看我的网站,我收到了3000多封邮件,所以现在我又有了很大兴趣,每天都睡很少,拼命做网站的事情。”理查德告诉本刊记者,以前对网站有兴趣的人不多,看到突然有这么多邮件,开始他觉得可能是学生开学了,后来发现邮件太多了,才意识到这是一个大事情。“后来我知道是因为微博的原因,以前看我的网站的人大多来自中国以外,现在很多来自中国。”
2002年,理查德创办了这个汉字字源网站chineseetymology.com,网站上是他从1994年起开始收集整理的汉字资料,并不断修改更新,本意是为了帮助自己和其他学中文的外国人更好地记忆汉字。理查德说,他的汉字资料库现在有100万条资料,比如篆体字有4万个,加上图形、号码和演变的方法,就要再乘以5倍,还有简体字、繁体字演变,还有声音的资料。
戴维是chineseetymology较早的用户之一,2007年下半年,当时他正在读“大一”,课程中有一门关于语言学的选修课,因为对汉字字形的演变比较感兴趣,就选择了这个题目作为课程论文。
“当时的情况是小篆之后的字形,无论是标准字形还是字帖、拓片都能很容易找到,甲骨文、金文的标准字形容易找,比如在汉典上就可以找到,但是拓片就比较难找,特别是还要寻找特定汉字的字形。”戴维向本刊回忆说,当时学校图书馆的目录上有甲骨文的字编,但是存数很少而且都被借走了,无奈下才到网上查询,“当时甚至没有想到使用英文的关键词,而是用‘甲骨文字形’这样的关键词在Google上搜索到了Richard Sears的网站”。
chineseetymology的首页页面简单甚至简陋,但是在首页的空格里输入任何一个汉字,就可以得到这个汉字字形的变迁历程——甲骨文、小篆、金文、繁体字、简体字,字形的演变有最直观的图形,字义则有英文解释,并带有普通话和闽南语的发音文件。比如以首页的“马”字为例,除了马字的简体、繁体外,还包括《说文解字》和《六书通》中的篆体及金文、甲骨文等字形显示,共计196种写法,以理查德自己的方式编号,S代表《说文解字》,L代表《六书通》。
“只要用过的人都知道,它的系统就是把各处的古文字资料找来,按单字切分开并且对应到现代汉字,然后按字搜索字形资料的,对于我的论文正好有用。此外一个字对应很多字形,也可以做横向比较。当时我查询了几个甲骨文字形不怎么常见的汉字,下载了十几张字形图片用在了论文中。”在戴维看来,这个字源网站就是理查德个人对汉字字形演变研究的成果与资料集合,作为一个“公开的甲骨文、金文字形资料查询工具”,这个网站使用简单、查询方便和资料比较丰富,但也有一些缺点,比如存在一些对应上的错误。“各种古文字字形的资料比较分散,对一般人来说难以接触到,而理查德利用这个网站的系统把他多年研究中收集的资料按照单字查询的方式整合了起来,并且整个网站是公开的,任何人都可以使用。特别是作为工具的作用,目前我还没见到有别的功能完全相类似的在线查询系统。”
戴维解释说,会用到这个网站的人既包括对汉字字形研究感兴趣的母语为英语的人,因为这个网站上除了字形查询系统外,也有一些理查德写的英文普及资料,也包括那些并非相关领域的专业人士,但在某些特定情况下需要查询古汉字字形资料的人,比如他自己,“因为相关专业书籍价格高难以购买,也不一定能很容易借到,而国内很难找到类似的公开在线查询系统”。还有就是相关领域的专业人士,在需要少量的电子版字形图像资料时会借用,例如制作授课用的课件,因为临时自己扫描和处理太过费时费力。另外一些就是一般感兴趣的人,比如突然想看看某个字在甲骨文中写法的网民之类。
理查德告诉本刊记者,在一个月以前,他的网站每天有1.5万左右的点击量,而最近一个月的数字是每天5万的点击量,在突如其来的关注中,理查德甚至被称为是“2010年感动中国人的外国人”,面对一个月之内来自中国爆发式的浏览量,理查德对自己的网站重拾信心,看到了利用这个网站走下去的可能。
“以前我一直想扩张网站,比如添加广东话、上海话的声音文件,一直都没有人帮忙,只有一个人做,我自己的中国朋友大部分没有兴趣,所以一直找不到能讲广东话和上海话的人,现在突然很多人知道了我的网站,我希望能够找到愿意帮助我的人。”
汉字的乐趣
22岁那一年,理查德是波特兰州立大学的一名物理系的学生,想到自己只会讲英文,他很想知道有最多人口的中文是什么样,说别的语言的人如何思考和交流,于是他买了一张单程机票去了台湾。刚到台湾的时候,理查德不会说中文,也没有朋友。“我记得刚到台湾的那天,把行李放在公寓里就出门散步,看到街上有卖米酒的,查字典看到是rice wine,在美国米酒不是烈酒,可以喝一瓶,我一边走一边喝,喝了一整瓶之后发现已经醉得不行,忘了写地址,又不会问路,自己绕来绕去走了8个小时才找到房子。”理查德对本刊记者回忆说。
他开始学说中文,做了1.6万个小卡片,一面写中文,一面写英文,每次出门随身带一两百张在路上看,一年后他能讲最基本的中文,两年后可以讲90%,虽然不是很流利。理查德第一次在台湾过了两年,通过教英文赚钱,其余大部分生活就是玩,甚至和一个台湾人结了婚。回到美国,他继续读物理专业,读一年,离开,再读一年,这样他花了10年才大学毕业。“1985年我读完了田纳西大学计算机专业硕士,之后开始给不同的公司做电脑顾问,每次就是几个月、半年、一年,在没有工作的时候就去中国、俄罗斯、印度、缅甸旅游生活,差不多这样过了25年。”
理查德向本刊回忆说,1990年,他在台湾生活了两年后中文已经能讲得比较流利,但是看书很慢很费劲,于是他开始背字,方法就是看文字来源。他说:“因为我发现汉字的构成没有逻辑,看起来不合理,比如‘报’,看起来就是完全没有关系的一些字的拼凑。但是如果看甲骨文、金文、篆体字、繁体字、简体字,知道了它原来的意思,看到它是如何演变过来的,就发现每一个中文字都是有逻辑的。成年人学中文和小孩不一样,如果能找到文字的逻辑会更容易。”
学物理出身的理查德对汉字的字源和逻辑产生了极大兴趣,他每天跑到图书馆翻书查文字资料,但是他很快发现了两个很难解决的问题,他找不到任何一本有这些资料的英文书,而且如果要学甲骨文、金文、篆体字、繁体字、简体字要查很多中文书,对他来说几乎不可能实现。“所以我想到要把这些资料电脑化,我的目标就是要在一个地方放全部的资料,想要记一个字,可以看到不同的解释,也可以看到这些字的演变,可以很方便地从中挑选出最符合自己的字源。”
1994年,理查德回到美国,雇用了一位因为不会讲英文找不到工作的上了年纪的中国妇女,给她一个电脑,教她电脑的基本用法,教她如何扫描。“第一步要扫描一万个《说文解字》的篆体字,没有想到一万个字是那么多,花了一年,做完之后我想我也可以再加一个《金文编》,没有想到要做那么大的资料库,就是一步一步做,之后又有《甲骨文编》,最后原本设想一年的工作变成了20年的工作,越来越深。”
“认识她16年,她帮我扫描了7年,辛苦都是她付出的,我只负责电脑的部分。她现在是我最好的中国朋友。”7年时间里,一共扫描了10万个古代文字,甲骨文有3.1万个,《六书通》有3.8万个字,《说文解字》有1万多个字,金文有2.4万个字,用自己的方式编号。“大部分人最熟悉《说文解字》,《六书通》解释得更详细。篆体字都是汉代、唐代的标准,但是金文不知道九代的标准,没有九代的字,所以参考了考古方面的资料,用的是山西洪洞县几百年前的文字。”
为了寻找古代的汉字字形,理查德每3年会到中国一趟,跑到大学的图书馆里看有没有新书,买书的钱花了两三千美元,包括《甲骨文编》、《金文编》、《说文解字》等主要参考书目在内的200本古汉字书目。
因为从来没有人将这些资料电脑化,理查德在程序中发现了很多问题和书里的错误。理查德告诉本刊记者:“《说文解字》是一本很重要的参考书,国家标准只有6000多个中文字,《说文解字》里面1.3万个字里面有很多生僻字,不能放进电脑。还有比如有很多《说文解字》里面的字没有繁体字,比如‘帝’,篆体字有几个写法,但是繁体字只有一个写法,很多都是是1对n的关系,还有简体字和繁体字,写书的人没有这个问题,一经过电脑化问题就出来了。做一个资料库就要解决这些问题。”
在做资料库的时候,理查德会严格按照历史的记录。他举例子说,现在中国人刻图章多刻篆体字,但是现代的中文20%没有篆体字的对应,都是经过艺术化后的字形,没有历史的字,“有的人输入某个字找不到篆体字,以为是我忘记放这个字。在汉代、唐代的时候没有这个篆体字,这个是后来出现的中文字,我要保证历史的正确,如果汉代的时候没有这个篆体字,我就认为没有。”
对很多字,理查德都能提出自己的解释。比如汉字“金”在《说文解字》中的字形来源是“金在土中”,理查德觉得,它的象形文字应该来源于“钟”的形状,因为这样才能让人立刻明白“金属”的概念。还有“命”,是从“令”来的,有一个上下颠倒的“亼”,由一张“口”告诉一个下面的人“卩”应该做什么。
对汉字的兴趣是支持他完成这一庞大繁复工程的最大动力。理查德说,他很喜欢的一句话就是“活到老学到老”。理查德说:“我的朋友大部分很客气,说这个东西有意思,但是聊了5分钟就觉得无聊了。他们问我你为什么要做这样的事情,凭这个东西永远不会赚钱。我自己感兴趣就行了。这个东西是学不完的,不管看多少书,也不知道还有多少故事。”
一个月前,理查德在网站的首页上放上了他的照片,一张15年前胖胖的、结实的中年男人的笑脸,现在的他已经是头发和胡子全白的老人模样。这20年来,他花光了做电脑顾问挣的钱,他自己算了一笔账,如果算上时间、买的书,请人做事,大概花了30万美元,之后的没有工作又花光了存款。最紧张的时候每个月维护网站需要的50美元也快拿不出来了。
“网站到现在8年多了,我在上面放了一个捐款按钮,一年能得到50美元,99.9%的人都不会给钱,给的话也就是1块、5块、10块,大部分是在美国的华人。最近一个月发现有人有兴趣,我也希望能及时得到帮忙。但是现在可能有很多热心人能帮我几个月,之后钱用完了不知道怎么样,别人还会不会有兴趣。”理查德告诉本刊记者,因为最近的关注,他得到了4个月的生活费,如果没有生病,不用修车,1500美元够他一个人生活一个月。他现在的心愿就是能做一个更好的网站,能够通过网站“赚到一点生活费,有足够的钱吃饭,养我自己,所以最近拼命做网站的工作,看看有没有可能通过网站走下去。我也想要把网站进一步扩张,比如日本人也用汉字,日本的汉字有1000多年的演变,和中文意思不同、读法不同,所以这个网站也应该包括日本的部分”。
上个月,理查德回到加州给母亲过92岁生日,20多年来只有母亲一直支持他。“她一直都觉得在你有能力养活自己的前提下,自己的兴趣最重要。我给妈妈看我的网站,她看到现在有那么多人看我的网站,特别高兴。”理查德说。
他告诉本刊记者说,生活很复杂,44岁那年他突发心脏病,几乎快死掉,“我那时就想,我的生活有什么意思,死掉之后别人不会记得我。所以我一定要拼命做一件事,以后可以留给别人看”。■ 资料库汉字美国