​宋柔:汉字符号化是一种趋势

作者:王小峰

​宋柔:汉字符号化是一种趋势0( 宋柔 )

宋柔认为:汉字跟拼音文字最大的不同就是音和形是分裂的。实际上,每种语言的字符、文字都有三种属性:形、音、义。那么拼音文字音和形基本是统一的,见字我能念出来我也就能写出来了。“义”还差点,通过一些前缀、后缀、词干能看出些意思,总的来讲还是属于少数,但至少音和形是一致的。汉字音和形不一致就是个问题,之所以“老外”学汉语困难,这就是一个最大的问题。我们学英语最大的困难就是单词量太大,我看到这个“形”,但不知道那个“义”,“形”跟“义”或者“音”跟“义”对不起来。但是汉字多了一层,不仅是要琢磨字的意思,连怎么念有时候也不知道。没法读的话就很难学,我得查字典,这就非常麻烦。

三联生活周刊:当初我们是怎么解决电脑汉字输入问题的?

宋柔:实际上,近100多年,汉语有个很大的变革,主要的变革发生在19世纪末20世纪初的“五四”新文化运动,过去文言文不仅是字的音形分离,而且把口语跟书面语也分离了。你写出来的文字跟老百姓说的是两回事,所以,白话文运动就把这两者统一起来了。然后把标点符号引进来,否则句读本身就是一个学问。等于是20世纪初把这一关给过了。那么到了70年代又过一关,就是电脑的使用,遇到非常大的问题。西方都是使用键盘,拼音文字非常容易就进去,汉字就进不去。曾经有那种大键盘,过去打字机用极大的一种键盘,手里还有一个小一点的核心键盘,核心的盘里头可能有1000多字,还有几千个字在外头,可以把它调进来。这个打字机跟英文打字机完全不一样,这种打字机有一个自动的手柄,会抓到那个字。原来打字员是一个职业,熟练到什么程度呢?比如说,2000个字的字盘,他非常熟练地知道怎么操纵手柄,使它直接扎到那个字上。你想,2000个字的一个大盘,你非常准确地扎到那个字上,扎到那个点,那是一个功夫。然后再把这个字拔出来,印到纸上。

三联生活周刊:但实际上我们后来还是解决了普通人实际应用的问题。

宋柔:我好多年前看材料,台湾说汉语不行了,必须得要学英文。中文进不了信息时代了,汉语要被淘汰了。结果当然没有被淘汰。在台湾,有个人叫朱邦复,发明了“仓颉输入法”,把汉字编码弄出来了。在大陆,首先是王选做了一个“字形发生器”,每一个字在机器上都需要一个内码。内码的字形需要机器以一个非常快的速度把字形送出来,让它在屏幕上显示或者是打印机上打印,这是输出方面。那么在输入方面,与台湾朱邦复类似的当时有一个王永民的五笔字型,从字形的角度把字编码编出来。这样的话有输入有输出,就通过这种五笔码或仓颉码把汉字的字形变成机器的内码,再输进去。等到要显示的时候或者打印的时候就用王选的办法给输出来。这样,就使汉字的危机过去了,汉字还能够进入信息时代。

​宋柔:汉字符号化是一种趋势1( 语言文字学家周有光 )

三联生活周刊:但从目前看,解决的是汉字输入问题,还是没有解决汉字认知问题。

宋柔:这种靠内码输入的方式解决了汉字进入信息时代问题,仍然没有解决阅读理解汉字的问题。实际上,它把这种“音形脱节”的矛盾给掩盖起来了,把它推迟了。这个矛盾还在。只不过汉语需要一套输入法,英语不需要,它直接就进去了。当然我们现在录入速度也不比他们慢,尤其是大家使用汉语拼音,也不需要再额外学。但是毕竟汉字的音形不一致,以至于你字是进去了,但是你并不清楚怎么写。比如能量的“能”,假如这个音就一个字,那就好办。但是读“shi”音的字特别多,有好几百个,“ji”也是好几百个,这个时候电脑就需要进行挑选了。通过大量的学习后,电脑开始猜,你把拼音流输进去,根据拼音流的上下文,它去猜这句话是什么意思,它可能猜对了,也可能猜错了。猜错了没关系,你就可以从候选项挑出来换一个。但是问题出现了,人们大体知道这个字,但是实际上字的细节并不清楚。只要大概区别出来就可以了。比如“周”字,大家常写,这“周”里头是“土口”还是“士口”?很多人认为是“吉”字,其实是“土口”。当然这有什么字理依据搞文字学的人会知道,但真较起真来你就可能写错。这是一个很大的问题,解决的办法就是多练。但是我觉得无论怎么练,毕竟跟过去写字是不一样了。我们小时候,凡事都得动手写字,所以是不停地在写,不停在实践。现在就算你再多练,都是一种额外负担。

我们在做一个系统,电脑能自动地判别你写的字是对是错。要用一种特殊的笔,电脑就会把写字的过程记录下来,然后跟正确的字对照。因为机器知道正确的字是什么,就能判断出对错。比如是字形错还是笔顺和笔向错。比如说我们这里有很多外国留学生,写字就跟画画一样,把字当成一个图形,照着图形给描下来。我们小学生练习写汉字也可以用这个,现在是没办法的办法。不能只是在纸上练。

三联生活周刊:这种方式对小学生或留学生有一点作用,对大部分中国人还是没有效果。

宋柔:现在小学一、二年级过了之后,写字就越来越少了,练习的机会也越来越少,就跟算乘法口诀表是一样的。刚改革开放的时候,我听人说,外国孩子算不过中国孩子,因为他们都是用计算器算,他们已经形成了一种习惯,就是根本不过脑子。我们都学乘法口诀表,要自己口算,所以口算能力很强。但是现在逐渐都用计算器了,于是口算能力就弱了。这绝对是跟练习的多少有关系的。我现在经常提笔忘字,我还算是经常写的。现在年轻人,本来就没写过那么多字,他们一、二年级可能常写字,等到四、五年级后就不常写字了。所以,这样就带来两个问题:一个是,越来越不知道这个字怎么写,不知道字怎么写,就会影响阅读。你对这个字只有个大概的形的印象,阅读的时候就对字形相近的字区分不清楚,因此就会影响阅读速度或出现理解障碍;另一个是使语言学习的困难增大。外国人学汉语觉得是一件非常困难的事情,现在虽然说世界上“汉语热”,但是跟学英语比,完全不是一个等级的事情。长远看,周有光先生曾经说,21世纪语言文字的发展,有一个趋势就是世界的文字会逐渐统一,我想这个是对的。但是我们还是希望中华民族的文化传统能够留存下来。另外将来语言到底以什么样的形统一起来,现在也不好说,但这至少也是关系到民族文化的生存发展问题。

三联生活周刊:汉字在信息时代该如何进一步改革呢?

宋柔:几千年来汉字一直有简化的趋势,简化字,其中主要的一个方面就是把笔画给减少了。这就带来一个问题,一些原来有意义的图形符号,现在没了,被简化了,或者变成别的东西了,于是就招致一些人的反对。但是按照周有光这些语言文字学家综观世界各国民族的语言文字发展历史,可以看出来,语言文字的发展过程肯定就是符号化,逐渐用一些没有意义的符号来代替。像朝鲜文、日文,过去都使用汉字,但是逐渐都不用汉字了。日本用假名,当然还掺杂着些汉字。所以,这个符号化,无意义的符号化应该是趋势。但是你怎么在这个过程当中使得音和形都能够一致起来。当然这个“义”是没法弄,太复杂了。所以,曾经有前人提出完全拉丁化,变成拼音文字,实际上在中国行不通。中国语言是单音节为主的语言,同音字太多,就没法弄了。

在我看来,汉字改革的方向,主要在于如何使音和形能够一致起来。但是变音是不可能的,因为老百姓的话变不过来。但是拼音的话又是一对多,歧义太多,你怎么变得过来呢?

我觉得需要增加一些区分符。同音字,比如说“shi”,有好多个“shi”,那么我就要有不同的区分符,把它们区分出来。这些区分符可能会带有一种顾形思义的提示作用,使你想到某种意义,这样能使文字变成一种拼音加区分符的这么一种文字,这是有可能被接受的。因为你现在敲的也就是拼音,你只不过最后选那么一项,把选的那一项变成原来字符区别中的一个东西,这样就会有一些好处,使将来文字逐渐变成,你念的时候念那个音,理解的时候按照旁边附加的区分符来理解,就可以做到使得音形一致。这也是当前有可能去做的,比如让外国留学生这么去学,只要学会能说就行。而且这个东西能够自动转换。将汉字序列能够自动转化成拼音,区分符的语言序列,反过来也可以转化成汉字。两向可以自动转换。

三联生活周刊:未来是不是还要从汉字的字形上寻找规律,进一步解决汉字的问题呢?

宋柔:我打一个比方,我们到饭店吃饭,会发现“招财进宝”这四个字就写成一个字,都是拼出来的。有些拼合字是一种文化现象,说明汉字是一个开放集合,现在几乎所有的汉字处理都是以封闭集合为基础的,你再大的字符集也不能把所有的汉字包括进去,包括错字,那这种要不要收进去呢?可以不收,因为正规的文字中没有这个字。但是如果你要研究书写的过程、书写心理、语言书写问题的话,就需要了。所以,汉字是一个开放集合,要从这个出发点来研究汉字的形音问题。那么,作为开放集合的时候你怎么去描述汉字的字形?就像我刚说的要进行汉字改革,要加一些区分的符号。但是要加什么符号最合适?就需要大量的研究。这个事情就非常有意思。拼音文字是以字母为基础的,英文26个字母,俄文33个字母,用大小写拼各种形式就可以了。但是汉语不行,笔画横、竖、撇、捺、折、点,撇跟撇不一样,点跟点也不一样。有人说,汉字的形化描述语言学家早已解决了。很简单,就是独体字、复合字。比如说“牛”就是独体字,“语”就是复合字,复合字有左右结构、上下结构、上中下结构、左中右结构,还有几种嵌套结构等,就是这十几种,我可以给你分解到最基本的结构中去,而基本结构就二三百个基本模型。那这样的话汉字不就可以描述出来了吗?这个国家已经有标准定出来了。但是这是语言学家们的一厢情愿。他们完全在一个封闭集合里处理。比如现在国际通用的unicode码,2.0902万个字,这2.0902万个字都能描述出来。但这之外的字就不行了。而且他们强调字理。比如说“果”,按照文字学的解释是“田”加“木”,但我们写时这一竖是贯穿下来的。还有“秉”是一种包围结构,“彐”相当于是手,手把持着禾苗,这是一个“彐”和“禾”的包围结构,这完全是按照字理来说的。但机器看不明白字理,看到的只能是平面图形。所以这个就没法说了,而且不同语言学家表述的字理也不一样,考证起来也不统一。我们现在能统一的就是,平面上看到的东西,所以,我们必须要对汉字建立起平面图形的描述系统,它的基本东西就是线条,像横竖这类不太弯曲的线条,来构成汉字。用“横竖斜”的笔断组合把字形描述出来。

这是一个最基本的研究工作,这类似于国际音标。虽然世界各国各民族的语音不同,但是国际音标就用有限的符号把所有的语音都描述出来。但是汉字不行,到底汉字基础是什么,怎么组合描述出来,现在缺这个东西。所以,从汉字改革来讲,将来应该是拼音的一个序列加上区分符。但是从现在基础的研究来说,首要是进行汉字字形的形式化描述,建立一个类似于国际音标的标准,这件事情是非做不可的。

三联生活周刊:这件事情做好后,它能起到什么样的作用?

宋柔:国际上有一个标准化委员会,他把世界各国的文字的字符都规定死了,这样计算机文字才能进去,不然就进不去。对于汉字这种大字符集,2.0902万个字,最基本的unicode码放进去了,然后扩充A、B、C到将近10万字。我们有各种各样的文化典籍、古籍、姓氏用字、地名用字等不够用,我们必须要加。但加来加去它都是一个封闭集合。这是一个非常愚蠢的方法,当然这也受制于我们的认识水平。当时七八十年代,大字符集是以单个汉字作为对象。如果我们要以它的一个笔断作为对象去描述它,这就具有极大灵活性,不需要再受制于字数,这样我们就不用老申请了。所以,我觉得基础研究这件事情是最重要的,从实践方面来讲,要有拼音加区分符的一种发展趋势,并往这方面做努力。

三联生活周刊:现在国家有没有这方面的计划或工程,来让汉字更快适应世界发展潮流?

宋柔:我没听说过。

三联生活周刊:你刚才设想的一套规则,可能在实际运用中只对少数人有些帮助,但对大部分人来说还没有用。

宋柔:我不是以单个字作为基础,而是以基本构建和组合方式这套规则作为一个基础。但对普通人来说,还是可以用现在这一套系统,但是对于少数的个别的搞冷门学科的人,从事汉字教学、古籍研究的人,就可以用这种东西。比如户籍管理系统,就可以用这种东西。问题在于它不光解决百分之一的应用问题,关键是建立一个正确、合理的理论基础。建立一个理论基础就可以使你干很多事。比如汉字排序是一个很大的问题,英文排序是用字母排序。但汉字不行,汉语字典就有问题。为什么没法排序呢?现在一般用拼音排序,比如说“重”(chong)和“重”(zhong),分在两处出现,这就是一个问题。如果按照字形来排序,还是说不清,比如说“夕”和“凡”都是相近的笔画,因为笔画没有描述到特别细的地步。现在国家发布的关于汉字排序的标准,它是一个一个给定的顺序,碰到有问题就人为地去指定一下,这种处理肯定是有问题的,因为缺乏一个底层的描述体系,它是以单个字为单位的,没有再细分到基本构件上去。虽然细分有,但是搞字理字据,老百姓就比较难理解。所以要有一种纯客观的、图形层面的,有了这些东西,肯定会带来一些重大的作用。

三联生活周刊:过去我们认为汉字最有魅力的一点就是它音、形、义结合,但在今天看来它反而成了认知的障碍,但很多人还是强调“义”的价值。

宋柔:这个也就说说,真正能将理据讲清楚的汉字有多少?只占一小部分。比如“水”、“手”、“人”等词,简单的字是能讲出怎么变过来的,但是大量的字在文字演化过程中就是符号化的,你讲不出任何道理。比如简体的“书”,跟原来那个根本没关系了,已经完全成为符号了。现在说的“爱无心,亲不见”,这就是一种炒作而已。现在“爱无心”了,但是现在“爱”有一个“友”,没有“友”那叫爱吗?有“友”才叫爱。这个说起来要抬杠的话可多了去了。其实符号化,无意义的符号化是一种趋势,因为文字最主要的是实用,要写得快,认得准,理据的话跟甲骨文那时候的图形也完全不一样了。那时候你可以看得出来“日”“月”是怎么回事,但现在太阳不也是方块了吗。所以我觉得应该放弃这种字理的观念,趋势就是没有字理。当然可以的话,就留有一些符号做区分作用,比如说“三点水”、“木子旁”的解释,区分两个字,也许两个字同一个音,这些偏旁保留下来还有一定的认知作用,当然是好事。但是如果固守于汉字的理据上,把这个作为不可逾越的界限,那就作茧自缚了。

三联生活周刊:现在很多人还在呼吁恢复繁体字,你已经开始想着汉字符号化了,这种想法确实很超前。

宋柔:一个真正有责任心的语言文字工作者,应该要看到这个趋势,不能隐瞒或视而不见。我们老背着一个汉字文化的包袱,越背越重,越背肯定要花一定的时间去学,而且学生现在越来越不愿意学。你本来不需要花这么多时间去学的,你干吗非得花这么多时间去学习呢?文化传承完全可以用别的方式来进行。

(实习生尤帆对本文亦有贡献)(文 / 王小峰) 汉字拉丁化趋势汉字三联生活周刊宋柔朝鲜汉字符号化一种