记者问:请您谈谈目前汉字编码的情况。
支秉彝同志答:我现在可以讲一下,国外现在文字的信息处理发展很快,这是由于国外文字的情况比较方便,它是拼音字,只有二十六个字母,它变成信息在计算机里进行处理是比较方便的。中国呢?在五年之前,菌内才刚刚开始研究汉字信息处理,这方面最困难的问题是汉字怎么进入计算机。刚才讲了英文字在键盘每一个字母就是一个码,打出来就变成码,就变成信息,就可以进入计算机进行处理。中文就不行,中国字是方块字,形象字,怎么进入计算机?我们要发展汉字信息处理,主要是要研究汉字信息输入的问题。怎么把汉字变成信息呢?就是汉字编码,把汉字编成码。我们电报打出去不是要把一份电报变成电报码吗?电报码是数字码,这是我们早就知道的,但是电报码存在的问题是码同字不发生关系,所以打电报,第一先要把汉字找出来,看汉字对应什么号码,然后拍发过去,接收到的是号码,然后再根据号码把字找出来,因为码和字不发生关系,记不住,所以不大方便,不像外国看到字母就可以打。现在世界上有很多人开始研究汉字怎么样编成码,输入到计算机里去,美国、日本都在研究,台湾比我们研究得早,我们大概在五、六年前开始研究这个问题。现在研究出来的汉字编码方法多得很,据说大约有一百五十至二百种编码方法。哪一个好,现在还很难讲。码的好坏,主要是看使用者使用是否方便,学习是否简单,这要使用者去讲,而编码的人很难讲,自己的码是自己想办法编出来的,而人家的码他不知道,都讲自己的码最好,因此,到现在为止,很难订出标准码。
过去我对文字也没有什么研究,是半路出家。文化大革命时,我那时关在牛棚里,没有事做,看到墙壁上很多大字报,有汉字在那里“坦白从宽,抗拒从严”,就想到这个问题。我想电报码不方便,是不是有可能看着汉字就可以把码打出来,就是所谓“见字识码”,看着字就知道它的码。同英文字一样,见字就可以打码。那时反正没事做,就想来想去。要达'到这个目的,需要几个条件,一个就是务必要码同字发生关系,发生关系有两种关系,一种是字的声音,一种是字的形状,同字的义很难发生关系。字的声音就是拼音,拼音是不是可以用来做码呢?当然可以。但是有个问题,汉字是单音字,同音字多得不得了,你怎么区别呢?例如弓长张与立早章就有区别,拼音都是Zhang,就分辨不出来,计算机没有办法分辨。字的形状,像我们的四角编码,但是四角编码的问题是重码很多。什么叫重码呢?五个数字码,还有很多相同的字,用来查字典是可以的,但汉字信息处理就没法用,计算机没有办法来分辨。现在我们搞的“见字识码”,就是看到一个字,先利用它的形状,采用我们国内一般分辨通用字的办法,如打电话,人家问:你贵姓,我姓吴,什么吴,口天吴,我就用口天吴,口字就是K,因为口字汉语拼音的第一个字母是K,天就是T,吴就是W,我把这三个字母打进去,吴就出来了,所以看到吴就打口天吴,张就打弓长张,章就打立早章,不是能区别了么?我们不是看到字就知道码了么?说来这是很简单的。
记者:有些汉字好像不能拆。
支:好拆,没有一个不好拆,都可以拆成四个字母。
记者:拆的规则应该一改。
支:对、对,有四个规则,保证它有唯一性,就是你拆的同我拆的一样,如果不一样,把规则一用,谁对谁错就清楚了,繁体字好拆,简体字也好拆。有四个规则,一个规则是,一个单元(字元)四笔以下可以不拆,还有条规则,要四个字母组成一个字,为什么四个字母呢?二十六自乘四次,就是四十七万,现在只要四千个字就可以解决问题了,四千字中常用字占百分之九十九,所以我一定要四个字母,这就不会重复码了,假如是两个单元(字元)的,如口天吴,这不是只有三个字母吗?就用最后一笔,一捺就是再加上去;如果是三个单元(字元)的话,就不要打本身字了,如服侍的“侍”字人士寸最后用了一点;最好是四个单元(字元)的,如走路的“路”,口止文口,口是K,止是Z,文是W,口是K,就把这四个字母打进去,路就出来了,这是很简单的事,这是见字识码,我们所的姑娘们现在一边看字一边就打。
记者:一分钟可以打多少字?
支:旧码一分钟可以打到六十至八十,新码可以打到一百至一百二十。
记者:新码和旧码有什么区别?
支:新码是现在新搞的,对外是保密的。新码是在旧码上面加了一点花样。不是每个汉字打四个字母吗?现在我把常用的字只打一下,不就是更快了吗?什么字可以打一下子,好比最常用的“的”字,我就打个D,后面就自动加三个0等于D000,还是四个,还有好几个最常用字,都是二十六个字母单打的,我还要扩展,字母只有二十六个,代替最常用的字,但是还有办法,打字机前面还有一排数字1、2、3、4……,我打一下,出来就是一个数字,这不是又多了十个,另外再打一个零就是十,二个零就是百,三个零就是千,打四个零就是万字,不是又多出来了。此外,还有词汇,这是我在1975年时就想出来的,因为中国汉字,过去康熙字典里是四万多字,现用四千多字就够了,有很多字不用了。文化发展了,科学发展了,名词术语多了,为什么字反而少了,什么道理?道理就是现在不搞新字,而搞词汇,比如讲,革命,在外国是一个字,在中国革字是一个字,命字是另外一个字,拼起来就变成一个词汇。好比无线电,它是三个字拼成一个意思的词汇,所以中国的单字,有许多是不成为词汇的。现在这种词汇多得不得了,你拿张报纸来看,都是很多词汇,我现在就把最常用的词汇字来变成词汇码,例如四个字,如无产阶级,无是W,产是C,阶是J,级是G,把四个字母打进去,本来要打十六下,现在只要打四下,这也是新的改进。现在我们打字时,平均打一个汉字不是四下,而是二点五下,我们所的姑娘们,现在每分钟可打一百个到一百二十个字。
记者:那一定要对码、对拼音很熟悉。
支'不用很熟悉,用拼音拼字,要熟悉拼音,见字识码不要,我只用第一个字母,后面没有关系。
记者:卷舌音呢?
支:我不管,反正只用第一个字母,如支,Zhi,我只用不用H。中国南方人也不区别卷舌音,这不是汉语拼音,是见字识码。我这个编码还有个好处是,同电报局一样,电传打字机上可用,我这边打,出来就是汉字,假使打到国外去,利用我这个机器,马上就可以变成汉字了;新华社,它拍发消息,过去都是先变成英文,国内再翻译,我这个就不一样了,外国电传打字机上都有二十六个字母,你打我的码可以,打电报码也可以,同时可以,打字员打电拫码或是打我的码,打到中国来了,接收下来,就是我的码,打出来就是汉字,所以我的打字机可以与国外的电传打字机联合使用,电报局可以不用把设备都换过,只要接受我的就行了。我们的见字识码,就是真正的看到字就识到码,同打英文字一样,用这个方法不脱离二十六个字母,总在二十六个字母里打滚,可能打四十七万字,键盘同普通英文键盘一样,这第一方面讲的是输入码的问题。输入的困难,我想是解决了。
记者:根据我的理解,您的汉字编码是根据汉字的形状,汉字简化后,它要不要改?
支:要改。第三次汉字简化,我上了大当,我是积极分子,马上就改,可是过几天又取消了,我花了很大力气再改回来。
第二个问题是汉字信息处理现在有什么应用?首先是电传,打电报,这边打过去,那边汉字就出来了;其次是搞检索系统,什么叫检索呢?你把人事档案都存在磁盘里面,你把你的名字打进去,有同名同姓的,就分江苏省、浙江省……,或者是年岁不一样,马上把你的人事档案调出来,可以在显示屏上看,可以印出来给你,这是人事档案,还有图书馆,你到图书馆去查一本无线电物理,打进去,它就可以把所有的书拿出来给你看,你说你要哪一本他就给你,哪一页你要印出来,就给你印出来,这是检索系统;还有管理系统(如仓库管理等)和银行系统,银行是指连接起来的银行网络,如果你去一个分行存款,你磁卡一放,里面就显示出来你存了多少款,就像存款单子一样,你要拿多少钱,它就可以给你后,再扣除一笔账就记下来了,下次你来了,磁卡一放,就把你的东西调出来了,每天银行里的账,它可以马上算好。晚上,它就汇总到总行,总行把各分行的账目加起来。还有订购票如买飞机票,你来订票,它就把你的名字打进去,这时全世界卖票的地方都知道这张票已经卖掉了;还有办公室系统,办公室里打一份资料,要报送哪几个机构,你一打,他哪几个机构的打字机就打出来了,人家送资料,你的打字机上就打出来了,像电传机一样。还有印刷系统,可以把文章打进去,还可以把报纸稿打进去,在显示屏上一看,看到哪里错,编辑可以删掉一点,也可以增加一大段进去,字错了也可以改一改,一篇稿子好了,一按就印出来了。
上海有台IBM大机器,我想在上海搞一个典型,把上海这个一千万人口的档案储存在里面,你要调查一个人,把名字往里一打,什么地方生,住在什么地方都有。
还有一个问题,现在系统很多,如印刷系统等等,我们要考虑标准化,每个系统都有字库、键盘、显示屏等,要能做到标准化、通用化、简便化,你要用什么系统、我就用标准接口接好,这样系统发展就快了,这是我们所正在研究的问题。如果不考虑,这个系统要重新搞过,那个系统要重新搞过,所以我们现在的工作是系统如何标准化,另外,还有系统的工业化,不单是研究所拿出来表演表演,而要能够生产,现在上海已经组织生产了。上海电表厂统一生产这种机器,明年就可以出厂。今天我就介绍这么一点,这是个很大的工程,现在国家很重视,一机部很重视,有位副部长支持我们干这个工作。现在我最后讲一句话,任何一个研究工作,如果没有领导的支持,就一事无成,我们这个工作就是一机部支持,我们今天才能做出成套的东西。另外,还有一个问题,就是硬件,并不是我们技术不行,但大规模集成电路,在数量和质量还不够,所以我们现在在同德国合作搞。
(整理者:沈彩虹 史柯)