计算机在语言分析和辞书编纂中的应用

发布时间：85年08月27日

Henry Kuěera 编译詹晓宁

[译者注]亨利 · 库查拉（Henry Kuěera）：布朗大学语言学和斯拉夫语言教授。本文描述了电子计算机在语言分析和词典编纂中的应用。

在考虑编辑一部新词典时，词典编辑者面临着一系列基本问题。如：词条的数量和筛选，词义的确定和体例设置，及词的用法释例等。自然也要事先考虑到词典的部头、使用对象和出版商的投资数目等一些非语言性的问题。但最令词典编纂者煞费苦心的，却是他所要描述的那一语言的现状。为此，他得搜集那些能说明现行用法的引例。分析、研究规范语言中的词汇、语法及语义特征。

与此同时，词典编纂者会发现，悉知大量的语言资料中的基本词汇特征颇有益处。而这方面的知识，从所辑选的孤立的引例中获得是不可能的。假如手头有一部较有代表性的当代文章汇编，他会期望了解诸如选文中所用的词汇量，使用了哪些词，每个词的使用频率等情况。编纂者也常常关注那些对词的用法中某些特殊细微语义差别能够提供有用资料的选文。在很大程度上，这也是专事语言结构理论研究的理论家和机器翻译发展工作的实干家们的兴趣所在。

任何对语言使用所做的有价值的分析，都必须建筑在大量的语言材料基础之上，在应用电子计算机以前，即使是最基本的数据也要靠大量的人工劳动获得，如果用人工（更确切地说，用人脑）去确定一份一百万词的文字材料中某些最基本的词汇特征，将耗费巨量的时间。要对这一百万个词进行逐个分析，并确保经过分析后新录的词不是前面词的重复。假如这一工作还包括统计单个词的出现频率，或引注词的原文出处，工作量就更令人望而生畏了。从前，孜孜不倦的语言学家、词典编纂者及他们的学生们用这种耗时费力的手工方法对语言只作了有限的分析，这类工程不仅旷日持久、单调乏味，并且还极易出错。而现代化的电子计算机则不然，它既不会有烦躁感，又不易出错（只要程序编制无误，机器没有技术性缺陷）。电子计算机是这类统计分析工作的理想承担者。

并非像人们对它的称谓和某些词典释义的那样，电子计算机不仅仅是用于计算的机器，它的功用远远超过了这一职能。除从事数字运算外，计算机还能够对包括文字材料在内的非数字性信息进行加工、编组、对比及处理。确切地说，正是这种处理字母、词、句子甚至整篇原文的能力才使得计算机在语言研究中占据相当重要的位置。语言学家和词典编纂者认为，电子计算机是一种新型有效的工具。它不但使语言分析节时省力，而且开阔了人们观察语言应用的重大疑难的视野。

《美国传统英语大词典》（The American Heritage Dictionary of the English Language）的编纂者们，在着手编辑这部词典前，使用电子计算机作了一个对美国辞书编纂的分析。他们选中了一部叫《当代美国英语标准资料》（Standard Corpus of Present-Day Edited American English）的文集作为分析材料，共收辑500篇范文，每篇约有2，000词。500篇文章分属于15种文体——分别代表不同的题材和风格，（不包括诗歌和戏剧）：从报纸上的体育之页到学术期刊；从通俗的浪漫小说到深奥的哲学论文。文集中的全部选文都是用随意抽样的方法从美国一年内第一次发表的出版物中剪辑的。

这些语言素材一旦变成适合于计算机加工的形式（即：打印在卡片上或录制在磁带上）就能使分析语言特性和获取对词典编纂的有用的信息的过程变得相对容易，速度也相应加快。

其他暂且不谈，首先，分析的结果表明：在一百万个词中，用了整整50，406个不同的词。使用频率最高的十个词是：the（69，971次）；of（36，411次）；and（28，852次）；to（26，149次）；a（23，237次），in（21，341次），that（10，595次），is（10，099次），was（9，816次），he（9，543次）。

（待续）

期刊目录 contents

封面文章

筑波博览会’85

科学界采访

药物化学家高怡生

分析化学家汪厚基

计算机革命四十年 ——阿瑟 · W · 伯克斯访问记

具有学习和发现能力的适应性计算系统

摩擦消失

地学

大陆漂移的实测及其数据