声音识别技术取得实际进展

发布时间：94年04月28日

Chitopher O'malley 编译蓝彧祥

用清晰响亮的声音指控计算机，为盒式磁带录音机编制程序，或拨电话号码，这只不过是一些初步成果。

指控无生物的能力就像你希望你的狗是一个单纯的东西或是一个小奇迹那样，这取决于你的期望。但有—点是肯定的：声音识别技术是现实的，而且正在出售中，价格不超过300美元。声音指令不仅适合于计算机，而且还可以拨电话号码，或为盒式磁带录音机编制发布适当指令的程序。类似的选择不久就会到达应答机、电视机、立体声系统和自动出纳机。

声音识别技术在实验室停留了几年之后，终于迈开了它的第一步（虽然是谨慎的一步），走进办公室、起居室和汽车。尽管实现制造反映人类任何语言方式的“听力”智能机的理想还需要几年或许几十年的时间，但使机器可靠地反映少数语言指令方面却取得了显著进展，而且导致大批出现的声音“指令控制”产品。

在这些有广泛销路的报单中，最突出的产品是声动力技术公司（Voice Powered Technology）名叫盒式磁带录音机声音程序编制员的声音激活遥控装置（169美元）；微软件公司（Miercsoft. Corp. ）绰号叫窗声系统的个人计算机声音识别配套元件（289美元）；名叫Doufone 600的无线电话间声音激活电话（139美元）和奈尼克斯公司（Ngnex Corp.）完全可以被称为声音拨号的声音拨号电话业务。此外，利克萨斯（Lexus）、林肯（Lincoln）和其他汽车制造商正把声音激活蜂巢式电话安装在它们的豪华型汽车上，今年NCR公司将开始把它的许多银行自动出纳机改成能识别持卡人声音而不是识别身份证号码的机器。

据马萨诸塞州利 · 克辛顿音响情报协会一家研究公司说 · 无疑未来将会有更多的声音识别产品出现。预计今年语言识别产品和业务的商业市场（5年前几乎不存在）将达到2.5亿美元，近10年内将超过10亿美元。而且这个估计主要是针对专业和“附加”声音识别产品，没有考虑不久就能在电视机、盒式磁带录音机等等装置中建立声音潜在能力的可能性。

按照指令控制标明的含义，大部分较新的日用声音识别系统是按钮、杠杆或指令单的代用品。就该作用来说，只需要在相当少的限定词汇内给计算机编制一次“懂”几个词的程序。相反，试图运用口头指令的声音识别系统则必须准确反映由无数单词组成的仅有临界准确的声音。

即使就更朴素的目标而言，声音识别仍是一项很复杂的任务。把声带产生的声波变成数字机能理解的1和0（或二进制代码）数字流，需要相当大的计算能力和被称为数字信号处理机的滤声专用集成电路。

硬件是比较容易制造的部件。创造使硬件“听取”正确翻译的软件是成功处理语言的最大障碍。而且也是不可思议的难题，因为两个人的声音不可能是完全相同的。每个词的速度、音高和发音都会影响说话的音量，而这些因素又受诸如说话人年龄、性别和出生地之类细节的影响。根本不存在不费力就能确定一个词的始末或弄清谈话语调（例如，“是，嘿，嗯……”）意义的规则，这一点好像是不足以引起争论的。

虽然满足这些要求的程序已在缓慢发展，但某些更先进的编程技术则展现了伟大前程。正如许多早期程序所做的那样，不只是试图用嵌入式词典比较声音，而是较新的声音识别软件试图应用语言、语法，甚至上下文规则弄懂谈话材料的意思。这些规则（采用很复杂的数学算法形式）有助于软件迅速从大量资料中检索出模式字或关键词。

尽管这种软件很多仍需获得特定人说话方式系统的某种训练，但能被任何人利用的所谓“说话者无关”系统正在增多。就制造商来说，说话者无关比训练或“说话者相关”方法难，而且准确度一般较差。但说话者无关系统也是较易应用的主要日用品。

应用指令控制法的声音识别系统已被用于军事模拟、工厂装配线、邮局分类中心和华尔街贸易场所。例如，在纽约希尔森 · 莱曼（Shearson Lehman）兄弟的营业所，商人们都用可使他们处理的交易额增长2倍的声音激活系统。商人们用手机讲话，宣布买卖人的姓名、数量和价格。该系统大约能说2，000个词汇，并能在贸易场所的喧闹声中识别某位商人的声音。

消费者是否看到了一些可比利益，还有待观察。迄今为止，一般应用都集中在过分简单的工作上，例如让盒式磁带录音机遥控反应像“录音”和“反绕”之类的口头指令，或在你说“乔治”时促使电话拨正确号码，用声音做这些事情也许很灵巧，但按单按钮往往也能同样迅速地完成这些事情，而且准确度可靠。

一旦人们得不到基础训练，还是有利用这些先驱成就的指望。例如，盒式磁带录音机声音程序编制员，如果人们利用它改变波道或发出像“停止”和“放音”之类的单指令的确很难创造生命力，特别是因为人们在对嵌入式微电话讲话之前必须按遥控装置的声音按钮。但是一旦人们掌握了适当词序，遥控装置就能使盒式磁带录音机较快顺利地按程序工作。例如，为了在星期三下午9点用波道5录下正在广播的半小时节目，人们就得按声音按钮，并说：“录音，5，星期三，下午9点，下午9点30分”。在说这些话时，这些装置就会出现在遥控小液晶显示屏幕上。

存在一些隐蔽的缺点。为了反应声音，人们就得花一定时间“训练”盒式磁带录音机的声音程序编制员，如果你家庭（适合于4个用户）中的其他人愿意使用遥控，他们也得做同样的事情。但也有令人愉快的惊奇之处。说短语“除去它”，盒式磁带录音机就会向前跳过约一分钟的磁带，从而越过广告节目，另一个增益是盒式磁带录音机的声音程序编制员实际上对任何盒式磁带录音机、分线盒和电视机都起作用。

盒式磁带录音机不可能长久独立。主要家用电子设备公司——包括索尼、菲利普斯（马格纳沃克斯，西尔瓦尼亚）、汤姆森（美国无线电公司，通用电气公司）和松下（帕拉索尼克，技术设备，类星体）——几年来一直都在研究声音指令系统。松下公司甚至还在日本销售声控盒式磁带录音机遥控装置。例如松下公司使用了提供音频提醒交互式系统：“录音在何时开始？”反应声音的音频系统也刚冒出地平线。例如，松下公司在激光唱机中应用了和它用于研制盒式磁带录音机遥控相同的语音识别研究成果，索尼公司正在日本销售具有声控装置的汽车立体声系统，因而驾驶员能手不离驾驶盘。

迄今为止，计算机用户已成为声音识别技术的主要受益者。少数公司提供了听写目的的昂贵软、硬件包。但目前若干成长中的公司正在销售国际商用机器公司兼用计算机或麦金托什计算机的廉价升级配套元件，该元件能反应口头指令。这些典型配套元件包括音频拾音器插件、传声筒、耳机和声控软件。

使用微软公司的窗声系统，人们就能在窗外作业系统内行走，发现12个以上普通程序的一系列有限指令。也可以把单词加到窗声系统的词汇中，创造能执行包括单指令在内的一系列指令的“语音宏指令”和调整适合人们发音的软件。飞龙系统（Dragon System）的谈话增益装置（149美元）和科沃克斯公司（Covox Inc.）的声音主盘系列（199~239美元）都可以执行磁盘操作系统的类似任务，就像说话系统（Articulate System）的声音自动导航仪产品（399~699美元）执行麦金托什计算机的任务一样。

声音指令能力最终很可能在许多个人计算机中建立起来。至少有这样一种个人计算机已经存在——最近在纽约州埃尔姆斯福特宣布的温技术公司（Wen Technology Corp.）绰号叫486 Super Note-Voice（4，500美元）的便携式计算机，苹果计算机公司（Apple Computer）当众表演了绰号叫卡斯珀（Casper）的声音识别麦金托什计算机，虽然该公司没有宣布提供这种计算机的计划。正在出现的这类小型个人计算机（由于机身太小以致没有像样尺寸的键盘）可能提前几年探明这块最肥沃的声音识别土地。

声音识别电话和电话业务也已成熟。在美国，无线电话室的Duofone 600（可用声音指令拨20个人名的号码）就是这种业务的开端，而不是终止。今年，声动力技术公司（制造盒式磁带录音机遥控装置的同一个公司）宣布了提供分离声音拨号装置（人们拿起电话受话器）的计划。

可是用声音拨电话号码不需要任何专门设备。奈尼克斯公司的声音拨号设施使任何人都能用按钮拨号或转盘电话为电话公司的计算机编制姓名和号码程序。当人们拿起受话器说出被呼叫人的姓名时，该设施就会拨电话号码。奈尼克斯公司计划在夏季由它的纽约和新英格兰电话局开始进行这项业务。同样，麦科蜂巢电话公司（Mccaw Cellular）最近宣布，它正在增加其蜂巢电话网的声音拨号能力。

就汽车电话而言，声音激活拨号打扮得更加漂亮精致。声音激活蜂巢电话允许驾驶员一边打电话一边注意道路和控制驾驶盘，从而使其成为一个重要的安全特征。奥迪奥沃克斯公司是把声激拨号用作CTX-4200汽车电话（795美元）标准特征的第一家公司，但现在大多数主要蜂巢电话制造商则把声音激活用于汽车可任意选择的附加配套元件。目前一些类似的电话适合作若干豪华汽车的工厂安装选择对象，包括莱克萨斯、林肯和罗尔斯-罗伊斯型汽车。

虽然拨号对声导电话具有最重要的用途，但不是唯一的用途。奈尼克斯公司的声音拨号业务允许用声音指令代替现有业务的电码，例如呼叫转运和应答。美国电话电报公司（AT&T）已开始使用声音识别处理像帮助收集电话和姓名地址录之类的话务员业务。例如，在美国的一些地区，用计算机询问打电话者是否要求向受话者收费，然后询问电话接收人是否愿意接这个电话。该系统能根据发音反应识别像“由收者付款”、“是”和“不”这类词语，并照此处理电话。

美国电话电报公司、MCI公司和斯普林特公司（Sprint）都在试验使用声音识别而不是用代码打长途电话的名片，而且应用语言技术的外语翻译业务也在发展中（见“输入英语，译出德语或日语”）。

下一个目标可能是信息和声音邮件业务。不是通过混乱的按钮拨号指令单（“这个按1，那个按2…”）或用电话键垫令人厌烦地全部写出姓名，而是用声音控制系统让人们顺利地达到这个目的，就像同现场话务员打电话那样。例如，北方电信公司（Northtern Telecom）目前正在试验名叫股票会谈（Stock Talk）的业务 · 让打电话者说出公司名称就能完全收回股票报价。

声音识别也可能使通信业务和其他形式的业务更可靠，在数字声音实例或“声纹”基础上提供明确的识别。声音控制系统为名叫说话波纹显示装置（Speech Print ID）的电信业务创造了声音核实系统，任何一个打电话者只要其说话输入信号和存储的声波纹一致就可以使用电话。

美国电话电报公司最大的银行自动出纳机制造商NCR分部最近宣布，今年它将开始试验若干银行自动出纳机的声音核实效果。新型自动出纳机使用“灵巧卡片”，看上去就像普遍银行卡，但不使用磁条，而是用迭片微处理机和存储芯片代替塑料壳内的磁条。为了应用自动出纳机业务，用户必须说出口头指令或短语，然后把它和卡片上的声纹进行比较。因此小偷想要利用偷窃卡几乎是不可能的。

显然，在今后几年内声音控制将在人们操作各种装置方面起较大作用。虽然不怎样应用，声音识别技术仍需证明它们作为输入装置还是有价值的竞争者。如果不能证明它们既省劳力又可靠，那么许多人就很可能不赞同所谓实践证明它们是可取的说法，音响情报协会主席约翰 · 奥伯托伊弗（John Oberteuffer）特别提到：“按按钮比用可靠性低于100%的某东西容易，这就是我们的最大挑战。”

［Popular Science年5月］

期刊目录 contents

科学家演讲

天体物理学

化学

生物学

生物技术