机械合成语音，能最终实现吗？

发布时间：12年03月28日

编译霍飞

untitled

　　自从声码器（Voder）――贝尔实验室的模拟语音器――在1939年的纽约世博会上用勉强能辨识的声音说出“晚上好，收音机前的听众朋友们”开始，语音工程师们就一直致力于研发逼真的合成语音。与如今的自动化系统不同，声码器需要一个操作者，他知道该按哪个键来触发“语音”，而这些奇异的声音听起来像发自低音号，而不是人类。

　　整个20世纪60年代，科学家们不断改良合成语音，而讽刺的是，70年代的计算机发展却将人声带回了混录技术领域，数字录话音提供了预录的音频响应。研究者们将对话分割成尽可能小的语音、音素单元，并使用软件程序将这些单元碎片重构成单词、短语、句子。遗憾的是，这种方式听起来简直就像重构鸡块的口味一般。从90年代中期开始，不断发展壮大的数字图书馆已经考虑到存储更多能够分解成更小单元的短语以增强“声音”的真实性，但即使今天最先进的系统，诸如美国电话电报公司的合成语音演说系统（AT&T Natural Voices）仍不能抓住并体现人类的情感变化。

　　那正是葛森·希尔伯特（Gershon Silbert）――一位61岁的前钢琴演奏家于2008年创立的以色列VivoText公司的首席执行官所希望成就的那样。VivoText公司的文字-语音转换引擎运用了两种技术。其一是专业音色库，它使得对于情感的描绘成为可能；其二是希尔伯特设计的软件，用以产生可以捕获职业音乐家们表现力的虚拟音乐演奏。

　　希尔伯特认为，在有声读物、电玩、电子邮件阅读器中所使用的最好的文字-语音转换平台并非缺乏表现力。“音调忽高忽低”，他告诉我，“随着时间的推移，它们确有所表达。只是因为其所表达的情感有时是不准确或不恰当的，并且在多数情况下是不够充分的。

　　多数短语数据库已经由配音演员用平平的语调录制创建并产生希尔伯特所谓的“可用语音”，但由这些机器所产生的句子，需饱含情感的时候却往往不尽如人意。希尔伯特也想跨出这种现有技术，即将短语进行程序预编的样板，从而让句子结构变得更为开放。为了做到这点，对于给定的文本，VivoText软件会读取文本增强的标志，诸如斜体或大写的单词，并自动分析其他句法与语义要素。希尔伯特的“上下文分析”系统将使用VivoText软件，比方说，在一个问句里将强调“我们”还是“您”――“我们能为您做些什么吗？”它还能使用户通过选择多种设定（“高兴地”、“悲伤地”、“从容不迫地”、“热情地”）中的一种来进一步控制语调。正如希尔伯特告诉我的那样，“我们不想将我们的世界观强加给别人。”

　　希尔伯特从20世纪90年代中期开始涉猎这个领域，最终，为了使由计算机制作的音乐听起来更接近于真人演奏，他创造了音乐对象识别技术，但靠这项技术来营利则遭遇到了困境。“风险投资者将其视为非常小的利基市场，不值得投资。”他告诉我，“谈话的最终结果是诞生了将这种技术运用到文本-语音转换上的想法。我认为，如果那是人们想要的，我为什么不去做呢？”他的公司瞄准了电子出版市场，特别是有声读物市场，当前，它只占了美国市场上成百上千的年度新读物的很小一部分。

葛森·希尔伯特，VivoText公司首席执行官

　　“从情感方面而言，VivoText公司明显占有一些在竞争中领先的优势”，宾夕法尼亚州哈里斯堡科技大学的高级娱教技术中心（Center for Advanced Entertainment and Learning Technologies）的执行董事查尔斯·帕尔默（Charles Palmer）说。但听一本100万字的书可能会是另一个故事。正如帕尔默对我所说的那样，“现在，我们习惯于听短时的、自发的声音，而我很想知道，合成的声音能真正吸引人多久。”

　　然而，希尔伯特承认VivoText软件并非要和德里克·雅各比（Derek Jacobi）（1938― ，英国演员、电影导演）竞争朗读莎士比亚的作品，他说，对于信息类或技术类图书，他那相对流畅的文字――语音转换引擎将做得很好。同样，对其他一些声音支持平台，诸如玩具、游戏、GPS导航、手机短信和电子邮件朗读同样适用。虽然希尔伯特并没有说哪些上述平台会率先使用VivoText，但公司正计划尽量及时地为您推出其第一款产品，不仅仅满足阅读，更满足您想听到它的念头，并且带有“感――感――感――觉――觉――觉”，希尔伯特如此希望。

资料来源 The Atlantic

责任编辑粒灰

――――――――――

本文作者阿尼·库珀（Arnie Cooper），美国圣巴巴拉市自由撰稿人

?相关链接?

美国专利局授予苹果文本语音转换专利

苹果Siri语音功能

据Electronista网站报道，2011年10月，美国专利和商标局授予苹果文本到语音转换过程中的一个新的专利，这份题为《文本到语音合成的多单元方法》的专利文本，描述了苹果处理字符串和相匹配音频库中内容的方法，包括元数据、衔接关系、如何通知处理器让短语声音更为自然等技术，同时该专利还允许软件支持客户端-服务器架构，让发声过程远程进行。

2-链接