语音识别技术已为消费设备做好准备

作者:Linley Gwennap

今年似乎是语音识别技术最终走向主流的一年。摩托罗拉在奥斯卡颁奖典礼上发布了“Mya,24小时在线的互联网”。Tellme.com 和其他初创公司正在部署语音门户,这些门户接受语音命令并通过标准电话读取网络内容。最新的捷豹汽车允许驾驶员使用语音调整气候和音响系统。

这些服务中的大多数都在远程服务器或PC上运行,那里有充足的处理能力。但捷豹的例子说明了一个问题:CPU性能已经达到了即使是廉价的嵌入式处理器也可以执行有用的语音识别的程度。在未来几年内,语音将成为各种非PC设备中的常见接口,其中许多设备将运行Linux。

直到最近,语音识别还需要每个用户训练系统来识别他或她特定的语音模式。然而,像大多数其他软件一样,语音识别随着更快的处理器和更多内存而改进。最近的产品大大缩短了训练时间。与说话人无关的软件完全消除了训练。为了在适度的处理要求下实现高度准确的与说话人无关的识别,设计人员必须限制应用程序的上下文和词汇量。例如,汽车只需要识别几十个单词,包括“温度”、“收音机”以及选择电台所需的数字。

Lernout & Hauspie (http://www.lhsl.com/) 是一家领先的语音软件供应商,为简单和复杂的应用程序提供语音引擎。L&H 产品管理总监 Klaus Schleicher 表示,最简单的语音引擎提供多达 100 个单词的与说话人无关的识别,但需要不到 200K 的内存。L&H 提供更强大的语音引擎,可以识别多达 1,000 个单词,同样无需训练。该引擎需要 2MB 的内存,可以在 200MHz 处理器上运行。这种硬件成本稍高,但今天仍然可以轻松以 30 美元的价格获得,而且价格会随着时间的推移而下降。更大的词汇量适用于电视机顶盒等应用,可以通过说出节目名称进行编程,或者可以通过语音管理日历和地址簿的手持 PDA。

撰写任意文本,例如电子邮件消息,需要更大的词汇量。为此,L&H 拥有一个词汇量为 20,000 个单词的语音引擎——是普通成年人的两倍。该引擎需要一些训练,但每个用户只需大约五分钟。即使是如此大的词汇量也不需要功能齐全的 PC 或服务器;该公司已使用 200MHz StrongArm 处理器和 32MB 内存对其进行了演示。该语音引擎可以集成到 webpad 中,允许用户无需键盘即可撰写电子邮件和其他文档。

一个问题是这些语音引擎仍然不是 100% 可靠。词汇量越小,错误率越小——毕竟,混淆的单词更少。此外,“命令和控制”应用程序有自然的机会寻求澄清。例如,如果用户在嘈杂的房间里说“关掉电视”,系统可能会回应“我没听懂;请重试”或“你想关掉电视吗?”在这些有限领域的应用程序中,软件实际上会解释语音输入以确定其含义,在本例中,是关掉电视。输入音素的一种可能的解释可能是“turnips are meaty”(萝卜是肉质的),但软件会很快将这种可能性视为与控制电视无关。这种智能解释称为自然语言处理 (NLP)。良好的语音识别和良好编程的 NLP 后端的结合可以产生可靠的系统。

一个工作示例是 MIT 的 Jupiter 系统,这是一个由该大学的口语系统组构建的用于天气信息的对话界面。您可以拨打它的电话(1-888-573-8255,但经常繁忙),并询问美国或世界任何地方的天气。它使用运行 Linux 的 500MHz Pentium III PC,但尚未针对降低 CPU 开销进行优化。Jupiter 的词汇量约为 2,000 个单词,非常实用。然而,文本听写具有更大的词汇量和无限的内容领域:电子邮件消息可能具有任何主题,甚至是萝卜。此应用程序的 NLP 难度更大,通常仅限于将名词和动词放在正确的位置。即使是最好的语音引擎,在口述了几百个单词后,用户也可能需要返回并纠正至少十几个错误。

因此,对于可以使用键盘且用户可以熟练打字的应用程序,在可预见的未来,打字可能是最有效的界面。但 L&H 的 Schleicher 表示,“对于各种设备上的通信和计算,人声是最自然的**用户界面**。” 对于汽车、信息家电、机顶盒甚至 PC 中的命令和控制应用程序,语音识别是一个出色的界面。硬件只需要正确的编程——以及您的声音。

Voice Recognition Ready for Consumer Devices
Linley Gwennap (linleyg@linleygroup.com) 是 The Linley Group (http://www.linleygroup.com/) 的创始人兼首席分析师,该公司是一家位于加利福尼亚州山景城的技术分析公司。他曾任《Microprocessor Report》主编。
加载 Disqus 评论