语音识别:非常简短的入门课程



要使外行人尽可能简单地了解计算机语音识别并将其转换为文本的工作几乎是不可能的。没有复杂的公式和数学术语,没有一个完整的故事是完整的。我们将尝试尽可能清晰,简单地解释智能手机如何理解语音,何时汽车学会了识别人的声音以及在哪些意外领域使用了该技术。

必要的警告:如果您是开发人员,尤其是数学家,则不太可能从帖子中学到任何新知识,甚至抱怨材料的科学性不足。我们的目标是以最简单的方式向未入门的读者介绍语音技术,并说明东芝如何以及为何着手创建自己的语音AI。

语音识别历史上的重要里程碑


电子机器识别人类语音的历史比通常认为的要早一些:在大多数情况下,习惯从1952年开始倒数,但实际上最早响应语音命令的设备之一是Televox机器人,我们已经写过它。 Herbert Televox机器人于1927年在美国创建,它是一种简单的设备,其中各种继电器对不同频率的声音做出反应。机器人有三个音叉,每个音叉都负责音调。根据哪个音叉工作,一个或另一个继电器被激活。

图片
实际上,包括命令识别系统在内的Televox的整个``填充''都位于``机器人''主体区域的机架上。无法合上盖子,否则音叉将无法正确地“听到”声音。资料来源:Acme Telepictures / Wikimedia。

可以通过口哨与Televox作为单独的信号进行通信,并以简短的言语提示-它们的音叉也以一系列声音布置。机器人的创造者罗伊·温斯利(Roy Wensley)甚至在那段时间进行了精彩的演示,说出了“芝麻,打开”命令,Televox通过该命令打开负责开门的继电器。没有数字技术,神经网络,人工智能和机器学习-只是模拟技术!

下一个为真正识别人类语音铺平道路的关键发明是Audrey机器,该机器于1952年在贝尔实验室创新锻造厂开发。巨大的奥黛丽(Audrey)消耗了大量的电能,相当于一个好的橱柜的大小,但是它的所有功能归结为识别从零到九的口头数字。是的,只有十个字,但请不要忘记Audrey是一台模拟机。
图片
不幸的是,这个故事并没有保存奥黛丽的公开照片,只有一个概念。简单易懂,难以翻译-根据当代回忆录,奥黛丽的组件占据了整个橱柜。资料来源:贝尔实验室

它的工作方式是这样的:播音员向麦克风讲话,在单词之间至少间隔350毫秒,Audrey将听到的声音转换为电信号,并将其与模拟内存中记录的样本进行比较。根据比较结果,汽车在仪表板上突出显示该数字。

这是一个突破,但Audrey并没有真正的好处-机器以97%的准确度识别了创作者的声音,其他经过特殊培训的扬声器的准确度为70-80%。首次联系奥黛丽的陌生人,无论他们多么努力,都只有50%的情况在计分板上看到了他们的人数。

尽管有当时的革命性成果,奥黛丽还是没有找到,也没有找到实际的应用。假定可以改编该系统而不是电话运营商,但是与Audrey相比,人工服务更方便,更快且更可靠。

演示与Audrey相似,只是尺寸更小得多-IBM Shoebox。鞋盒速度清晰可见。机器还可以执行简单的加法和减法数学运算

1960年代初,在日本,英国,美国甚至苏联进行了语音识别机器的制造工作,他们发明了一种非常重要的时间轴动态转换算法(DTW),借助该算法可以构建一个知道200个单词的系统。但是所有的发展都是相似的,识别原理成为一个共同的缺点:单词被看作是完整的声音指纹,然后根据样本(字典)对其进行检查。单词发音的速度,音质和清晰度的任何变化都会严重影响识别质量。科学家有一项新任务:教机器听个别的声音,音素或音节,然后用它们说话。当根据说话者而定的识别水平急剧变化时,这种方法将有可能使改变说话者的效果成为可能。

— , . , « » «» «». «» « » « » «», — «». , , .

1971年,美国国防部高级研究计划局(DARPA)启动了一项为期五年的计划,预算为1500万美元,其任务是创建一个至少知道1000个单词的识别系统。到1976年,卡内基·梅隆大学(Carnegie Mellon University)引入了Harpy,该词典可以操作1011个单词的字典。 Harpy并未将完全听到的单词与样本进行比较,而是将它们分成了音素(音素的样本取决于周围的字母)。这是另一项成功,证实了未来在于识别单个音素而不是整个单词。但是,Harpy的缺点之一是对异音素(音素的发音)的正确识别率极低-约为47%。由于存在如此高的错误,因此错误的比例随着字典数量的增加而增加。

描述哈比的工作方式。该程序的视频无法幸存。

Harpy的经验表明,建立整体的声音指纹词典是无用的-它只会增加识别时间,并大大降低准确性,因此全世界的研究人员都走了一条不同的道路-识别音素。在1980年代中期,IBM Tangora机器可以学习理解具有任何口音,方言和发音的任何说话者的语音,它只需要进行20分钟的培训,就可以在此期间积累音素和异音样本的数据库。使用隐藏的马尔可夫模型还使IBM Tangora的词汇量增加到了令人印象深刻的20,000个单词-比Harpy多20倍,并且已经可以与该少年的词汇量相提并论。

从1950年代到1990年代中期的所有语音识别系统都不知道如何阅读人的自然口语-他们不得不分开发音,在两者之间停顿。真正的革命性事件是引入了1980年代开发的隐马尔可夫模型-一种统计模型,该模型基于已知元素建立了有关未知元素的精确假设。简而言之,隐藏的马尔可夫模型在一个单词中只有几个可识别的音素,因此可以非常准确地选择丢失的音素,从而大大提高了语音识别的准确性。

在1996年,第一个商业程序出现了,它能够区分单个单词而不是连续的自然语音-IBM MedSpeak / Radiology。 IBM是专门用于医学的专业产品,用于速写描述研究期间医生所提供的X射线结果。在这里,计算机的功能最终变得足以识别“即时”的单个单词。另外,算法已经变得更加完善,对口语单词之间的微暂停的正确识别已经出现。

1997年,Dragon NaturallySpeaking程序成为第一个识别自然语音的通用引擎。与她一起工作时,播音员(即用户)无需接受培训或使用特定词汇即可进行操作,例如在MedSpeak的情况下,任何人(甚至是孩子)都可以使用NaturallySpeaking,该程序没有设置任何发音规则。

图片
尽管Dragon NaturallySpeaking具有独特性,但IT浏览器对识别自然语音并没有表现出太大的热情。在这些缺点中,注意到识别错误和对程序本身的命令处理不正确。资料来源:itWeek

值得注意的是,识别引擎早在1980年代就已经准备就绪,但是由于计算机能力不足,Dragon Systems的开发(现在归Nuance Communications拥有)没有时间确定飞行中单词之间的间隔,这对于识别自然语音是必不可少的。如果没有此功能,例如,计算机会将“正在接受治疗”一词视为“残废”。

语音识别系统,神经网络,移动设备上的Google语音搜索以及最后的Siri语音助手的兴起,不仅可以将语音转换为文本,而且还可以充分响应以任何自然方式构造的查询。

如何听到所讲的内容并思考听不见的内容?


如今,创建语音识别引擎的最佳工具是递归神经网络(RNN),在其上构建了用于识别语音,音乐,图像,面部,物体,文本的所有现代服务。 RNN允许您以最高的准确度理解单词,并在上下文中预测最可能出现的单词(如果未被识别)。

模型的神经网络时间分类(CTC)在记录的音频流(单词,短语)中选择单个音素,并按其发音顺序排列它们。经过反复分析,CTC非常清楚地识别出某些音素,并将其文字记录与神经网络中的单词数据库进行比较,然后转变为可识别的单词。

之所以称为神经网络,是因为其工作原理类似于人脑的工作。神经网络训练与人工训练非常相似。例如,为了使一个很小的孩子学会识别汽车并将它们与摩托车区分开,您至少需要多次吸引他的注意力到各种汽车上,并且每次都发音相应的单词:这是大红色,这是汽车,而这是黑色的,是低矮的汽车,但是这些是摩托车。在某个时候,孩子会发现不同汽车的样式和共同标志,并学会正确识别汽车在哪里,吉普车,摩托车在哪里,以及ATV在哪里,即使路过时它在大街上的广告海报上看到了它们。同样,需要以示例为基础训练神经网络-使每个单词,字母,音素的成千上万个发音变体“学习”。

递归神经网络用于语音识别是一个很好的方法,因为在长期训练各种发音基础之后,它将学会从单词中区分出音素,并从中制造单词,而不论发音的质量和性质如何。甚至在单词的上下文中,也可以高精度地“思考”,由于背景噪音或模糊的发音,这些单词无法被明确识别。

但是RNN预测有一个细微差别-递归神经网络只能依靠大约五个词的最接近上下文来“思考”缺失的词。在此空间之外,将不会进行分析。有时他是如此必要!例如,为了表扬,我们说出“伟大的俄罗斯诗人亚历山大·谢尔盖耶维奇· 普希金'',其中``普希金''(Pushkin)一词(特别是斜体)被听不清,以至于AI无法准确识别它。但是根据在训练中获得的经验,一个循环神经网络可能会建议在“俄罗斯”,“诗人”,“亚历山大”和“谢尔盖耶维奇”等词旁边找到“普希金”一词。对于训练有俄语文本的RNN来说,这是一项相当简单的任务,因为非常具体的上下文使我们能够以最高的准确性进行假设。

如果上下文含糊?再拿一个无法识别一个词的文本:“我们的一切,亚历山大·谢尔盖耶维奇·普希金(Alexander Sergeyevich Pushkin)在与丹特斯(Dantes)决斗后不幸丧生。普希金戏剧节以诗人的名字命名。”如果删除“ Pushkinsky”一词,RNN根本无法根据提案的上下文来猜测它,因为它仅提及戏剧节和对不知名诗人的名字的引用-有很多选择!

这是1997年创建的用于循环神经网络的长短期记忆(LSTM)体系结构(有关LSTM详细文章发挥作用的地方。)它是专门开发的,目的是增加RNN功能,以考虑到远离正在处理事件的上下文-解决先前问题(即单词识别)的结果贯穿整个识别过程,无论独白有多长时间,并且在每种怀疑情况下都将其考虑在内。而且,移除距离几乎对体系结构的效率没有影响。在LSTM的帮助下,如有必要,单词网络将考虑任务框架内所有可用的经验:在我们的示例中,RNN将查看前面的句子并发现前面提到了普希金和丹特斯,因此,``以诗人的名字''最有可能指向其中之一。由于没有证据表明存在Dantes Theatre Festival,我们谈论的是普希金斯基(Pushkinsky)(特别是因为无法识别的单词的声音烙印非常相似)-这样的节日是训练神经网络的基础。

“对语音助手的自白。” 当训练有素的神经网络起作用时,语音助手可以准确地弄清楚“绿色拖鞋”需要做什么。

语音识别如何使世界变得更美好?


在每种情况下,应用程序都是不同的-它可以帮助某人与小工具进行通信,据普华永道(PricewaterhouseCooper)的调查,超过一半的智能手机用户向设备提供语音命令-在成年人(25-49岁)中,经常使用语音界面的用户所占的百分比,甚至高于年轻人(18-25)-65%对59%。在俄罗斯,至少有至少71%的人口与Siri,Google Assitant或Alice进行过交流。4,500万俄罗斯人不断与Alice的Yandex和Yandex.Maps / Yandex.Navigator进行通信,仅占请求的30%。

语音识别确实对工作中的人有帮助-例如,如上所述,对于医生:自1996年以来(在IBM MedSpeak出现时),在医学中,识别用于记录回忆和检查图像时-医师可以继续工作而不会因录音而分心电脑或纸卡。顺便说一句,医学听写工作不仅在西方进行,在俄罗斯,“语音技术中心”提供了Voice2Med程序。

还有其他示例,包括我们自己的示例。组织东芝公司的业务涉及全面包容,即,对于各种健康状况的人们,包括对听力有障碍的员工,平等的权利和机会。我们有一个名为“通用设计顾问系统”的公司计划,该计划中,各种类型的残疾人参与东芝产品的开发,并提出建议以提高其为残疾人提供的便利性-也就是说,我们不假设我们可以做得更好,而是根据实际经验进行操作和员工评论。

几年前,在日本东芝总部,我们面临着非常有趣的任务,需要开发新的语音识别系统。在通用设计顾问系统的运行过程中,我们获得了重要的见解:听力障碍的员工希望实时参加会议和讲座的讨论,而不仅限于在数小时或数天后阅读处理后的成绩单。在这种情况下,通过智能手机启动语音识别的效果非常差,因此东芝专家不得不开始开发专用的识别系统。而且,当然,我们立即遇到了问题。

对话与书面讲话有很大的不同-我们讲的不是写字母的方式,而且将真实的对话翻译成文本看起来非常草率,甚至难以理解。也就是说,即使我们将早上计划中的对话准确地转换为文本,也将获得不连贯的散列,其中充斥着言语寄生虫,感叹词和周到的“ aaa”,“ uh”和“ mmm”。为了摆脱文本中不必要的声音,单词和情感表达的抄写,我们决定开发一种AI,该AI能够尽可能准确地识别口语中并非总是必要的元素,包括某些单词的情感色彩(例如,“是,很好”听起来像是怀疑论或真诚的惊喜,这些字面意思是相反的)。


它看起来像是一台笔记本电脑,带有一组使用东芝AI进行语音识别的外围设备(左)和一个带有最终设备结果的应用程序(右)。资料来源:东芝

LSTM派上用场了,没有它,识别精度不足以轻松阅读和理解所接收的文本。此外,LSTM不仅可用于更准确地预测上下文中的单词,而且还可用于正确处理句子和感叹词-寄生虫中的停顿-为此,我们向神经网络教授了这些口语中自然的寄生虫和停顿。

这是否意味着现在的神经网络可以从笔录中删除插入词?是的,可以,但是没有必要。事实是,(包括另一种见识)听力受损的人受到引导,包括说话者嘴唇的运动。如果嘴唇移动,但是与这些移动相对应的文本未出现在屏幕上,则感觉是识别系统错过了部分对话。也就是说,对于听不到声音的人来说,获得尽可能多的有关对话的信息很重要,包括命运多pause的停顿和情绪低落。因此,东芝引擎将这些元素留在了笔录中,但实时地使字母的亮度变暗,从而清楚地表明这些是用于理解文本的可选细节。

这就是动态识别结果在客户端设备上的外观。独白中没有意义的部分被涂成灰色,

现在东芝AI可以处理英语,日语和中文语音,甚至可以即时进行语言之间的翻译。无需将它用作即时速记-AI可以适应与语音助手一起使用,语音助手最终会学会充分感知人发出命令时的感叹,停顿和口吃。在2019年3月,该系统已成功用于在日本广播的IPSJ国家大会上添加字幕。在不久的将来-将东芝AI转变为公共服务以及在生产中实施语音识别的经验。

All Articles