🌫️ 🤶🏿 🎅🏽 提升语音助手的难度。语言学家和开发人员的外观 📮 🌲 👧🏻

与语音助手一起工作通常被比作抚养孩子。他不断学习一些东西，在“长辈”之后重复。逐渐掌握语言和建立交流的能力。有时候，他从字面上理解一切，或者只是有些尴尬。这是因为处理语言是一个复杂而漫长的过程，需要多个专家的关注。我们请我们的语言开发人员Ivan和首席工程师Bassel分享他们在Sky Voice Assistant中的有趣案例。我们询问了两位专家相同的问题，以找出处理语言时仅凭数学为什么无法胜出，语音助手如何学会开玩笑以及为什么这样做是必要的。

你要负责什么您的责任范围包括什么？

语言学家

我负责与语音助手工作的语言方面有关的一切。这是对用户问题的分析，计划答案的逻辑，并为用户搜索或创建文本。此外，我开发了一些与文本紧密相关的服务（包括天气，提醒，新闻，敬酒，文字游戏），并收集了用于培训的内容。例如，这包括录制各种声音以激活一列。

开发人员

我负责聊天机器人的大脑。我正在写他的逻辑：他如何接收问题，他如何回答，他从何处获取数据，什么服务将在他内部工作。这是一个通讯服务和知识库，因此它可以回答任何问题。他可以转向她，说天气是什么，美元汇率是多少，为您订购出租车，设置闹钟等。

您是否认为与语音助手合作就像抚养孩子一样？

语言学家

关于儿童和机器学习，有一篇关于哈布雷的很好的文章，总的来说，这是一个流行的比喻。

但是问题是，除了训练集所包含的内容之外，人工智能对上下文没有任何了解，甚至在特定任务之外，甚至是关于世界的最基本知识，以及诸如品味和常识之类的内在评估方法都缺失了。因此，结果通常是不可预测的。

开发人员

我们不能说语音助手是孩子，因为孩子具有分析和学习的能力。语音助手是相当愚蠢的事情。您要他做某事，为他设定任务，仅此而已-他会做。
我们甚至不能将神经元视为儿童-就其本身而言，它是无法学习的。我们必须始终为她指明道路。在这种意义上，人工智能仅在神经元可以找到与您教给她的情况类似的情况时才起作用。我不认为这通常是智力，只是很大的机会。

在与他合作的过程中出现了什么有趣的情况？

语言学家，

我将回答两个。一旦我们为Alias游戏选择了单词，这是基于使用word2vec模型搜索相似单词（``关联''）的基础。我们非常谨慎地选择，无法想象与“肚脐”一词的关联是选择性的性表达，远远超出了审查制度的范围。这个词似乎太幼稚了，并且在完全不同的上下文中使用。
显然，我们对助手或用例的文本收集器一无所知。

还有一件事。一旦我们决定将俄语问候和再见列表添加到不同语言的类似物中。从通常的“ bonjour”到阿拉伯语和犹太语。我们的搜索算法对新词进行了索引，以查找类似的表达式，但是没有什么比这些词更接近了！结果，该专栏回复了所有无法理解或歪曲的要求：“ As-salamu alaikum wa-rahmatu-Llah。” 当您按照通常的“美国在哪里？”以追赶的机器声音听到此消息时，这很令人困惑。

同性恋呢？当单词听起来相同时，但这是两个完全不同的单词。例如，动词和名词

语言学家

是的，这对参与语言处理的每个人都是痛苦的。这种情况发生在整个句子上，它们早已被简单地刻在石头上了。例如“他亲眼看到他们的家人”。这是一种拥有七只眼睛的生物吗？他看到了它们。他自己要么见过他们的家人。在任何时候，在他看来，它们都是他的七只眼。

一个简单的例子：“这些类型的钢材都在车间里。” 车间中可以使用几种类型的“钢”材料，或者有些泥泞的工人不仅在车间中开始工作，而且还存在。也就是说，同音异义是一个很大的问题，不仅在单词层面，而且在整个句子层面。在单词形式的相似性水平上也存在问题。假设一个单词的主格和宾格听起来都一样。因此，即使是确定单词形式的看似简单的任务也需要使用复杂的程序包进行分析。这些软件包从不给出明确的答案。他们只能给出一种形式或另一种形式的概率。

您如何解决此类问题？分享Lifehacks

语言学家

是的，尤其没有花招。非常仔细地选择训练模型所依据的数据，并仔细测试所有内容。

至于同名，如果我们现在尝试以某种方式重新训练模型，以便确定特定单词的正确形式，则将为当前不完善的解决方案设置补丁。当然，要真正学习如何与同名人打交道，有多种语言方法，但是它们并不总是在各处使用。他们仍在努力。对于俄语，情况要比英语差很多，因为我们的单词形式明显更多。

开发者

我们正在审查对话，即识别的逻辑，我们发现语音助手不太了解对话。有时您需要添加一个新对话框。在某些情况下，他回答了一个他根本不知道的问题。发展历史会有所帮助。

俄罗斯的爱丽丝确实比她的前任更好吗？为什么？

语言学家

相当主观地认为：Siri的效果也很好。

但是，爱丽丝现在是最具竞争力的语音助手，因为Yandex拥有大量资源和服务，可以发挥其潜力。此外，他们已经可以添加第三方服务，也就是说，任何开发人员或团队都可以添加一些功能。这使她的机会真正广泛。

一方面，这是Yandex的资源和经验：他们从事语言处理已经很长时间了，他们自己已经开发了许多用于数据提取，解析和字形分析的资源。许多好语言学家来找他们。

另一方面，它能胜任地结合和补充传统和神经网络算法。这就是为什么她可以理解明确的要求并保持关于任何事物的对话的原因。

不要忘记，这虽然很好，但却是对话的模仿。

开发人员

当然。因为在Google，主要逻辑是基于英语，而我们在俄罗斯。在Yandex中，使用语音助手的人的母语是俄语。在我看来，爱丽丝现在会更好，将来也会更好。因为俄罗斯人正在研究逻辑。
这里的问题不在算法中，不在开发中。这是这种发展的背景，逻辑和总体灵魂。爱丽丝似乎更自然。

为什么数学不能赢？语言技能如何帮助您与语音助手一起工作？

语言学家

和哲学家一样，可能会有一种可以理解的，但有时是危险的幻想，即他们可以借助自己的知识工具来理解任何其他领域。也就是说，对于他们来说，阅读某种语言处理模块的文档就足够了，他们将学习如何使用它。不幸的是，这不是完全正确的，因为语言太复杂了。现在，即使是语言学家自己也很难理解其工作原理。

如果我们深入研究，很显然，很难将认知方面的语言（通常在大脑中起作用的方式，思想如何转变为语音）与所有其他层次分开。为了创建真正的智能处理系统，我们将需要以某种方式学习如何正式化这一方面以及其他方面。

我们经常不得不吸引纯粹的语言研究。例如，我们开发了一个时间处理模块，即有人说：“提醒我在一楼。”午夜一词的处理出现了困难。明天是午夜，明天是0点还是明天24点？在不诉诸语言学或语言学方法的情况下找到该问题的答案是不可能的。一个人只能猜到咖啡渣。他们说不。该研究包括以下事实：我查看了俄罗斯国家军的所有使用“午夜”一词并使用不同时间参考的情况，即今天/明天。看着人们的想法。利润率从40％降至60％，而今天的午夜-明天的0点。

仅仅查看一些用例，不知道语言的工作原理，制定规则和表达方式的最终清单是不可能的。无论出于何种原因，您都可以说出无数个提案。尝试使用一些有限算法来设置所有这些都是非常困难的。不使用语言分析的系统将永远不会提供100％的准确性。

开发者

语言学家有很大帮助。对于人们如何询问某事，他可以找到很多选择。另外，操作机械是危险的事情。我们不能接受任何要求。语言学家帮助我们确定这些问题的形式和形式，有助于安排正确的答案。他还分析了文本，从中删除了不值得谈论的话题：政治，种族主义言论等。

, ? , ?

当然，语言处理是一个跨学科的问题。而现在，始终需要吸引心理学和心理语言学方面的专家来决定一个人如何理解语言。在更深层次上，现在也需要认知研究。因为只有现在，我们才拥有一些技术，可以使我们在处理语法错误（例如错误的字序和语义错误）时跟踪人脑的工作方式，比如说某些意想不到的事情，这在意义上是完全不合适的。这些研究的结果使人们对以前语言学普遍认为的一切都产生了怀疑。因为事实证明，对于语言（即语音信息）以及视频或漫画，这些错误的处理方式都非常相似，甚至是音乐和任何声音序列。即，对于人所感知的所有信息，搜索结构和意义上的错误的机制是通用的。这表明有必要在语法和语义的分析上而不是在语言的框架内，而是在对信息的一般感知的框架内进行分析。

开发商

图灵说：“如果一台计算机能够欺骗人类，使人们相信它是人类，那么它就应该被称为智能”。

正是在这种情况下，心理学家才能在将来提供帮助。我们不仅仅依赖文字。情绪……人的理解方式也很重要。一个人有五种感觉，在对话中至少使用两种。语音助手只有一个来源。这些是他的“耳朵”。
心理学家可以与分析音频信号的开发人员合作，并帮助我们通过语音确定情绪，以了解该人是生气还是心情愉快。并据此确定语音助手何时应该开玩笑，以及何时-要认真。作为程序员，我们无法控制这一点。如果我们对汽车说“笑话”，它将在任何奇怪的情况下发生。例如，教她一个问题“该怎么办？” 回答“脱下裤子跑步。” 如果在此问题之前的用户说他父亲去世或与女孩分手了，他没有心情，则机器将不会考虑所有这些信息，并且会开个玩笑。

既然我们在讲笑话，那么如何在语音助手中培养幽默感？

语言学家

幽默感是一种天生的人类现象，有助于适应变化，忍受困难，加强社会互动等等。我认为，以它的确切形式，它几乎不需要AI。该领域的研究仍在进行中，但它是关于理解和模拟幽默的。我们必须以某种方式向汽车解释，皮包有时会令她难以理解-他们开玩笑-并期望开玩笑作为回报。

有了理解，一切都变得非常复杂，所以我将回答有关模仿的问题。有两种解决方法：

使用人们创造的笑话-由系统本身专门从文本语料库编写或获得的笑话；
尝试理解是什么使人们发笑（隐藏，并行和意外的语义连接，来自不同语义领域的单词的组合，大小写倒置和含义），并实现这一点。

已经存在技术解决方案：相同的双关语仅基于常见的字母序列创建。问题始终是客观地评估工作结果，并以某种方式克服了5-10％的荒谬案例的阈值。

通常，人工智能不是在开玩笑，也不是在逗笑，改变这种情况必须进行复杂的研究。
向语音助手添加幽默的最简单，最可靠的方法是简单地编写脚本，或者在极端情况下编写某种笑话模式。然后，我们可以出于一个或另一个原因智能地生成它们。我敢肯定，在Yandex Alice中，这通常是这样工作的。许多人已经注意到，爱丽丝了解《巫师》系列的歌曲和笑话。您可以问她一些诸如“如何为巫师付款？”之类的东西，她会开玩笑作为回报。这些东西很可能是手动注册的。

开发者

语言学家参与收集可能很有趣的答案。他在语言附件中搜索它们，然后将它们存储在语音助手数据库中。而且，当我们要求他开玩笑时，他会在数据库中找到合适的人，然后开个玩笑。如果他看到与受训的情况相似的情况，他也可以自发地开玩笑。这完全取决于上下文。

您为什么认为人们想要语音助手开玩笑？

语言学家

在我看来，人们为什么想在其中看到幽默有很多原因。幽默感是纯粹的人格特质。是什么使我们成为人类。想要在聊天机器人中找到人性，他们在其中寻求幽默感。即使您查看文化中所有人工智能示例，也可以看出这一点：电影中任何真正智能的机器人都会开玩笑。

您认为哪个语音助手最适合成人？

语言学家

如果一个成年人很老，这很难说。奇怪的是，语音控制与18世纪发明的语音合成几乎一样。自20世纪初以来，他们就一直在对此进行处理。第一个可行的解决方案出现在1960年代，并且此后一直在发展。智能语音助手在90年代由IBM创建，并于2011年进入智能手机市场。

如果一个成年人很无聊却很可靠，那就去Siri吧。看来，俄语答案的文本最近已在其中进行了更新，它为声誉提供了最正确，最安全的答案。对于大型公司来说很方便，而且还不能玩。无法像爱丽丝一样聊天和收集合理的对话。但是他没有这个目标，因为它是内置在智能手机（或任何设备）中的语音助手。它主要具有控制一切的功利功能。我记得最初的答案比现在更加有趣和有争议。但是，显然，他们认为人们已经与语音助手玩够了，现在该变得严肃起来了。做好你的工作。

在应用程序中或在单独的产品中（在列中）存在Alice。在那里和那里都重要的是使一个人感兴趣，以便他想要购买专栏或打开一个应用程序。只是干声控制似乎很无聊。

开发人员

没有大人。所有语音助手都几乎不了解，现在更多了。他们没有学习。我记得大约3-4年前，爱丽丝多么愚蠢的工作。但是每天她都变得更好。开发人员监视特定的情况并纠正错误，制作新的案例和脚本。注意到一些细微差别，用户帮助了他们。Yandex拥有丰富的资源：有一个搜索引擎，有服务器和用于存储数据的所有内容。

尽管如此，仍然有一种观点认为Siri是最成人的，因为它能提供丰富的信息，但它的笑话，游戏等较少。你同意吗？

是。因为他们玩的是可靠的游戏。这比回答100个问题更好，但是其中40个是错误的。他们的设计非常整洁。他们希望助手总是说正确的话，而不像以前的爱丽丝那样傻。

总结一下

并非所有人都支持机器学习和育儿之间的类比。
语言是无止境的。以母语为母语的人可以用无数种表达方式表达同样的想法。如果不使用语言分析方法，您将无法获得100％的准确性。

来自其他领域的知识也有助于机器学习。认知和心理语言学研究将有助于了解大脑如何处理信息处理，尤其是人们如何理解语言以将其知识转化为机器学习。在解决道德问题时，心理学家将采取行动。
通常，AI开玩笑并不有趣，但人们需要开玩笑！因此，该领域的研究正在进行中。

俄罗斯最强大，最具竞争力的语音助手是爱丽丝。与她的对话非常接近与人的对话。而最成人的人（用这个词来形容的不是重点在游戏时刻，而是在处理请求时的可靠性和准确性）-Siri。

提升语音助手的难度。语言学家和开发人员的外观

你要负责什么 您的责任范围包括什么？