Schwierigkeiten beim Anheben eines Sprachassistenten. Das Aussehen eines Linguisten und Entwicklers

Die Arbeit mit einem Sprachassistenten wird oft mit der Erziehung eines Kindes verglichen. Er lernt ständig etwas und wiederholt es nach den "Ältesten". Beherrscht nach und nach die Sprache und die Fähigkeit, Kommunikation aufzubauen. Manchmal versteht er alles zu wörtlich oder gibt einfach etwas Unangenehmes heraus. Dies liegt daran, dass die Verarbeitung der Sprache ein komplexer und langwieriger Prozess ist, der die Aufmerksamkeit von mehr als einem Spezialisten erfordert. Wir haben unseren Kollegen, den Linguisten-Entwickler Ivan und den leitenden Ingenieur Bassel, gebeten, interessante Fälle aus ihren Erfahrungen mit Sky Voice Assistant zu teilen. Wir haben den beiden Experten die gleichen Fragen gestellt, um herauszufinden, warum Mathematik allein bei der Verarbeitung einer Sprache nicht gewinnen kann, wie Sprachassistenten Witze lernen und warum.

Für was bist du verantwortlich? Was ist in Ihrem Verantwortungsbereich enthalten?


Linguist

Ich bin verantwortlich für alles, was mit dem sprachlichen Aspekt der Arbeit des Sprachassistenten zu tun hat. Dies ist eine Analyse der Fragen des Benutzers, die Planung der Antwortlogik sowie die Suche oder Erstellung von Text für ihn. Darüber hinaus entwickelte ich einige Dienste, die stark mit dem Text verbunden waren (einschließlich Wetter, Erinnerungen, Nachrichten, Toast, Wortspiele), und sammelte Inhalte für das Training. Dies umfasst beispielsweise das Aufzeichnen verschiedener Stimmen, um eine Spalte zu aktivieren.

Entwickler

Ich bin verantwortlich für das Gehirn unseres Chatbots. Ich schreibe seine Logik: Wie er Fragen erhält, wie er antwortet, woher er Daten erhält, welche Dienste in ihm funktionieren. Dies ist ein Kommunikationsdienst und eine Wissensbasis, damit alle Fragen beantwortet werden können. Er kann sich an sie wenden und sagen, wie das Wetter ist, wie hoch der Dollarkurs ist, ein Taxi für Sie bestellen, einen Alarm einstellen usw.

Denken Sie, die Arbeit mit einem Sprachassistenten ist wie die Erziehung eines Kindes?


Sprachwissenschaftler

In Bezug auf Kinder und maschinelles Lernen gab es einen sehr guten Artikel über Habré, und im Allgemeinen ist dies eine beliebte Analogie.

Das Problem ist jedoch, dass die KI kein Verständnis für den Kontext hat, das über das hinausgeht, was im Trainingssatz enthalten ist, selbst das grundlegendste Wissen der Welt außerhalb einer bestimmten Aufgabe und solche inhärenten Bewertungsmethoden wie Geschmack und gesunder Menschenverstand fehlen. Aus diesem Grund sind die Ergebnisse oft nicht vorhersehbar.

Entwickler

Wir können nicht sagen, dass der Sprachassistent ein Kind ist, weil das Kind die Fähigkeit hat, zu analysieren und zu lernen. Sprachassistent ist eine ziemlich dumme Sache. Sie möchten, dass er etwas tut, ihm die Aufgabe stellt und das ist alles - er wird es tun.
Wir können ein Neuron nicht einmal als Kind betrachten - allein kann es nicht lernen. Wir müssen ihr immer den Weg zeigen. Künstliche Intelligenz in diesem Sinne spielt nur dann eine Rolle, wenn das Neuron Situationen finden kann, die denen ähneln, die Sie ihr beigebracht haben. Ich denke nicht, dass dies im Allgemeinen Intelligenz ist, sondern nur großartige Möglichkeiten.

Welche lustigen Fälle entstehen bei der Arbeit mit ihm?


Linguist

Ich werde für zwei antworten. Sobald wir Wörter für das Alias-Spiel ausgewählt haben, das auf der Suche nach ähnlichen Wörtern („Assoziationen“) unter Verwendung des word2vec-Modells basiert. Wir haben sehr sorgfältig ausgewählt, es war unmöglich sich vorzustellen, dass die Assoziationen zum Wort "Nabel" selektive sexuelle Ausdrücke sind, die weit über die Grenzen der Zensur hinausgehen. Es scheint, dass das Wort so kindisch ist und in völlig anderen Kontexten verwendet wird.
Anscheinend wissen wir weder über unseren Assistenten noch über den Textsammler für den verwendeten Fall etwas.

Eine Sache noch. Einmal beschlossen wir, der Liste der russischen Grüße und Abschiede ihre Analoga aus verschiedenen Sprachen hinzuzufügen. Vom üblichen „Bonjour“ bis zum arabischen und jüdischen Ausdruck. Neue Wörter wurden von unserem Suchalgorithmus nach ähnlichen Ausdrücken indiziert, aber es gab nichts in der Nähe von ihnen! Infolgedessen antwortete die Kolumne auf jede unverständliche oder irgendwie verzerrte Anfrage: "As-salamu alaikum wa-rahmatu-Llah . " Wenn Sie dies mit einer verfolgten Maschinenstimme als Antwort auf das übliche „Wo sind die USA?“ Hören, ist dies verwirrend.

Was ist mit Homonymie? Wenn Wörter gleich klingen, aber dies sind zwei völlig unterschiedliche Wörter. Zum Beispiel ein Verb und ein Substantiv


Linguist

Ja, es ist ein Schmerz für alle, die an der Sprachverarbeitung beteiligt sind. Dies geschieht mit ganzen Sätzen, die seit langem einfach in Stein gemeißelt sind. Beispiele wie "Er hat ihre Familie mit eigenen Augen gesehen." Ist es eine Art Kreatur, die sieben Augen hat und die er sieht? Entweder er selbst sah ihre Familie. Entweder schien es ihm irgendwann, als wären es seine sieben Augen.

Ein einfacheres Beispiel: "Diese Stahlsorten sind in der Werkstatt." In der Werkstatt stehen entweder verschiedene Arten von „Stahl“ -Material zur Verfügung, oder einige schlammige Arbeiter begannen nicht nur in der Werkstatt zu arbeiten, sondern existieren auch. Das heißt, Homonymie ist ein sehr großes Problem, nicht nur auf der Ebene der Wörter, sondern auch auf der Ebene ganzer Sätze. Es gibt auch ein Problem auf der Ebene der Ähnlichkeit von Wortformen. Sagen wir, die Nominativ- und Akkusativfälle eines Wortes klingen gleich. Daher erfordert selbst eine scheinbar einfache Aufgabe wie das Bestimmen der Form eines Wortes die Verwendung komplexer Pakete zur Analyse. Und diese Pakete geben niemals eine eindeutige Antwort. Sie können nur die Wahrscheinlichkeit der einen oder anderen Form angeben.

Wie lösen Sie solche Probleme? Teilen Sie Lifehacks


Linguist

Ja, keine Tricks besonders. Wählen Sie die Daten, auf denen das Modell trainiert ist, sehr sorgfältig aus und testen Sie alles sorgfältig.

Wenn wir jetzt versuchen, das Modell irgendwie neu zu trainieren, damit es die richtige Form eines bestimmten Wortes bestimmt, werden Patches für die aktuelle unvollständige Lösung festgelegt. Um wirklich zu lernen, wie man mit Homonymie arbeitet, gibt es natürlich sprachliche Methoden, die jedoch nicht immer und überall angewendet werden. Und sie arbeiten immer noch daran. Für die russische Sprache ist die Situation viel schlimmer als für Englisch, weil wir deutlich mehr Wortformen haben.

Entwickler

Wir überprüfen den Dialog, die Logik der Erkennung, wir sehen, dass der Sprachassistent es nicht so gut verstanden hat. Manchmal müssen Sie einen neuen Dialog hinzufügen. Es kann Situationen geben, in denen er eine Frage beantwortete, deren Antwort er überhaupt nicht kannte. Entwicklungsgeschichte hilft.

Stimmt es, dass Alice in Russland besser arbeitet als ihre Vorgänger? Warum?


Linguist

Eine subjektive Einschätzung: Siri funktioniert auch sehr gut.

Alice ist jetzt jedoch die wettbewerbsfähigste Sprachassistentin, da Yandex über eine Vielzahl von Ressourcen und Diensten verfügt, um seine Potenziale zu erweitern. Darüber hinaus können sie bereits Dienste von Drittanbietern hinzufügen, dh jeder Entwickler oder jedes Team kann einige ihrer Funktionen hinzufügen. Dies macht ihre Möglichkeiten wirklich breit.

Einerseits geht es um die Ressourcen und Erfahrungen von Yandex: Sie beschäftigen sich seit sehr langer Zeit mit der Sprachverarbeitung und haben selbst viele Ressourcen für die Datenextraktion, Analyse und Wortformanalyse entwickelt. Viele gute Linguisten kamen zu ihnen.

Andererseits kombiniert und ergänzt es kompetent klassische und neuronale Netzwerkalgorithmen. Deshalb kann sie klare Anforderungen verstehen und über alles ein Gespräch führen.

Vergessen Sie nicht, dass dies zwar sehr gut ist, aber eine Nachahmung der Konversation.

Entwickler

natürlich. Denn bei Google basiert die Hauptlogik auf der englischen Sprache und wir sind in Russland. In Yandex arbeiten Leute an einem Sprachassistenten, dessen Muttersprache Russisch ist. Es scheint mir, dass Alice jetzt besser ist und besser sein wird. Weil die Russen an der Logik arbeiten.
Hier ist die Frage nicht im Algorithmus, nicht in der Entwicklung. Hier ist der Kontext, die Logik und im Allgemeinen die Seele dieser Entwicklung. Alice scheint natürlicher zu sein.

Warum kann Mathematik nicht gewinnen? Wie helfen Ihnen Sprachkenntnisse bei der Arbeit mit Ihrem Sprachassistenten?


Linguistische

Programmierer haben wie Philosophen wahrscheinlich eine verständliche, aber manchmal gefährliche Illusion, dass sie mit Hilfe ihres Wissensapparats jedes andere Gebiet verstehen können. Das heißt, es reicht ihnen, die Dokumentation für ein Sprachverarbeitungsmodul zu lesen, und sie werden lernen, wie man damit arbeitet. Leider ist dies nicht ganz richtig, da die Sprache ein zu komplexes System ist. Sogar Linguisten selbst verstehen jetzt schlecht, wie es funktioniert.

Wenn wir uns mit Forschung befassen, wird klar, dass die Sprache im kognitiven Aspekt (die Art und Weise, wie sie im Allgemeinen im Kopf funktioniert, wie Gedanken in unsere Sprache umgewandelt werden) sehr schwer von allen anderen Ebenen zu trennen ist. Um wirklich intelligente Verarbeitungssysteme zu schaffen, müssen wir irgendwie lernen, wie man diese und andere Seiten formalisiert.

Wir mussten oft rein sprachliche Forschung anziehen. Zum Beispiel haben wir an einem Zeitverarbeitungsmodul gearbeitet, dh wenn eine Person sagt: „Erinnern Sie mich daran, dies im ersten Stock zu tun.“ Bei der Verarbeitung des Wortes Mitternacht traten Schwierigkeiten auf. Morgen um Mitternacht ist morgen um 0 Uhr oder morgen um 24 Uhr? Die Antwort auf diese Frage zu finden, ohne auf die Methoden der Linguistik oder Philologie zurückzugreifen, ist unmöglich. Man konnte nur den Kaffeesatz erraten. Sie sagen es oder nicht. Die Studie bestand darin, dass ich mir das Nationalkorps der russischen Sprache in allen Fällen angesehen habe, in denen das Wort "Mitternacht" mit unterschiedlichen Zeitangaben verwendet wurde, dh heute / morgen. Sah an, was die Leute vorhatten. Die Marge betrug 60% gegenüber 40% zugunsten der Tatsache, dass heute um Mitternacht - morgen um 0 Uhr.

Es ist unmöglich, nur einige Anwendungsfälle zu betrachten, nicht zu wissen, wie die Sprache funktioniert, eine Regel und eine endgültige Liste von Möglichkeiten zu formulieren, etwas zu sagen. Aus irgendeinem Grund können Sie unendlich viele Vorschläge machen. Der Versuch, all dies mit einigen endlichen Algorithmen einzustellen, ist sehr schwierig. Systeme, die keine sprachliche Analyse verwenden, liefern niemals eine 100% ige Genauigkeit.

Entwickler

Linguist hilft sehr. Er kann eine große Anzahl von Optionen finden, wie Leute nach etwas fragen. Darüber hinaus ist das Bedienen von Maschinen eine gefährliche Sache. Wir können keine Anfrage annehmen. Der Linguist hilft uns zu bestimmen, wie diese Fragen aussehen werden, in welcher Form er hilft, die richtigen Antworten zu finden. Er analysiert auch den Text, entfernt Themen, über die es sich nicht zu sprechen lohnt: Politik, rassistische Äußerungen usw.

, ? , ?




Natürlich ist die Sprachverarbeitung ein interdisziplinäres Problem. Und jetzt und immer war es notwendig, Spezialisten für Psychologie und Psycholinguistik zu gewinnen, die bestimmen, wie eine Person die Sprache versteht. Auf einer tieferen Ebene ist jetzt auch kognitive Forschung erforderlich. Denn erst jetzt verfügen wir über Technologien, mit denen wir verfolgen können, wie das menschliche Gehirn bei der Verarbeitung von Syntaxfehlern wie der falschen Wortreihenfolge und semantischen Fehlern arbeitet, beispielsweise wenn etwas Unerwartetes gesagt wird, dessen Bedeutung völlig unangemessen ist. Und die Ergebnisse dieser Studien werfen Zweifel an allem auf, was bisher in der Linguistik als allgemein anerkannt galt. Da sich herausstellt, dass diese Fehler sowohl für die Sprache, dh für Sprachinformationen, als auch für Videos oder Comics auf sehr ähnliche Weise behandelt werden,oder sogar für Musik und beliebige Tonsequenzen. Das heißt, der Mechanismus zum Suchen nach Fehlern in der Struktur und im Sinn ist universell für alle Informationen, die eine Person wahrnimmt. Dies legt nahe, dass die Analyse von Syntax und Semantik nicht im Rahmen der Sprache, sondern im Rahmen der allgemeinen Wahrnehmung von Informationen durchgeführt werden muss.

Der Entwickler

Turing sagte: "Ein Computer würde es verdienen, als intelligent bezeichnet zu werden, wenn er einen Menschen täuschen könnte, er sei ein Mensch." - Ein Computer kann nur dann als intelligent bezeichnet werden, wenn Sie nicht verstehen, dass es sich um eine Maschine handelt, nicht um eine Person.

Darin werden Psychologen in Zukunft helfen. Wir sind nicht nur auf Worte angewiesen. Emotionen ... wie eine Person versteht, ist ebenfalls wichtig. Eine Person hat fünf Sinne, mindestens zwei werden während eines Gesprächs verwendet. Und der Sprachassistent hat eine Quelle. Das sind seine "Ohren".
Der Psychologe kann mit Entwicklern zusammenarbeiten, die Audiosignale analysieren und uns helfen, Emotionen anhand der Stimme zu bestimmen, um zu verstehen, ob die Person wütend oder gut gelaunt ist. Und abhängig davon, bestimmen Sie, wann der Sprachassistent scherzen soll und wann - um es ernst zu nehmen. Als Programmierer können wir dies nicht kontrollieren. Wenn wir dem Auto „Witz“ sagen, wird es dies in jeder seltsamen Situation tun. Bringen Sie ihr zum Beispiel die Frage "Was tun?" antworte "Zieh deine Hose aus und renne." Wenn der Benutzer vor dieser Frage sagte, dass sein Vater gestorben ist oder er sich von dem Mädchen getrennt hat, er nicht in der Stimmung ist, wird die Maschine all diese Informationen nicht berücksichtigen und einen Witz machen.

Wie kann man einen Sinn für Humor in einem Sprachassistenten entwickeln, da es sich um Witze handelt?


Linguist

Ein Sinn für Humor ist ein von Natur aus menschliches Phänomen, das hilft, sich an Veränderungen anzupassen, Schwierigkeiten zu ertragen, die soziale Interaktion zu stärken und vieles mehr. In seiner genauen Form ist es meiner Meinung nach für die KI kaum notwendig. Die Forschung in diesem Bereich ist im Gange, aber es geht darum, Humor zu verstehen und zu simulieren. Wir müssen dem Auto irgendwie erklären, dass Ledertaschen manchmal Dinge tun, die für sie unverständlich sind - sie scherzen - und im Gegenzug Witze erwarten.

Mit dem Verständnis ist alles sehr kompliziert, daher werde ich über Nachahmung antworten. Es gibt zwei Auswege:

  1. Verwenden Sie Witze, die von Menschen erstellt wurden - speziell geschrieben oder vom System selbst aus dem Korpus von Texten erhalten;
  2. Versuchen Sie zu verstehen, was Menschen zum Lachen bringt (versteckte, parallele und unerwartete semantische Verbindungen, eine Kombination von Wörtern aus verschiedenen semantischen Feldern, Fallumkehrung und Bedeutungen), und erkennen Sie dies.

Es gibt bereits technische Lösungen: Die gleichen Wortspiele werden einfach auf der Grundlage gemeinsamer Buchstabenfolgen erstellt. Das Problem ist immer, das Ergebnis der Arbeit objektiv zu bewerten und irgendwie die Schwelle von 5-10% der lächerlichen Beispiele zu überwinden.

In der Regel ist KI kein Scherz oder nicht lustig, und komplexe Forschung ist notwendig, um die Situation zu ändern.
Der einfachste und zuverlässigste Weg, Sprachassistenten Humor zu verleihen, besteht darin, einfach Skripte oder im Extremfall eine Art Scherzmuster zu schreiben. Dann können wir sie aus dem einen oder anderen Grund intelligent erzeugen. Ich bin sicher, dass dies in Yandex Alice oft so funktioniert. Viele haben bemerkt, dass Alice die Songs und Witze aus der Serie The Witcher versteht. Sie können sie etwas fragen wie "Wie bezahle ich den Hexer?" Und sie wird etwas im Gegenzug scherzen. Diese Dinge werden wahrscheinlich manuell registriert.

Entwickler

Ein Linguist sammelt Antworten, die lustig sein können. Er sucht sie im Sprachgehäuse, dann landen sie in der Sprachassistentendatenbank. Und wenn wir ihn zum Scherzen auffordern, findet er den richtigen in der Datenbank und macht einen Scherz. Er kann auch spontan scherzen, wenn er ähnliche Situationen sieht wie die, in denen er trainiert wurde. Es hängt alles vom Kontext ab.

Warum wollen die Leute wohl, dass ein Sprachassistent scherzt?


Linguist

Es scheint mir, dass es so viele Gründe gibt, warum die Leute so viel Humor darin sehen wollen. Sinn für Humor ist eine rein menschliche Eigenschaft. Was macht uns menschlich? Um die Menschlichkeit im Chatbot zu finden, suchen sie darin einen Sinn für Humor. Dies kann man sehen, selbst wenn man sich alle Beispiele künstlicher Intelligenz in der Kultur ansieht: Jeder wirklich intelligente Roboter aus dem Film wird scherzen.

Welcher Sprachassistent ist Ihrer Meinung nach der erwachsenste?


Linguist

Wenn ein Erwachsener alt ist, ist es schwer zu sagen. Sprachsteuerung ist fast dasselbe wie die Sprachsynthese, die seltsamerweise im 18. Jahrhundert erfunden wurde. Sie beschäftigen sich seit Beginn des 20. Jahrhunderts damit, und die ersten funktionierenden Lösungen erschienen in den 1960er Jahren und haben sich seitdem weiterentwickelt. Intelligente Sprachassistenten wurden in den 90er Jahren bei IBM entwickelt und erreichten 2011 Smartphones.

Wenn ein Erwachsener langweilig, aber zuverlässig ist, dann Siri. Es scheint, dass die Texte der Antworten für die russische Sprache kürzlich aktualisiert wurden, und es gibt die korrektesten und sichersten Antworten für den Ruf. Praktisch für eine große Firma, aber auch nicht spielen. Es gibt keine Möglichkeit, sich zu unterhalten und plausible Dialoge wie in Alice zu sammeln. Ein solches Ziel hat er jedoch nicht, da es sich um einen Sprachassistenten handelt, der in ein Smartphone (oder ein anderes Gerät) integriert ist. Es hat in erster Linie eine nützliche Funktion, alles zu kontrollieren. Ich erinnere mich, dass die Antworten zunächst noch interessanter und kontroverser waren als jetzt. Aber anscheinend entschieden sie, dass die Leute bereits genug mit einem Sprachassistenten gespielt hatten, und es war Zeit für ihn, ernst zu werden. Mach einfach deinen Job.

Alice ist entweder in der Anwendung oder in einem separaten Produkt vorhanden - in einer Spalte. Sowohl dort als auch dort ist es wichtig, eine Person zu interessieren, damit sie eine Kolumne kaufen oder eine Anwendung öffnen möchte. Nur trockene Sprachsteuerung wird langweilig erscheinen.

Entwickler

Keine Erwachsenen. Alle Sprachassistenten hatten wenig Wissen, und jetzt gibt es mehr. Sie haben sich nicht selbst gelernt. Ich erinnere mich, wie dumm Alice vor 3-4 Jahren gearbeitet hat. Aber mit jedem Tag wurde sie besser. Entwickler überwachten bestimmte Situationen und korrigierten Fehler, erstellten neue Fälle und Skripte. Benutzer halfen ihnen, bemerkten einige Nuancen. Yandex verfügt über hervorragende Ressourcen: Es gibt eine Suchmaschine, Server und alles, um Daten zu speichern.

Trotzdem gibt es eine Meinung, dass Siri am erwachsensten ist, weil es informativ ist, aber weniger Witze, Spiele usw. hat. Bist du einverstanden?



Ja. Weil sie mit dem spielen, was zuverlässig ist. Dies ist besser als die Beantwortung von 100 Fragen, aber 40 davon sind falsch. Sie sind sehr ordentlich im Design. Sie wollen, dass der Assistent immer etwas Richtiges sagt und nicht so albern ist wie Alice zuvor.

Zusammenfassen


Nicht jeder unterstützt die Analogie zwischen maschinellem Lernen und Elternschaft.
Die Sprache ist endlos. Ein Muttersprachler kann denselben Gedanken in einer unendlichen Anzahl von Äußerungen ausdrücken. Ohne die Verwendung sprachlicher Analysemethoden erhalten Sie keine 100% ige Genauigkeit.

Kenntnisse aus anderen Bereichen helfen auch beim maschinellen Lernen. Kognitive und psycholinguistische Forschung helfen zu verstehen, wie das Gehirn die Informationsverarbeitung verarbeitet, insbesondere wie eine Person eine Sprache versteht, um dieses Wissen auf maschinelles Lernen zu übertragen. Und bei der Lösung ethischer Probleme werden Psychologen zur Rettung kommen.
Normalerweise sind KI-Witze nicht lustig oder nicht, aber die Leute brauchen Witze! Daher wird in diesem Bereich weiter geforscht.

Die mächtigste und wettbewerbsfähigste Sprachassistentin in Russland ist Alice. Ein Gespräch mit ihr kommt einem Gespräch mit einer Person nahe. Und die erwachsensten (mit diesem Wort meinen wir die Betonung nicht auf Spielemomente, sondern auf Zuverlässigkeit und Genauigkeit bei der Bearbeitung von Anfragen) - Siri.

All Articles