Die Zukunft ist da: Wie Sprachroboter funktionieren und was sie können

Bild

Die Robotisierung von Routineoperationen, bei denen Roboter zur Lösung einfacher und gleichzeitig arbeitsintensiver Aufgaben anstelle von Menschen eingesetzt werden, ist ein sehr aktiver Trend. Viele Dinge werden automatisiert, einschließlich Telefongespräche mit Kunden. Das Unternehmen Neuro.net befasst sich mit der Entwicklung von Technologien, die die Möglichkeit bieten, die Fähigkeiten von Robotern zu verbessern.

In diesem Artikel sprechen die Entwickler über die Technologien und Nuancen, um das Geschlecht des Gesprächspartners anhand der Stimme zu erkennen und an wichtigen Elementen des Dialogs zu arbeiten.

Erst ein Fall, dann ein Zusammenbruch der Technologie


Bild

Einer der interessantesten Fälle ist der Ersatz der Callcenter-Mitarbeiter eines Partnerunternehmens durch einen Sprachroboter. Die Funktionen des letzteren wurden nicht für reguläre Situationen wie die Klärung der Lieferadresse verwendet, sondern um herauszufinden, warum einige Kunden die Website des Unternehmens seltener besuchen.

Die Technologie basierte auf der Verwendung eines vollwertigen neuronalen Netzwerks anstelle einzelner Skripte. Es war das neuronale Netzwerk, das es uns ermöglichte, die Probleme zu lösen, die normalerweise Roboter verwirren. Zunächst sprechen wir über die Antworten des Gesprächspartners wie "Nun, ich weiß es noch nicht, vielleicht ja, obwohl nein" oder sogar "ja nein". Menschen gemeinsame Worte werden zu einem unüberwindlichen Hindernis für einen Roboter.

Bild

Während des Trainings begann der Roboter zu verstehen, welche Bedeutung eine bestimmte Phrase hat und was die Antwort sein sollte. Der Roboter hatte mehrere Stimmen - sowohl Männer als auch Frauen. Die Hauptaufgabe bestand darin, den Roboter so zu „humanisieren“, dass der menschliche Gesprächspartner nicht die Fähigkeiten der Maschine testete, sondern einen Dialog gemäß dem Zielszenario führte.

Unten sehen Sie ein Beispiel dafür, was passiert ist.


Der Roboter hört dem Gesprächspartner zu und gibt eine Antwort, abhängig von der Bedeutung dessen, was der Kunde gesagt hat. Die Gesamtzahl der Skriptzweige, die für Konversationen verwendet werden können, beträgt mehr als tausend.
Das Hauptziel dieses Roboters war es, den Grund für die Abnahme der Aktivität des Kunden des Unternehmens auf der Website zu verstehen und allen ein interessantes Angebot zu machen. Dies war einer der ersten Versuche des Unternehmens, die Arbeit von Call Centern zu automatisieren.

Neue Roboter sind perfekter. Hier sind einige weitere Beispiele dafür, wie Roboter mit Menschen kommunizieren: erstes , zweites , drittes Beispiel.

Nun zur Technologie


Es gibt drei wichtige technologische Merkmale, mit denen der Roboter arbeiten kann:

  • Erkennung des Geschlechts des Gesprächspartners durch Stimme,
  • Alterserkennung
  • Aufbau eines Dialogs mit einem menschlichen Gesprächspartner.

Bild

Das Geschlecht des Gesprächspartners anhand der Stimme erkennen


Warum wird das benötigt? Ursprünglich wurde diese Funktion erstellt, um Vermessungen mit Robotern durchzuführen. Zuvor wurde die Umfrage von Personen durchgeführt, die eine Reihe von Punkten ausfüllten. Zum Beispiel der Boden des Gesprächspartners. Es ist klar, dass eine Person nicht fragen muss, mit wem sie spricht - einem Mann oder einer Frau, um diesen Parameter zu bestimmen. In 99% ist alles klar. Roboter sind eine andere Sache, damit sie mehr oder weniger genau lernen, Stimmen zu erkennen, musste ich groß angelegte Arbeiten ausführen. Und es war nicht umsonst, jetzt wird die Technologie verwendet, um Angebote und Sprachansagen je nach Geschlecht zu personalisieren.

Ein wichtiger Punkt - die weibliche Stimme ist universell und für die Arbeit mit der breitesten Produktpalette geeignet, und sie ist besonders wichtig für Produkte für Frauen. Nach verschiedenen Studien,Eine weibliche Stimme wird von jedem Publikum positiv wahrgenommen , in diesem Fall ist die Umwandlung größer. Eine Ausnahme - bei der Werbung für „männliche“ Produkte ist eine männliche Stimme vorzuziehen.

Wie es funktioniert? Zunächst wird die Primärdatenverarbeitung durchgeführt, die auf der Verarbeitung von Sprachaufzeichnungen und Fragmenten mit einer Dauer von 20 ms basiert. Alle gesammelten Sprachfragmente werden in der VAD-Komponente (Voice Activity Detection) vorverarbeitet. Dies ist notwendig, um die "Körner von der Spreu" zu trennen, dh Sprache von Lärm. Der gesamte Müll wird entfernt, was die Genauigkeit der Modelle erhöht.

Zur Erkennung wird der sogenannte Raum der Cepstralkoeffizienten, die erste und die zweite Differenz, verwendet. Grundlage ist die GMM-Methode - Gauss Mixture Models.

Im Intervall von 10 bis 20 ms wird also das aktuelle Leistungsspektrum berechnet, wonach die inverse Fourier-Transformation des Logarithmus des Spektrums angewendet wird, wobei nach den erforderlichen Koeffizienten gesucht wird.

Unsere GMM-Modelle sind separat für das Unterrichten von männlichen und weiblichen Stimmmods konfiguriert. Modelle werden auch zum Bestimmen der Stimmen von Erwachsenen und Kindern verwendet. Natürlich können Sie das System nicht von Grund auf neu trainieren, sondern benötigen markierte Sprachaufzeichnungen.

Um die Effizienz des Systems zu erhöhen, werden die Koeffizienten der Timbre-Sprachmodelle angewendet:

  • Timbrale Schärfe.
  • Timbrale Wärme.
  • Timbrale Helligkeit.
  • Timbraltiefe.
  • Timbrale Härte.
  • Timbrales Wachstum.
  • Timbrale Unebenheiten.
  • Timbre Hall.

Timbre-Modelle werden benötigt, um die Stimmen von Kindern korrekt zu identifizieren - alle anderen Modelle akzeptieren die Stimme des Kindes als weiblich. Außerdem müssen Sie zwischen groben Frauenstimmen (z. B. einer älteren rauchenden Frau), hohen Männerstimmen usw. unterscheiden. Übrigens, wenn eine Person „Hallo“ sagte und dann hustete, würden alle vorherigen Modelle, die keine Timbre-Filter verwendeten, die Stimme als männlich definieren.



Der Hauptteil des Systems ist das Datenklassifizierungsmodul, das auf dem mehrschichtigen Perzeptron MLP basiert. Es überträgt Daten von Modellen männlicher und weiblicher Stimmen, Daten von Timbralmodellen. Am Eingang des Systems erhalten wir eine Reihe klassifizierter Werte und am Ausgang das Ergebnis der Geschlechtsbestimmung.

Die hier beschriebene Technologie wird verwendet, um sowohl online (gemäß dem ersten Satz des Clients) als auch offline (nach einem Gespräch) zu klassifizieren. Die Genauigkeit der Geschlechtserkennung liegt bei 95%. Ein wichtiger Punkt ist, dass die Verzögerung beim Online-Arbeiten 120-150 ms nicht überschreitet, was für die Humanisierung des Roboters äußerst wichtig ist. Normalerweise sind Kommunikationspausen zwischen einem Roboter und einer Person keine Millisekunden, sondern Sekunden, was für einen menschlichen Gesprächspartner natürlich seltsam erscheint, und es ist sofort klar, dass das digitale System kommuniziert.

Die Pläne beinhalten das Hinzufügen von Arbeit mit Text, genauer gesagt - Endungen. Wenn der Gesprächspartner sagt "Ich könnte" - definitiv ist dies eine Frau. In naher Zukunft wird diese Technologie finalisiert und im Erkennungssystem implementiert.

Ermittlung des Alters des Gesprächspartners


Warum wird das benötigt? Erstens, um Minderjährigen nicht verschiedene Produkte und Dienstleistungen anzubieten. Darüber hinaus ist die Identifizierung des Alters hilfreich, um Angebote nach Alterskategorien zu personalisieren.

Wie es funktioniert? Es werden genau die gleichen Technologien wie im vorherigen Fall verwendet. Die Genauigkeit des Systems beträgt ca. 90%.

Bild

Dialoge konstruieren


Und jetzt kommen wir zum interessantesten - dem Prinzip der Konstruktion von Dialogen.

Warum wird das benötigt? Um eine Person kompetent zu ersetzen, muss ein Roboter sowohl in linearen als auch in nichtlinearen Dialogszenarien arbeiten können. Im ersten Fall kann es sich um einen Fragebogen handeln, im zweiten Fall um die Zusammenarbeit mit Abonnenten des Callcenters, technischen Supportleitungen des Unternehmens usw.

Wie funktioniert es? Wir verwenden die NLU-Engine, deren Grundlage die semantische Analyse des von ASR-Systemen empfangenen Textes ist. Ferner werden Erkennungsobjekte wie Entitäten (Absichten) und Absichten (Absichten), die in der Logik der Konstruktion eines Konversationsflusses verwendet werden, davon unterschieden.

Hier ist ein Beispiel für die Funktionsweise der Technologie.

Von einem Spracherkennungssystem (ASR) empfangener Text:
"Im Allgemeinen interessiert mich Ihr Vorschlag, aber ich möchte ihn billiger haben. Und jetzt bin ich ein bisschen beschäftigt, du könntest mich morgen um sechs Uhr zurückrufen. "

Mit NLU Engine gefüllte Objekte:

Absichten:
Bestätigung = wahrer
Einwand = teure
Frage = null
Rückruf = wahr
falsche_Zeit = wahr

Entitäten:
Datum = 01/02/2019 (angenommen, das Anrufdatum ist 01/01/2019)
Zeit = 18: 00
Betrag = 6

Füllprinzip Die Objekte in diesem Beispiel sind:

Absichten (Absichten):

  • Der Text „Ich interessiere mich für Ihren Vorschlag“ wurde in eine absichtliche „Bestätigung“ mit dem Wert „wahr“ übersetzt.
  • Der Text „Ich möchte es billiger haben“ wurde in absichtlichen „Einspruch“ mit dem Wert „teuer“ übersetzt.
  • Der Text "Ich bin gerade ein wenig beschäftigt" wurde in die Absicht "false_time" mit dem Wert "true" übersetzt.
  • « » intent «call_back» «true».
  • , intent «question» null

Entities ():

  • «» entity «date» «02.01.2019», current_date + 1 (, 01.01.2019).
  • « » entity «time» «18:00»,
  • «» entity «amount» «6», , entities .

Für die gesamte Liste der Absichten und Entitäten werden bestimmte Werte zugewiesen, die dann zum Erstellen des Konversationsflusses verwendet werden.

Lassen Sie uns nun über die Arbeitsalgorithmen sprechen, die vom NLU Engine-System unterstützt werden. Es umfasst zwei Ebenen.

Die erste Ebene - es funktioniert mit einer relativ kleinen Datenstichprobe von etwa 600-1000 Datensätzen. Hier werden ML-Algorithmen verwendet. Erkennungsgenauigkeit: 90-95%.

Die zweite Ebene - der Übergang dorthin erfolgt nach dem Start des Projekts und der Anhäufung einer großen Stichprobe von Daten, einschließlich mehr als 1 Million Datensätzen. Hier werden bereits DL-Algorithmen verwendet. Erkennungsgenauigkeit: 95-98%.

Die Lösung funktioniert mit zwei Subsystemen:

  • Teilsystem der Kategorisierung und Klassifizierung von Textdaten,
  • Subsystem zur Dialogbildung.

Beide Subsysteme arbeiten parallel. Am Eingang des Kategorisierungs- und Klassifizierungssystems wird der aus der Sprachphrase erkannte Text des Teilnehmers übertragen. Am Ausgang gibt die Entscheidung die ausgefüllten Parameter Entität und Wert an, um die Antwort zu bilden.

Das Dialogbildungs-Subsystem zum Erstellen nichtlinearer Szenarien basiert auf einem neuronalen Netzwerk. Am Eingang des Systems wird der aus der Sprachphrase erkannte Text des Teilnehmers übertragen, am Ausgang wird die Entscheidung getroffen, was im nächsten Moment verloren gehen soll.

Ein nichtlineares Szenario eignet sich für die erste Supportlinie - der Roboter weiß nicht, wer anruft, über welches Produkt und mit welchen Fragen. Hier hängt der weitere Aufbau des Dialogs von der Antwort des Kunden ab.

Für ausgehende Anrufe wäre die beste Lösung jedoch ein lineares Szenario. Sein Beispiel wurde ganz am Anfang des Artikels gesetzt. Eine andere Variante des linearen Szenarios besteht darin, eine Umfrage durchzuführen, wenn es nicht darauf ankommt, was der Kunde antwortet. Diese wird von Spezialisten weiter analysiert. Es ist jedoch wichtig, den Kunden durch alle Fragen zu führen, die auf der Liste stehen.

Daher möchte ich betonen, dass Sprachroboter keine Menschen ersetzen. Jetzt leisten sie hervorragende Arbeit mit Routinearbeit - sie rufen Leute an, um ihnen einige Fragen zu stellen und die Antworten zu hören / aufzuzeichnen / zu analysieren. So werden Call Center- und technische Support-Mitarbeiter von der Notwendigkeit entlastet, dieselben Routineverfahren durchzuführen. Stattdessen können sie sich auf wirklich interessante Fragen und Herausforderungen konzentrieren.

All Articles