Analyse der Qualität des Chatbots im IBM Watson Assistant



Das Erstellen eines virtuellen Assistenten, der die heutige Geschäftsaufgabe gut bewältigen kann, ist leider nicht so einfach, wie wir es uns wünschen. Zunächst ist es nicht immer offensichtlich, warum der Chat-Bot Fehler macht, und vor allem ist nicht klar, wie diese Fehler in der kurzen Zeit, die für die Entwicklung und den Start der Plattform vorgesehen ist, minimiert werden können.

Durch die kontinuierliche Produktentwicklung versucht das IBM Watson Assistant-Team, das Erstellen und Starten eines virtuellen Assistenten so einfach wie möglich zu gestalten. Heute sprechen wir über das Dialog Skill Analysis Notebook- Ein Framework für Python, mit dem Sie schnell einen hochwertigen AI-Assistenten in IBM Watson entwickeln können. Es spielt keine Rolle, ob Sie Ihren ersten Chatbot erstellen oder ein Experte auf dem Gebiet der Erstellung virtueller Assistenten sind. In jedem Fall hilft Ihnen dieses Framework, wenn Sie Fragen haben:

  • Wie effektiv ist mein Chat-Bot?
  • Wie kann ich die Effektivität eines Assistenten messen?
  • Warum beantwortet der Bot die Fragen falsch?
  • Wie kann das Verständnis des Assistenten für Fragen verbessert werden?

Wie es funktioniert?


Als nächstes zeigen wir Ihnen einige Beispiele für Aufgaben, die mit dem Framework gelöst werden können. Sie können die Funktionen selbst ausprobieren, indem Sie sie aus dem GitHub-Repository herunterladen . Die im Artikel verwendeten Beispiele sind in englischer Sprache angegeben. Sie können jedoch Russisch zum Trainieren und Überprüfen des Chatbots verwenden.

Hinweis: Dieses Material richtet sich an Personen, die ein grundlegendes Verständnis für das Erstellen von Chat-Bots auf der IBM Watson Assistant-Plattform haben. Wenn Sie mit unserer Plattform nicht vertraut sind oder lernen möchten, wie Sie hochwertige virtuelle Assistenten auf Basis von IBM Watson erstellen, laden wir Sie zu kostenlosen Schulungsseminaren ein , die im März 2020 in Moskau und St. Petersburg stattfinden, einschließlich eines zweitägigen praktischen Workshops zum Erstellen virtueller Assistenten.

Teil 1: Trainingsdatenanalyse


Wir verwenden den im Watson-Assistenten verfügbaren Testfall "Kundenbetreuung", in dem der Chatbot geschult wird, um Fragen zum Geschäft zu erkennen, z. B.: "Wo befindet sich Ihr Geschäft?" oder "Wann öffnet es?" und weisen Sie sie den Absichten Customer_Care_Store_Location und Customer_Care_Store_Hours zu.

Unmittelbar nach dem Laden des Skripts können Sie die Analyse von Ausdrücken starten, mit der Sie kritische Fehler wie die Korrelation eines Wortes oder einer Phrase gleichzeitig mit mehreren Absichten erkennen und korrigieren können, was garantiert zu Fehlern bei der Verwendung des Assistenten führt.



Teil 2: Analyse der Konversationsfähigkeiten


Wenn Sie zum ersten Mal eine Konversation Fähigkeiten erstellen, können Sie seine Arbeit testen Sie die Verwendung Probieren Sie es aus Tafel in Watson - Assistenten zur Beurteilung der Assistent in der Lage, vorherzusagen , ob ein Text in einer bestimmten Absicht gehören wird.



Es ist sicherlich bequem zu überprüfen, ob Ihr Chat-Bot überhaupt funktioniert, oder dem Kunden ein Beispiel seiner Arbeit zu zeigen. Um die Qualität der Arbeit des Assistenten zu überprüfen, ist dieser Ansatz jedoch aufgrund der Unmöglichkeit der Automatisierung völlig ungeeignet. Benutzer können dieselbe Frage auf Dutzende verschiedene Arten stellen, und selbst wenn Sie alle möglichen Kombinationen vorhersagen können, dauert eine solche manuelle Überprüfung und Analyse zu lange.

Stattdessen empfehlen wir Ihnen, den zweiten Teil unseres Frameworks zu verwenden, mit dessen Hilfe Sie Ihre Dialogfähigkeiten anhand eines Testbeispiels analysieren können, das zusätzliche Beispiele für jede der Absichten enthält, die Sie sich einfallen lassen müssen. Die Eindeutigkeit ist für die Elemente dieses Beispiels obligatorisch - sie sollten sich nicht mit den Beispielen überschneiden, an denen der Chat-Bot geschult wurde, da er sonst die richtigen Antworten kennt und die Prüfung bedeutungslos ist.

Die Auswertung erfolgt anhand der folgenden Metriken: Genauigkeit, Präzision, Rückruf und F1-Messung.



Betrachten Sie das Hilfethema:

  • Ein hoher Rückrufwert von [100%] zeigt an, dass die Zugehörigkeit von Testsätzen zu dieser Absicht absolut korrekt erkannt wurde.
  • Der Präzisionswert [66.67%] zeigt , dass einige Testsätze auf andere Absichten im Zusammenhang mit dem Modell auf die als verwandt erkannt wurden Hilfe Absicht . Dies muss beachtet werden, indem das Trainingsmuster angepasst wird, um ein höheres Ergebnis zu erzielen
  • Das F1-Maß [80%] ist eine verallgemeinerte Metrik, die die Werte von Precision and Recall berücksichtigt und die Gesamtqualität des untersuchten Modells angibt.

Teil 3. Erweiterte Analyse


Der dritte Teil des Frameworks eröffnet Möglichkeiten für eine erweiterte Analyse Ihrer Dialoglösung. Mit den darin implementierten Funktionen können Sie herausfinden, warum ein bestimmter Satz fälschlicherweise erkannt wurde.

Betrachten Sie ein Beispiel für die Visualisierung der relativen Bedeutung von Wörtern in einem Satz.

Hinweis
, , : Customer_Care_Store_Location, Cancel, Customer_Care_Appointments General_Connect_to_Agent, Thanks, Customer_Care_Store_Hours, General_Greetings, Help

Bei absolut korrekter Bedienung sollte der Assistent den Satz "Wenn Sie am Sonntag geschlossen sind, können Sie mich für morgen Nachmittag einschreiben?" auf die Absicht von Customer_Care_Appointments , da der Benutzer am Sonntagabend eine Besprechung anfordert. Derzeit gehört dieses Angebot jedoch zur Absicht des Assistenten Customer_Care_Store_Hours .

Wenn man sich das Diagramm ansieht, wird klar, dass eine solche Antwort durch das Vorhandensein der Wörter "geschlossen" und "Nachmittag" im Satz im Zusammenhang mit der Absicht " Customer_Care_Store_Hours" und gleichzeitig durch das Fehlen von Wörtern im Satz gerechtfertigt ist , die darauf hinweisen könnten, dass sie zur erforderlichen Absicht gehören.
Die Funktionalität des Frameworks ermöglicht es Ihnen, Schlüsselwörter in einem Satz zu identifizieren, den der Assistent als am wichtigsten „wahrnimmt“. Dies bedeutet, dass Sie die Fehlerursache leicht ermitteln und beheben können.

Fazit


Die im Artikel gezeigten Beispiele sind nur ein kleiner Teil aller Funktionen unseres neuen Frameworks. Wir hoffen, dass es Ihnen dabei hilft, den Prozess der Erstellung eines intelligenten Assistenten zu beschleunigen und zu vereinfachen.

Wie greife ich auf das Framework zu?


Sie können es aus der GitHub - Repository herunterladen hier .

Für diejenigen, die das Framework nicht herunterladen möchten oder können oder IPython Notebook nicht ausführen können, haben wir eine Online-Version des Frameworks erstellt, die in der IBM Gallery über den Link verfügbar ist . Eine solche Online-Version kann in der IBM Cloud als Teil des Watson Studio-Dienstes gestartet werden.

All Articles