Análisis de la calidad del chatbot en IBM Watson Assistant



Desafortunadamente, crear un asistente virtual que haga un buen trabajo en la tarea empresarial hoy no es un proceso tan simple como nos gustaría. En primer lugar, está lejos de ser obvio por qué el robot de chat comete errores y, lo que es más importante, no está claro cómo se pueden minimizar estos errores en el corto tiempo asignado para el desarrollo y el lanzamiento de la plataforma.

A través del desarrollo continuo de productos, el equipo de IBM Watson Assistant está tratando de hacer que el proceso de creación y lanzamiento de un asistente virtual sea lo más simple posible. Hoy hablamos del Cuaderno de análisis de habilidades de diálogo- Un marco para Python que le permite desarrollar rápidamente un asistente de IA de alta calidad en IBM Watson. No importa si está creando su primer chatbot o si es un experto en el campo de la creación de asistentes virtuales, en cualquier caso, este marco lo ayudará si tiene preguntas:

  • ¿Qué tan efectivo es mi bot de chat?
  • ¿Cómo puedo medir la efectividad de un asistente?
  • ¿Por qué el bot responde incorrectamente las preguntas?
  • ¿Cómo aumentar el nivel de comprensión de las preguntas por parte del asistente?

¿Cómo funciona?


A continuación, le mostraremos algunos ejemplos de tareas que pueden resolverse utilizando el marco. Puede probar sus funciones usted mismo descargándolas del repositorio de GitHub . Los ejemplos utilizados en el artículo se dan en inglés, pero puede usar el ruso para entrenar y verificar el chatbot.

Nota: este material está destinado a aquellos que tienen una comprensión básica de la creación de bots de chat en la plataforma IBM Watson Assistant. Si no está familiarizado con nuestra plataforma, o le gustaría aprender a crear asistentes virtuales de alta calidad basados ​​en IBM Watson, lo invitamos a seminarios de capacitación gratuitos que se realizarán en Moscú y San Petersburgo en marzo de 2020, incluido un taller práctico de dos días sobre la creación de asistentes virtuales.

Parte 1: Análisis de datos de capacitación


Utilizaremos el caso de prueba "Atención al cliente" disponible en el Asistente de Watson, en el que el chatbot está capacitado para reconocer las preguntas de la tienda, por ejemplo: "¿Dónde se encuentra su tienda?" o "¿A qué hora abre?" y asignarlos a los intentos Customer_Care_Store_Location y Customer_Care_Store_Hours

Inmediatamente después de cargar el script, puede comenzar el análisis de expresiones, lo que le permitirá detectar y corregir errores críticos, como la correlación de una palabra o frase simultáneamente con varios intentos, lo que garantiza errores en el proceso de uso del asistente.



Parte 2: Análisis de habilidades de conversación


Cuando crea una habilidad de conversación por primera vez, puede probar su trabajo utilizando el panel Probar en el Asistente de Watson para evaluar la capacidad del asistente de predecir si un texto pertenece a una intención específica.



Sin duda, es conveniente verificar si su bot de chat funciona o mostrar un ejemplo de su trabajo al cliente. Sin embargo, para verificar la calidad del trabajo del asistente, este enfoque es completamente inadecuado debido a la imposibilidad de la automatización. Los usuarios pueden hacer la misma pregunta en docenas de formas diferentes, e incluso si puede predecir todas las combinaciones posibles, tal verificación y análisis manual tomarán demasiado tiempo.

En su lugar, le sugerimos que utilice la segunda parte de nuestro marco, que lo ayudará a analizar las habilidades de conversación utilizando una muestra de prueba que incluye ejemplos adicionales para cada una de las intenciones que debe desarrollar. La unicidad es obligatoria para los elementos de esta muestra : no deben superponerse con los ejemplos en los que se entrenó el bot de chat, de lo contrario, sabrá las respuestas correctas y la verificación no tendrá sentido.

La evaluación se lleva a cabo de acuerdo con las siguientes métricas: precisión, precisión, recuperación y medida F1.



Considere el tema de ayuda:

  • Un alto valor de recuperación de [100%] indica que la afiliación de las oraciones de prueba a esta intención se reconoció de manera absolutamente correcta.
  • El valor de Precisión [66.67%] muestra que el modelo reconoció algunas oraciones de prueba relacionadas con otras intenciones como relacionadas con la intención de Ayuda . Es necesario prestar atención a esto ajustando la muestra de entrenamiento para lograr un resultado más alto
  • La medida F1 [80%] es una métrica general considerando los valores de Precisión y recuperación informa la calidad general del modelo en estudio.

Parte 3. Análisis avanzado


La tercera parte del marco abre oportunidades para un análisis extendido de su solución de diálogo. Usando las funciones implementadas en él, puede descubrir por qué una propuesta en particular fue reconocida por error.

Considere un ejemplo de visualización de la importancia relativa de las palabras en una oración.

Nota
, , : Customer_Care_Store_Location, Cancel, Customer_Care_Appointments General_Connect_to_Agent, Thanks, Customer_Care_Store_Hours, General_Greetings, Help

Con una operación absolutamente correcta, el asistente debe relacionar la frase "Si está cerrado el domingo, ¿puede pasarme mañana por la tarde?" a la intención de Customer_Care_Appointments , ya que el usuario solicita una reunión el domingo por la noche. Sin embargo, en este momento, esta oferta pertenece a la intención del asistente Customer_Care_Store_Hours .

Al observar el diagrama, queda claro que dicha respuesta se justifica por la presencia en la oración de las palabras "cerrado" y "tarde" relacionadas con la intención Customer_Care_Store_Hours , y al mismo tiempo, esta falta de palabras en la oración que podría indicar que pertenecen a la intención necesaria.
La funcionalidad del marco le permite identificar palabras clave en la oración que el asistente "percibe" como las más importantes, lo que significa que puede determinar fácilmente la causa del error y corregirlo.

Conclusión


Los ejemplos que se muestran en el artículo son solo una pequeña parte de todas las características de nuestro nuevo marco. Esperamos que lo ayude a acelerar y simplificar el proceso de creación de un asistente inteligente.

¿Cómo acceder al marco?


Puede descargarlo desde el repositorio de GitHub aquí .

Para aquellos que no quieren o no pueden descargar el marco o ejecutar IPython Notebook, hemos creado una versión en línea del marco, disponible en la Galería de IBM a través del enlace . Dicha versión en línea se puede lanzar en la nube de IBM como parte del servicio Watson Studio.

All Articles