L'avenir est là: comment fonctionnent les robots vocaux et ce qu'ils peuvent faire

image

La robotisation des opérations de routine, lorsque les robots sont utilisés pour résoudre des tâches simples et à la fois laborieuses, plutôt que des personnes, est une tendance très active. Beaucoup de choses sont automatisées, y compris les conversations téléphoniques avec les clients. La société Neuro.net est engagée dans la création de technologies qui offrent la possibilité d'améliorer les capacités des robots.

Dans cet article, les développeurs parlent des technologies et des nuances permettant de reconnaître le sexe de l'interlocuteur par la voix et de travailler sur des éléments importants du dialogue.

D'abord un cas, puis une panne de technologie


image

L'un des cas les plus intéressants est le remplacement des employés du centre d'appels d'une entreprise partenaire par un robot vocal. Les capacités de ce dernier n'ont pas été utilisées dans des situations normales, telles que la clarification de l'adresse de livraison, mais pour découvrir pourquoi certains clients sont devenus moins susceptibles de visiter le site Web de l'entreprise.

La technologie était basée sur l'utilisation d'un réseau neuronal à part entière, plutôt que sur des scripts individuels. C'est le réseau neuronal qui nous a permis de résoudre les problèmes qui perturbent généralement les robots. Tout d’abord, nous parlons des réponses de l’interlocuteur comme «eh bien, je ne sais pas encore, peut-être oui, bien que non» ou même «oui non». Les mots communs aux humains deviennent un obstacle insurmontable pour un robot.

image

Au cours de la formation, le robot a commencé à comprendre quelle était la signification d'une phrase particulière et quelle devrait être la réponse. Le robot a eu plusieurs votes - hommes et femmes. La tâche principale était «d'humaniser» le robot afin que l'interlocuteur humain ne teste pas les capacités de la machine, mais mène un dialogue selon le scénario cible.

Voici un exemple de ce qui s'est passé.


Le robot écoute l'interlocuteur, donnant une réponse en fonction de la signification de ce que le client a dit. Le nombre total de branches de script pouvant être utilisées pour la conversation est supérieur à mille.
L'objectif principal de ce robot était de comprendre la raison de la baisse d'activité du client de l'entreprise sur le site et de faire une offre intéressante à tous. Ce fut l'une des premières tentatives de l'entreprise pour automatiser le travail des centres d'appels.

Les nouveaux robots sont plus parfaits. Voici d'autres exemples de la façon dont les robots communiquent avec les humains: premier , deuxième , troisième exemples.

Maintenant sur la technologie


Il existe trois caractéristiques technologiques clés qui permettent au robot de fonctionner:

  • reconnaissance du sexe de l'interlocuteur par la voix,
  • reconnaissance de l'âge
  • construire un dialogue avec un interlocuteur humain.

image

Reconnaître le sexe de l'interlocuteur par la voix


Pourquoi est-ce nécessaire? Initialement, cette fonction a été créée pour mener des enquêtes à l'aide de robots. Auparavant, le travail d'enquête était effectué par des personnes qui remplissaient un certain nombre de points. Par exemple, le plancher de l'interlocuteur. Il est clair qu'une personne n'a pas besoin de demander à qui elle parle - un homme ou une femme, pour déterminer ce paramètre. Dans 99%, tout est clair. Les robots sont une autre affaire, pour qu'ils apprennent plus ou moins précisément à reconnaître les voix, j'ai dû faire un travail à grande échelle. Et ce n'était pas en vain, maintenant la technologie est utilisée pour personnaliser les offres et les invites vocales selon le sexe.

Un point important - la voix féminine est universelle et applicable pour travailler avec la plus large gamme de produits, et elle est particulièrement importante pour les produits pour femmes. Selon diverses études,une voix féminine est perçue positivement par tout public, respectivement, dans ce cas, la conversion est plus importante. Une exception - lors de la promotion de produits «masculins», une voix masculine est préférable.

Comment ça fonctionne? Tout d'abord, le traitement des données primaires est effectué, il est basé sur le traitement des enregistrements vocaux et des fragments d'une durée de 20 ms. Tous les fragments de voix collectés sont prétraités dans le composant VAD (Voice Activity Detection). Cela est nécessaire pour séparer les "grains de l'ivraie", c'est-à-dire la parole du bruit. Toutes les ordures sont supprimées, ce qui augmente la précision des modèles.

Pour la reconnaissance, ce qu'on appelle l'espace des coefficients cepstraux, les première et seconde différences, est utilisé. La base est la méthode GMM - Gauss Mixture Models.

Ainsi, sur un intervalle de 10-20 ms, le spectre de puissance actuel est calculé, après quoi la transformée de Fourier inverse du logarithme du spectre est appliquée, avec la recherche des coefficients nécessaires.

Nos modèles GMM sont configurés séparément pour enseigner les mods vocaux masculins et féminins, et les modèles sont également utilisés pour déterminer les voix des adultes et des enfants. Bien sûr, vous ne pouvez pas entraîner le système à partir de zéro, vous avez besoin d'enregistrements vocaux balisés.

Afin d'augmenter l'efficacité du système, les coefficients des modèles de voix de timbre sont appliqués:

  • Netteté timbrale.
  • Chaleur timbrale.
  • Luminosité timbrale.
  • Profondeur timbrale.
  • Dureté timbrale.
  • Croissance timbrale.
  • Inégalité timbrale.
  • Réverbération de timbre.

Des modèles de timbre sont nécessaires pour identifier correctement les voix des enfants - tout autre modèle accepte la voix de l'enfant comme une femme. De plus, vous devez faire la distinction entre les voix féminines grossières (par exemple, une femme âgée qui fume), les voix masculines élevées, etc. Soit dit en passant, si une personne dit «bonjour» puis tousse - tous les modèles précédents qui n'utilisaient pas de filtres de timbre définiraient la voix comme masculine.



La partie principale du système est le module de classification des données basé sur le perceptron multicouche, MLP. Il transmet des données de modèles de voix masculines et féminines, des données de modèles timbraux. À l'entrée du système, nous obtenons un tableau de valeurs classifiées, et à la sortie, le résultat de la détermination du sexe.

La technologie décrite ici est utilisée pour travailler à la fois en ligne (selon la première phrase du client) et en mode de classification hors ligne (après une conversation). La précision de la reconnaissance du genre est d'environ 95%. Un point important est que le délai de travail en ligne ne dépasse pas 120-150 ms, ce qui est extrêmement important pour l'humanisation du robot. Habituellement, les pauses dans la communication entre un robot et une personne ne sont pas des millisecondes, mais des secondes, ce qui, bien sûr, semble étrange pour un interlocuteur humain, et il est immédiatement clair que le système numérique communique.

Les plans incluent l'ajout de travaux avec du texte, plus précisément - des fins. Si l'interlocuteur dit «je pourrais» - certainement, c'est une femme. Dans un avenir proche, cette technologie sera finalisée et mise en œuvre dans le système de reconnaissance.

Déterminer l'âge de l'interlocuteur


Pourquoi est-ce nécessaire? Tout d'abord, afin de ne pas proposer divers produits et services aux mineurs. De plus, l'identification de l'âge est utile pour personnaliser les offres par catégories d'âge.

Comment ça fonctionne? Les mêmes technologies sont utilisées exactement comme dans le cas précédent. La précision du système est d'environ 90%.

image

Construire des boîtes de dialogue


Et maintenant, nous passons au plus intéressant - le principe de la construction de dialogues.

Pourquoi est-ce nécessaire? Afin de remplacer une personne avec compétence, un robot doit être capable de travailler à la fois dans des scénarios de dialogue linéaires et non linéaires. Dans le premier cas, il peut s'agir d'un questionnaire, dans le second - travail avec les abonnés du centre d'appels, les lignes d'assistance technique de l'entreprise, etc.

Comment ça marche? Nous utilisons le moteur NLU, dont la base est l'analyse sémantique du texte reçu des systèmes ASR. De plus, les objets de reconnaissance tels que les entités (intentions) et les intentions (intentions), qui sont utilisés dans la logique de construction d'un flux conversationnel, s'en distinguent.

Voici un exemple du fonctionnement de la technologie.

Texte reçu d'un système de reconnaissance vocale (ASR):
"En général, je suis intéressé par votre proposition, mais j'aimerais qu'elle soit moins chère. Et maintenant je suis un peu occupé, tu pourrais me rappeler demain à six heures. "

Objets remplis avec le moteur NLU:

Intentions:
confirmation =
objection vraie =
question coûteuse =
rappel nul = vrai
mauvais_heure = vrai

Entités:
date = 01/02/2019 (supposons que la date d'appel est le 01/01/2019)
heure =
montant 18:00 = 6

Principe de remplissage Les objets de cet exemple sont:

Intentions (intentions):

  • Le texte «Je suis intéressé par votre proposition» a été traduit en intention «confirmation» avec une valeur «vrai».
  • Le texte «Je voudrais qu'il soit moins cher» a été traduit en intention «objection» avec la valeur «cher».
  • Le texte «Je suis un peu occupé en ce moment» a été traduit en intention «mauvais temps» avec une valeur «vrai».
  • « » intent «call_back» «true».
  • , intent «question» null

Entities ():

  • «» entity «date» «02.01.2019», current_date + 1 (, 01.01.2019).
  • « » entity «time» «18:00»,
  • «» entity «amount» «6», , entities .

Pour la liste complète des intentions et des entités, certaines valeurs sont attribuées, qui sont ensuite utilisées pour créer un flux conversationnel.

Parlons maintenant des algorithmes de travail pris en charge par le système NLU Engine. Il comprend deux niveaux.

Le premier niveau - il fonctionne sur un échantillon de données relativement petit d'environ 600 à 1000 enregistrements. Les algorithmes ML sont utilisés ici. Précision de reconnaissance: 90-95%.

Le deuxième niveau - la transition vers celui-ci s'effectue après le lancement du projet et l'accumulation d'un large échantillon de données, comprenant plus d'un million d'enregistrements. Les algorithmes DL sont déjà utilisés ici. Précision de reconnaissance: 95-98%.

La solution fonctionne avec deux sous-systèmes:

  • sous-système de catégorisation et de classification des données textuelles,
  • sous-système de formation du dialogue.

Les deux sous-systèmes fonctionnent en parallèle. À l'entrée du système de catégorisation et de classification, le texte de l'abonné reconnu à partir de la phrase vocale est transmis; en sortie, la décision donne les paramètres remplis Entité et Valeur pour former la réponse.

Le sous-système de formation de dialogue pour la construction de scénarios non linéaires est construit sur un réseau neuronal. A l'entrée du système, le texte de l'abonné reconnu à partir de la phrase vocale est transmis, à la sortie, la décision est prise sur ce qui doit être perdu à l'instant suivant.

Un scénario non linéaire convient à la première ligne d'assistance - le robot ne sait pas qui appelle, à propos de quel produit particulier et avec quelles questions. Ici, la poursuite de la construction du dialogue dépend de la réponse du client.

Mais pour les appels sortants, la meilleure solution serait un scénario linéaire. Son exemple a été donné au tout début de l'article. Une autre variante du scénario linéaire consiste à mener une enquête lorsque la réponse du client importe peu, celle-ci sera analysée plus en détail par des spécialistes. Mais il est important de guider le client à travers toutes les questions de la liste.

En conséquence, je tiens à souligner que les robots vocaux ne remplaceront pas les gens. Maintenant, ils font un excellent travail avec un travail de routine - appeler les gens pour leur poser des questions et écouter / enregistrer / analyser les réponses. Ainsi, les centres d'appels et les opérateurs de support technique sont dispensés d'effectuer les mêmes procédures de routine. Au lieu de cela, ils peuvent se concentrer sur des questions et des défis vraiment intéressants.

All Articles