Comment ABLYY NLP Technologies apprend à suivre les actualités et à gérer les risques

L'éventail des tâches pouvant être résolues à l'aide des technologies ABBYY s'est reconstitué avec une autre opportunité intéressante. Nous avons formé notre moteur au travail d'un souscripteur de banque - une personne qui capte les événements sur les contreparties à partir d'un gigantesque flux de nouvelles et évalue les risques.

Aujourd'hui, de tels systèmes basés sur les technologies ABBYY sont déjà utilisés par plusieurs grandes banques russes. Nous voulons parler des nuances de la mise en œuvre de cette solution - des défis plutôt non triviaux et inattendus auxquels nos ontologues ont été confrontés.

Limitez le flux de nouvelles


Pour réussir, une banque doit savoir exactement avec qui elle traite et réagir rapidement aux changements importants dans la vie de ses contreparties. Surtout lorsqu'il s'agit d'autres banques ou de grandes entreprises clientes - sociétés informatiques, entreprises agricoles et autres. Pour cela, la plupart des banques russes ont des experts spéciaux - des souscripteurs. Ils analysent les informations provenant de diverses sources, y compris les reportages, pour les facteurs de risque pour la banque. Il est nécessaire non seulement de lire les nouvelles, mais aussi d'évaluer comment elles affecteront la banque et ses clients.

Les facteurs de risque peuvent varier:

  • la faillite,
  • conflit d'actionnaires
  • Changements dans la structure de propriété ou de gestion,
  • faits de fraude, menace de perte d'activité d'un client,
  • des informations sur les réclamations et les inspections imprévues des agences de régulation,
  • la présence de revendications
  • ,
  • .

Si le souscripteur identifie un facteur de risque, alors à long terme, la coopération avec une telle contrepartie peut poser des problèmes à la banque, jusqu'au procès. Et la probabilité d'un résultat négatif est importante à découvrir le plus rapidement possible. Pourquoi n'est-ce pas si simple? Dans l'actualité, non seulement la mention des contreparties est importante, mais aussi le contexte. Vous devez comprendre quelle est la relation d'une personne ou d'une entreprise avec les facteurs que la banque met en relation avec les sources de risque.

Pendant ce temps, le flux de nouvelles, surtout si l'on considère non seulement les médias fédéraux mais aussi régionaux, est énorme et continue de croître. Medialogy à lui seul, un service de suivi des actualités, regroupe le contenu de 52 000 sources. Selon Roskomnadzor, en septembre 2019, il était enregistré dans le registre des médias russesplus de 67 mille médias actifs. Une personne est physiquement incapable de lire rapidement toutes les nouvelles, même si ce n'est qu'un sujet qui l'intéresse. Les banques doivent donc soit reconstituer en permanence le personnel des preneurs fermes, soit rechercher une solution alternative dans le domaine des technologies de l'information.

Options de solution


Le moyen le plus évident consiste à restreindre le flux de messages par le biais d'abonnements payants à des flux d'actualités fermés sur divers sujets. Ces bandes sont proposées par Interfax, Prime, Thomson Reuters, Bloomberg et d'autres agences de presse. Les nouvelles sont déjà partiellement structurées: il y a des tags avec les noms des entreprises, des personnes clés impliquées dans les nouvelles. Mais cela ne résout pas complètement le problème: le travail avec le contexte appartient toujours aux souscripteurs.


De nombreux systèmes de surveillance des médias existants dans les entreprises fonctionnent en recherchant des mots clés dans le texte. Cette approche donne beaucoup de «bruit» informationnel et ne fonctionne pas sans astuces supplémentaires sous forme de filtres. L'exhaustivité et la précision du scénario avec des mots clés laissent beaucoup à désirer, car:

  1. Le mot-clé et ses variations apparentées peuvent être mentionnés dans le texte, mais ne sont pas pertinents. Par exemple, une entreprise peut être répertoriée dans une référence historique qui n'est pas directement liée au message.
  2. Dans l'actualité, il est important non seulement de mentionner les contreparties, mais aussi le contexte. Vous devez comprendre quelle est la relation d'une personne ou d'une entreprise avec les facteurs que la banque met en relation avec les sources de risque. Si vous regardez des exemples de facteurs de risque dans les textes de message, vous pouvez voir combien de nouvelles potentiellement importantes peuvent être manquées lors de la recherche par mots clés. Ainsi, l'expression «conflit d'actionnaires» n'est pas toujours mentionnée dans les nouvelles. En attendant, si vous regardez l'exemple ci-dessous, pour le souscripteur, le conflit ou son potentiel est évident:


En outre, de nombreuses autres nouvelles négatives doivent être prises en compte lors de l'analyse des activités de l'entreprise. Cependant, ils ne rentrent pas dans une seule catégorie et diffèrent selon les spécificités de l'entreprise du client:


Vous pouvez rapidement comprendre et analyser le contexte d'une autre manière. C'est le bon moment pour rappeler nos technologies PNL, qui peuvent déterminer automatiquement le type de contenu et en extraire des entités significatives.

Premiers échantillons


Ainsi, l'une des plus grandes banques russes a décidé de déterminer laquelle des deux technologies serait la mieux à même de trouver des risques. Un classificateur de document intelligent a déterminé les facteurs de risque en fonction du contenu des nouvelles. La solution basée sur l'analyse de texte a extrait les données nécessaires de l'actualité. En conséquence, il s'est avéré que la meilleure option était une symbiose de deux solutions: le classificateur a aidé à réduire le nombre de documents provenant de la bande et a supprimé des informations complètement non pertinentes, puis des technologies d'extraction de données ont été incluses dans le travail.

Lors de la première étape - Proof of concept (POC) - la possibilité même d'utiliser ces outils pour rechercher des risques a été testée. Le client a choisi un facteur de risque - une situation de conflit. La technologie était censée identifier les messages qui parlaient d'un conflit d'actionnaires - individus ou entités juridiques, cadres supérieurs d'une banque ou conflit d'une banque avec des agences de régulation. ABBYY Onto-Engineers a créé un modèle d'essai pour le développement duquel une sélection de 1000 nouvelles a été utilisée. Elle a extrait le texte du conflit, la date de la nouvelle et une liste de ses participants. Le modèle a prouvé la viabilité de l'approche proposée: au stade POC, sur l'échantillon de contrôle fourni par l'une des banques (actualités non utilisées pour le développement), les résultats suivants ont été obtenus à partir de 50 documents:


L'exhaustivité détermine quel pourcentage des facteurs de l'échantillon que nous avons trouvés et la précision - quel pourcentage des facteurs que nous avons déterminés sont effectivement tels. La mesure F est la moyenne harmonique entre la précision et l'exhaustivité.

Après l'achèvement réussi du POC, un pilote a été lancé et il a montré de bons résultats. Voici les résultats du pilote dans l'un de nos projets. Par rapport à la recherche de nouvelles par mots clés, le module ABLYY NLP peut filtrer trois fois plus de messages non pertinents. Cela signifie que le gestionnaire des risques devra analyser trois fois moins de nouvelles.


Améliorer le résultat


Dans le processus de développement de modèles, les ontologues sont guidés par les résultats d'auto-tests réguliers, dans lesquels toutes les divergences entre les valeurs cibles et reçues sont enregistrées. Pour créer de tels rapports, les nouvelles ont été marquées conformément aux instructions fournies par le client. Les fichiers marqués au format xml contenant des valeurs cibles ont été comparés aux fichiers xml obtenus grâce à l'utilisation de la version actuelle de l'ontomodel. Les résultats de l'autotest fournissent à la fois des informations résumées contenant les indicateurs de qualité de l'analyse de l'ensemble de la collection d'actualités, ainsi que des informations privées pour chaque objet et document extrait séparément. Vous pouvez donc évaluer comment la précision du modèle dans la dynamique augmente.

Voici un exemple d'un tel tableau:
image

Les résultats du modèle peuvent également être mesurés à l'aide de la précision métrique, un dérivé de l'exhaustivité et de la précision:


La métrique de précision peut être appelée la base. Il mesure le nombre d'objets correctement classés par rapport au nombre total de tous les objets. La métrique de précision présente certains inconvénients: elle n'est pas idéale pour les classes déséquilibrées, où il peut y avoir de nombreuses instances d'une classe et de quelques autres.

Cette métrique est utilisée par une autre grande banque, également notre client. La métrique de précision était de 85%.

À l'avenir, les banques ont indépendamment procédé à l'intégration des produits ABBYY, au sein desquels notre modèle fonctionnait, et les ont utilisées dans leur circuit. Nos produits sont intégrés au système de gestion des risques bancaires: ils transfèrent les documents à analyser et collectent les résultats.

Fonctionnement du système


D'un point de vue technique, le système fonctionne comme ceci: lorsque le texte est traité dans la solution ABBYY, son analyse linguistique en plusieurs étapes est effectuée. Au stade lexico-morphologique, les propriétés les plus simples des mots sont déterminées: sexe, nombre, cas. Ensuite, au stade de l'analyse, il est déterminé où le sujet, le prédicat, la façon dont les mots sont liés les uns aux autres. Connaître la syntaxe vous permet de passer à la définition de la sémantique. Pour chaque mot, sa signification est déterminée. En plus de cette analyse linguistique, les règles d'extraction des informations développées par nos ontologues fonctionnent. L'ontomodel comprend une description de la structure de données à obtenir à partir des documents du client et des règles qui permettent de récupérer cette structure de données.



Du point de vue de l'utilisateur, tout semble aussi simple que possible. Dans votre compte personnel, il y a des liens vers des nouvelles sur des clients sélectionnés, dans lesquels la technologie a vu des risques. À côté du lien se trouve le texte du facteur de risque lui-même. L'utilisateur n'a donc pas besoin de lire l'intégralité de l'actualité. En option, vous pouvez recevoir automatiquement des liens vers des actualités par courrier.

Ayant pris connaissance d'un fragment du texte, le souscripteur décide lui-même de la suite à donner à ces informations.

Difficultés inattendues


Le risque est un concept abstrait. Il s'agit d'un domaine professionnel très spécifique, et il est important de prendre en compte les avis de spécialistes qui travaillent au quotidien avec des risques. Les utilisateurs de nos clients peuvent voter pour les nouvelles et mettre un "j'aime" conditionnel: si le système a correctement déterminé la présence de risque dans les nouvelles ou non.

Dans le processus de débogage du système, nous avons été confrontés au fait que les assureurs interprètent souvent le sens des informations et la présence d'un facteur de risque. Un utilisateur souhaite qu'un certain type de nouvelles apparaisse dans son flux, et un autre - considère ces messages comme sans conséquence. Ce problème est résolu comme suit: la banque recueille auprès des preneurs fermes une liste de nouvelles, dont les experts ont donné une interprétation différente, et prend la décision finale sur l'interprétation d'une certaine nouvelle: y a-t-il un facteur de risque ou non? Des modifications sont apportées à l'ontomodel en fonction des commentaires.

Et si les nouvelles sont en anglais?


De nombreuses banques russes utilisent des sources telles que Dow Jones, Bloomberg, Financial Times. L'un des avantages de notre approche pour le développement d'ontomodels basés sur les technologies ABLYY NLP était une adaptation rapide des modèles développés pour analyser les actualités en russe pour travailler avec des textes anglais. Cela nécessite le débogage du modèle sur les nouvelles anglaises originales.

Évaluez les résultats


Désormais, les assureurs peuvent suivre l'actualité en temps réel, sans avoir à lire les 100 500 messages. En principe, vous n'avez même pas besoin de lire toute l'actualité où le système a trouvé un facteur de risque: le fragment avec le plus important (extrait) est mis en évidence dans le programme. En quelques minutes, vous pouvez générer automatiquement un rapport pour une banque, mettre en évidence un seul facteur de risque ou plusieurs facteurs importants. Avec cette approche, il est plus difficile de rater quelque chose d’important. De plus, le souscripteur peut ouvrir la carte de contrepartie et sélectionner les messages qu'il juge importants. Sur cette base, la cote de crédit de l'entreprise peut être révisée, le taux d'intérêt peut être modifié ou il peut y avoir une raison de contacter la direction de l'entreprise. Ces messages sont transmis au système de workflow.

Vous pouvez demander combien de nouvelles les processus technologiques. Tout dépend de l'actualité: en janvier et mai, par exemple, il y a traditionnellement moins de messages. Une banque peut consulter jusqu'à 2,5 millions de nouvelles par mois via notre système. Et ce nombre n'est limité que par la licence et la puissance de calcul.

Soit dit en passant, des technologies similairespeut fonctionner non seulement dans les banques, mais aussi dans toutes les entreprises qui surveillent un flux important de messages sur les concurrents, les clients, les partenaires et lisent les avis des utilisateurs sur les réseaux sociaux. Par exemple, les fonds de capital-risque utilisant les technologies de la PNL peuvent suivre les informations sur les start-ups prometteuses en termes d'investissements potentiels et les organisations gouvernementales - des informations clés sur ce qui se passe dans une région particulière, quels sont les problèmes, qui est responsable, etc. De plus, vous pouvez analyser non seulement les messages dans les médias, mais aussi les blogs et les critiques sur les réseaux sociaux.



Et à quelles tâches avez-vous dû faire face dans le cadre de projets de traitement de documents non structurés pour des banques et des entreprises d'autres secteurs?

Source: https://habr.com/ru/post/undefined/


All Articles