Cómo ABLYY NLP Technologies aprende a monitorear noticias y administrar riesgos

La gama de tareas que se pueden resolver utilizando las tecnologías ABBYY se ha reabastecido con otra oportunidad interesante. Capacitamos a nuestro motor en el trabajo de un asegurador bancario, una persona que capta eventos en contrapartes a partir de una gigantesca corriente de noticias y evalúa los riesgos.

Ahora, estos sistemas basados ​​en tecnologías ABBYY ya son utilizados por varios grandes bancos rusos. Queremos hablar sobre los matices de implementar esta solución, más bien desafíos no triviales e inesperados que nuestros ontólogos han enfrentado.

Frenar el flujo de noticias


Para tener éxito, un banco necesita saber exactamente con quién está tratando y responder rápidamente a los cambios importantes en la vida de sus contrapartes. Especialmente cuando se trata de otros bancos o grandes clientes corporativos: empresas de TI, empresas agrícolas y otros. Para esto, la mayoría de los bancos rusos tienen expertos especiales: suscriptores. Analizan información de varias fuentes, incluidos informes de noticias, para determinar los factores de riesgo para el banco. Es necesario no solo leer las noticias, sino también evaluar cómo afectará al banco y a sus clientes.

Los factores de riesgo pueden variar:

  • bancarrota,
  • conflicto de accionistas
  • Cambios en la estructura de propiedad o gestión,
  • hechos de fraude, amenaza de pérdida de negocios por parte de un cliente,
  • información sobre reclamos e inspecciones no programadas por agencias reguladoras,
  • la presencia de reclamos
  • ,
  • .

Si el asegurador identifica un factor de riesgo, a largo plazo la cooperación con dicha contraparte puede traer problemas al banco, hasta el juicio. Y la probabilidad de un resultado negativo es importante para averiguarlo lo más rápido posible. ¿Por qué no es tan simple? En las noticias, no solo es importante mencionar a las contrapartes, sino también el contexto. Debe comprender cuál es la relación de una persona o empresa con los factores que el banco relaciona con las fuentes de riesgo.

Mientras tanto, el flujo de noticias, especialmente considerando no solo los medios federales sino también regionales, es enorme y continúa creciendo. Medialogy solo, un servicio de monitoreo de noticias, agrega contenido de 52 mil fuentes. Según Roskomnadzor, a partir de septiembre de 2019, estaba registrado en el registro de medios rusoMás de 67 mil medios activos. Una persona es físicamente incapaz de leer rápidamente todas las noticias, incluso si solo es un tema de interés para él. Por lo tanto, los bancos deben reponer constantemente al personal de los suscriptores o buscar una solución alternativa en el campo de la tecnología de la información.

Opciones de solucion


La forma más obvia es reducir el flujo de mensajes a través de suscripciones pagas a fuentes de noticias cerradas sobre diversos temas. Dichas cintas son ofrecidas por Interfax, Prime, Thomson Reuters, Bloomberg y otras agencias de noticias. La noticia en ellos ya está parcialmente estructurada: hay etiquetas con nombres de compañías, personas clave involucradas en las noticias. Pero esto no resuelve el problema por completo: el trabajo con el contexto aún recae en los aseguradores.


Muchos sistemas de monitoreo de medios existentes en las empresas funcionan buscando palabras clave en el texto. Este enfoque ofrece una gran cantidad de "ruido" informativo y no funciona sin trucos adicionales en forma de filtros. La integridad y precisión en el escenario con palabras clave deja mucho que desear, porque:

  1. La palabra clave y sus variaciones afines pueden mencionarse en el texto, pero no son relevantes. Por ejemplo, una empresa puede aparecer en una referencia histórica que no está directamente relacionada con el mensaje.
  2. En las noticias, es importante no solo mencionar a las contrapartes, sino también el contexto. Debe comprender cuál es la relación de una persona o empresa con los factores que el banco relaciona con las fuentes de riesgo. Si observa ejemplos de factores de riesgo en los mensajes de texto, puede ver cuántas noticias potencialmente importantes se pueden perder al buscar por palabras clave. Entonces, la frase "conflicto de accionistas" no siempre se menciona en las noticias. Mientras tanto, si observa el siguiente ejemplo, para el asegurador el conflicto o su potencial es obvio:


Además, hay muchas otras noticias negativas que deben tenerse en cuenta al analizar las actividades de la empresa. Sin embargo, no caen en una categoría y difieren según los detalles del negocio del cliente:


Puede comprender y analizar rápidamente el contexto de otra manera. Es el momento justo para recordar nuestras tecnologías de PNL, que pueden determinar automáticamente el tipo de contenido y extraer entidades significativas de él.

Primeras muestras


Entonces, uno de los bancos rusos más grandes decidió determinar cuál de las dos tecnologías podría hacer frente mejor a la tarea de encontrar riesgos. Un clasificador inteligente de documentos determinó los factores de riesgo basados ​​en el contenido de las noticias. La solución basada en análisis de texto extrajo los datos necesarios de las noticias. Como resultado, resultó que la mejor opción es una simbiosis de dos soluciones: el clasificador ayudó a reducir el número de documentos que provienen de la cinta y eliminó información completamente irrelevante, y luego se incluyeron tecnologías de extracción de datos en el trabajo.

En la primera etapa, Prueba de concepto (POC), se probó la posibilidad misma de usar estas herramientas para buscar riesgos. El cliente eligió un factor de riesgo: una situación de conflicto. Se suponía que la tecnología identificaba mensajes que hablaban de un conflicto de accionistas: personas físicas o jurídicas, altos directivos de un banco o un conflicto de un banco con agencias reguladoras. ABBYY Onto-Engineers creó un modelo de prueba para el desarrollo del cual se utilizó una selección de 1000 noticias. Extrajo el texto del conflicto, la fecha de las noticias y una lista de sus participantes. El modelo demostró la viabilidad del enfoque propuesto: en la etapa POC, en la muestra de control proporcionada por uno de los bancos (noticias que no se utilizaron para el desarrollo), se obtuvieron los siguientes resultados de 50 documentos:


La integridad determina qué porcentaje de los factores en la muestra que encontramos y la precisión , qué porcentaje de factores que determinamos son realmente tales. La medida F es la media armónica entre precisión e integridad.

Después de completar con éxito el POC, se lanzó un piloto y mostró buenos resultados. A continuación se muestran los resultados del piloto en uno de nuestros proyectos. En comparación con la búsqueda de noticias por palabras clave, el módulo ABLYY NLP puede filtrar el triple de mensajes irrelevantes. Esto significa que el administrador de riesgos necesitará analizar tres veces menos noticias.


Mejorando el resultado


En el proceso de desarrollo de modelos, los ontólogos se guían por los resultados de las autoevaluaciones regulares, en las que se registran todas las discrepancias entre el objetivo y los valores obtenidos. Para elaborar dichos informes, las noticias se marcaron de acuerdo con las instrucciones proporcionadas por el cliente. Los archivos marcados en formato xml que contienen valores objetivo se compararon con los archivos xml obtenidos como resultado del uso de la versión actual del ontomodel. Los resultados de la prueba automática proporcionan información resumida que contiene los indicadores de calidad del análisis de toda la colección de noticias, así como información privada para cada objeto extraído y documento por separado. Por lo tanto, puede evaluar cómo aumenta la precisión del modelo en la dinámica.

Aquí hay un ejemplo de tal tabla:
imagen

Los resultados del modelo también se pueden medir con Accuracy Metric, una derivada de integridad y precisión:


La métrica de precisión se puede llamar la base. Mide el número de objetos clasificados correctamente en relación con el número total de todos los objetos. La métrica de precisión tiene algunas desventajas: no es ideal para clases desequilibradas, donde puede haber muchas instancias de una clase y algunas otras.

Esta métrica es utilizada por otro gran banco, también nuestro cliente. La métrica de precisión fue del 85%.

En el futuro, los bancos llevaron a cabo de forma independiente la integración de los productos ABBYY, dentro de los cuales funcionaba nuestro modelo, y los utilizaron en su circuito. Nuestros productos están integrados con el sistema de gestión de riesgos bancarios: transfieren documentos para su análisis y recopilan los resultados.

Como funciona el sistema


Desde un punto de vista técnico, el sistema funciona así: cuando el texto se procesa en la solución ABBYY, se realiza su análisis lingüístico en varias etapas. En la etapa léxico-morfológica, se determinan las propiedades más simples de las palabras: género, número, caso. Luego, en la etapa de análisis, se determina dónde está el sujeto, predicado, cómo se relacionan las palabras entre sí. Conocer la sintaxis le permite pasar a definir la semántica. Para cada palabra, se determina su significado. Además de este análisis lingüístico, las reglas para extraer información desarrolladas por nuestros ontólogos están funcionando. El ontomodel incluye una descripción de la estructura de datos que se obtendrá de los documentos del cliente y las reglas que permiten recuperar esta estructura de datos.



Desde el punto de vista del usuario, todo parece lo más simple posible. En su cuenta personal, hay enlaces a noticias sobre clientes seleccionados, en los que la tecnología vio riesgos. Al lado del enlace está el texto del factor de riesgo en sí. Por lo tanto, el usuario no necesita leer todas las noticias. Opcionalmente, puede recibir automáticamente enlaces a noticias por correo.

Habiéndose familiarizado con un fragmento del texto, el suscriptor mismo decide qué hacer a continuación con esta información.

Dificultades inesperadas


El riesgo es un concepto abstracto. Este es un campo profesional muy específico, y es importante tener en cuenta las opiniones de especialistas que trabajan con riesgos todos los días. Los usuarios de nuestros clientes pueden votar por las noticias y poner un "me gusta" condicional: si el sistema determinó correctamente la presencia de riesgo en las noticias o no.

En el proceso de depuración del sistema, nos enfrentamos al hecho de que los aseguradores a menudo interpretan el significado de las noticias y la presencia de un factor de riesgo en ellas. Un usuario quiere que aparezca cierto tipo de noticias en su feed, y otro considera que tales mensajes son intrascendentes. Este problema se resuelve de la siguiente manera: el banco recopila de los suscriptores una lista de noticias, de la cual los expertos dieron una interpretación diferente, y toma la decisión final sobre la interpretación de ciertas noticias: ¿hay un factor de riesgo en ella o no? Se realizan modificaciones en el ontomodel según los comentarios.

¿Qué pasa si la noticia está en inglés?


Muchos bancos rusos utilizan fuentes como Dow Jones, Bloomberg, Financial Times. Una de las ventajas de nuestro enfoque para el desarrollo de ontomodelos basados ​​en tecnologías ABLYY NLP fue una rápida adaptación de modelos desarrollados para analizar noticias en ruso para trabajar con textos en inglés. Esto requiere depurar el modelo en las noticias originales en inglés.

Califica los resultados


Ahora, los aseguradores pueden seguir las noticias en tiempo real, sin tener que leer los 100,500 mensajes. En principio, ni siquiera tiene que leer todas las noticias en las que el sistema encontró un factor de riesgo: el fragmento con el fragmento más importante se resalta en el programa. En un par de minutos, puede generar automáticamente un informe para un banco, resaltar solo un factor de riesgo o varios importantes. Con este enfoque, es más difícil pasar por alto algo importante. Además, el asegurador puede abrir la tarjeta de contraparte y seleccionar los mensajes que considere importantes. Con base en ellos, la calificación crediticia de la empresa puede ser revisada, la tasa de interés puede ser modificada o puede haber una razón para contactar a la gerencia de la empresa. Estos mensajes se pasan al sistema de flujo de trabajo.

Puede preguntar cuántas noticias procesa la tecnología. Todo depende del flujo de noticias: en enero y mayo, por ejemplo, tradicionalmente hay menos mensajes. Un banco puede consultar hasta 2.5 millones de noticias por mes a través de nuestro sistema. Y este número está limitado solo por la licencia y la potencia informática.

Por cierto, tecnologías similarespuede funcionar no solo en bancos, sino también en cualquier empresa que rastree un gran flujo de mensajes sobre competidores, clientes, socios y lea reseñas de usuarios en redes sociales. Por ejemplo, los fondos de capital de riesgo que utilizan tecnologías de PNL pueden rastrear información sobre nuevas empresas prometedoras en términos de inversiones potenciales y organizaciones gubernamentales: noticias clave sobre lo que está sucediendo en una región en particular, cuáles son los problemas, quién es responsable, etc. Además, puede analizar no solo mensajes en los medios de comunicación, sino también blogs y reseñas en las redes sociales.



¿Y qué tareas enfrentó al tratar con proyectos para procesar documentos no estructurados tanto para bancos como para empresas en otras industrias?

Source: https://habr.com/ru/post/undefined/


All Articles