ABLYY NLP Technologies如何学会监视新闻和管理风险

使用ABBYY技术可以解决的任务范围充满了另一个有趣的机会。我们在一家银行承销商的工作中训练了我们的引擎,该人从巨大的新闻流中捕捉交易对手的事件并评估风险。

现在,这种基于ABBYY技术的系统已经被多家俄罗斯大型银行使用。我们想谈谈实施此解决方案的细微差别-我们的医师面临的相当不平凡和意外的挑战。

遏制新闻流


为了取得成功,银行需要准确地知道与谁打交道,并对对手方生活中的重要变化迅速做出反应。特别是当这些是其他银行或大型企业客户-IT公司,农业企业和其他公司时。为此,大多数俄罗斯银行都有专门的专家-承销商。他们分析各种来源的信息,包括新闻报道,以了解银行的风险因素。不仅需要阅读新闻,还需要评估新闻对银行及其客户的影响。

风险因素可能有所不同:

  • 破产,
  • 股东冲突
  • 所有权或管理结构的变化,
  • 欺诈事实,客户业务损失的威胁,
  • 有关索赔和监管机构计划外检查的信息,
  • 索赔的存在
  • ,
  • .

如果承销商确定了风险因素,那么与这样的交易对手的长期合作会给银行带来麻烦,直至审判。负面结果的可能性对于尽快发现很重要。为什么不是那么简单?在新闻中,不仅提及对手方很重要,而且上下文也很重要。您需要了解个人或公司与银行与风险来源相关的因素之间的关系。

同时,新闻流特别是不仅考虑联邦政府而且还考虑区域性媒体的新闻流是巨大的并且还在继续增长。仅媒体学(一种新闻监视服务)就可以汇总来自52,000 个来源的内容。据Roskomnadzor称,截至2019年9月,它已在俄罗斯媒体注册簿中注册超过6.7万种活跃媒体。一个人实际上无法快速阅读所有新闻,即使这只是他感兴趣的话题。因此,银行必须不断补充承销商的人员,或者寻找信息技术领域的替代解决方案。

解决方案选项


最明显的方法是通过付费订阅将消息流缩小到有关各种主题的封闭新闻源。此类磁带由Interfax,Prime,汤森路透,彭博社和其他新闻社提供。它们中的新闻已经部分结构化:其中包含带有公司名称的标签,新闻中涉及的关键人物。但是,这并不能完全解决问题:承保人仍然要依靠上下文来工作。


公司中许多现有的媒体监视系统都是通过在文本中搜索关键字来工作的。这种方法会带来很多信息“噪音”,并且如果没有其他过滤器形式的技巧就无法使用。带有关键字的场景中的完整性和准确性尚不理想,因为:

  1. 关键字及其相关变体可以在文本中提及,但不相关。例如,公司可能会在与该消息没有直接关系的历史参考中列出。
  2. 在新闻中,不仅要提及交易对手,而且要提及背景,这一点很重要。您需要了解个人或公司与银行与风险来源相关的因素之间的关系。如果您查看消息文本中的风险因素示例,则可以看到按关键字搜索时可能错过了多少潜在的重要新闻。因此,新闻中并不总是提到“股东冲突”。同时,如果您看下面的示例,对于承销商而言,冲突或潜在冲突显而易见:


此外,在分析公司的活动时,还必须考虑许多其他负面新闻。但是,它们不属于一类,并且根据客户业务的具体情况而有所不同:


您可以通过其他方式快速理解和分析上下文。现在正是时候回顾我们的NLP技术,该技术可以自动确定内容的类型并从中提取有意义的实体。

首批样品


因此,俄罗斯最大的银行之一决定确定这两种技术中的哪一种可以更好地应对发现风险的任务。智能文档分类器根据新闻内容确定风险因素。基于文本分析的解决方案从新闻中提取了必要的数据。结果,事实证明,最好的选择是两种解决方案的共生:分类器帮助缩小了来自磁带的文档数量,并删除了完全不相关的信息,然后将数据提取技术包括在工作中。

在概念验证(POC)的第一阶段,测试了使用这些工具搜索风险的可能性。客户选择了一个风险因素-冲突情况。该技术被认为能够识别出有关股东(个人或法人实体,银行的高级管理人员或银行与监管机构的冲突)冲突的消息。 ABBYY Onto-Engineers创建了用于开发的试验模型,使用了1000条新闻。她提取了冲突的文字,新闻的日期和参与者列表。该模型证明了该方法的可行性:在POC阶段,在其中一家银行(未用于开发的新闻)提供的控制样本上,从50个文档中获得了以下结果:


完整性决定了我们在样本中发现的因素所占的百分比,准确性决定了我们所确定的因素所占的百分比。F度量是准确性和完整性之间的谐波平均值。

成功完成POC后,启动了一个试点项目,他显示出良好的结果。以下是我们其中一个项目的试验结果。与关键字新闻搜索相比,ABBYY NLP模块可以过滤掉不相关消息的三倍。这意味着风险经理将需要分析的新闻减少了三倍。


改善结果


在开发模型的过程中,本体医生会受到定期自检结果的指导,其中记录了目标值和接收值之间的所有差异。要构建此类报告,将根据客户提供的说明对新闻进行标记。将包含目标值的xml格式的标记文件与使用当前版本的onmodel所获得的xml文件进行比较。自动测试的结果既提供摘要信息,也包含分析整个新闻集的质量指标,还提供分别提取的每个对象和文档的私人信息。因此,您可以评估动力学模型的准确性如何提高。

这是此类表格的示例:
图片

模型结果也可以使用Accuracy Metric来衡量,它是完整性和准确性的衍生物:


精度指标可以称为基础。它测量相对于所有对象总数正确分类的对象数。准确性度量标准具有一些缺点:对于不平衡的类而言,它不是理想的选择,因为不平衡类中可能有许多实例,而另一些实例则很少。

另一家大型银行(也是我们的客户)使用了该指标。准确度指标为85%。

将来,银行会独立进行ABBYY产品的集成(我们的模型可以在其中进行整合),并将其用于电路中。我们的产品与银行风险管理系统集成在一起:它们传输文件进行分析并收集结果。

系统如何运作


从技术角度来看,该系统的工作方式如下:当将文本处理到ABBYY解决方案中时,将执行其多阶段语言分析。在词法形态阶段,确定单词的最简单属性:性别,数字,大小写。然后,在解析阶段,确定主题,谓词在何处相互关联。了解语法后,您便可以继续定义语义。对于每个单词,确定其含义。在这种语言分析的基础上,由我们的本体专家制定的提取信息的规则正在起作用。本体模型包括对要从客户文档获得的数据结构的描述,以及允许检索此数据结构的规则。



从用户的角度来看,一切看起来都尽可能简单。在您的个人帐户中,有指向选定客户的新闻的链接,该技术在其中存在风险。链接旁边是风险因素本身的文本。因此,用户无需阅读整个新闻。(可选)您可以通过邮件自动接收新闻链接。

承销商自己熟悉了一段文本后,便决定下一步如何处理此信息。

意外的困难


风险是一个抽象的概念。这是一个非常具体的专业领域,因此必须考虑到每天都有风险的专家的意见,这一点很重要。我们客户的用户可以对新闻进行投票并添加条件“赞”:系统是否正确确定了新闻中存在风险。

在调试系统的过程中,我们面临这样一个事实,即承销商经常会解释新闻的含义以及其中存在风险因素。一个用户希望某种类型的新闻出现在其供稿中,而另一个用户则认为这样的消息无关紧要。解决此问题的方法如下:银行从承销商处收集新闻清单,专家对新闻清单做出不同的解释,并最终决定对某则新闻的解释:是否存在风险因素。根据反馈对本体模型进行修改。

如果新闻是英语怎么办?


许多俄罗斯银行使用的资料来源包括道琼斯(Dow Jones),彭博(Bloomberg)和金融时报(Financial Times)。我们基于ABLYY NLP技术开发本体模型的方法的优势之一是快速适应了为分析俄文新闻而开发的模型以处理英文文本。这需要在原始英语新闻上调试模型。

评价结果


现在,承销商可以实时跟踪新闻,而不必阅读所有100,500条消息。原则上,您甚至不必阅读系统发现危险因素的全部新闻:程序中突出显示了最重要的片段(摘要)。在几分钟之内,您可以自动为一家银行生成报告,仅突出显示一个或多个重要风险因素。采用这种方法,就很难错过重要的事情。此外,承销商可以打开交易对手卡并选择他认为重要的消息。在此基础上,可能会修改公司的信用评级,更改利率或有理由联系公司管理层。这些消息将传递到工作流系统。

您可能会问技术处理多少新闻。这完全取决于新闻流:例如,在一月和五月,传统上消息较少。一家银行可以通过我们的系统每月检查多达250万个新闻项目。而且此数字仅受许可和计算能力的限制。

顺便说一下,类似的技术不仅可以在银行中工作,还可以在跟踪有关竞争对手,客户,合作伙伴的大量消息并阅读社交网络上的用户评论的任何公司中工作。例如,使用NLP技术的风险基金可以按照潜在投资和政府组织的身份跟踪有关有前途的初创企业的信息-有关特定区域正在发生的事情,问题所在,负责人等的重要新闻。此外,您不仅可以分析媒体中的消息,还可以分析社交网络上的博客和评论。



在处理用于其他行业的银行和公司的非结构化文档的项目时,您面临什么任务?

Source: https://habr.com/ru/post/undefined/


All Articles