DLP系统和OCR模块如何防止员工伪造护照扫描

还记得万豪酒店连锁集团的5亿客户泄露护照数据故事吗?攻击者可以找到数据,旅馆集团甚至承诺向受影响的客人支付更换护照的费用。有很多类似的情况。显而易见的原因:今天,超过50%的公司以扫描,屏幕截图和PDF的形式存储了一半以上的文档。三年前此类文件中只有不超过三分之一的文件存在于组织中根据SearchInform的一项新调查,有51%的公司表示图像格式的文档数量有所增加。

最近,以图像形式出现的泄漏最常受到法律上有关的文件的约束,例如合同。在“风险组”中排在第二位的是财务文件:资产负债表,损益表等。此类数据的丢失不仅威胁公司的声誉风险,而且还可能导致交易中断。为了保护重要数据免遭外界和入侵者的侵害,该公司的信息系统中安装了DLP信息泄漏预防系统

我们已经在Habr上谈到了基于ABBYY FineReader Engine技术产品的“ SearchInform信息安全电路”(CIB)和OCR模块的情况。现在,我们与SearchInform产品实施部门的员工一起,收集了四个有关通过企业和个人邮箱泄漏不同类型数据的故事。并且我们找到了如何使用带有OCR模块的DLP系统来识别它们。



在一家旅行公司中,一名员工以图形格式将文件发送到个人邮件。 使用ABBYY技术,可以确定附件是护照的扫描件,这完全违反了身份证件的工作。此外,这严重违反了该旅行社的安全政策。

事实证明这些图形文件是护照的扫描件? DLP系统使用内置的OCR技术,识别了扫描中的文本,对其进行了分析,并确定该文件具有护照号码。还有其他一些仅护照特有的特征,例如,出现诸如“护照签发”,“部门代码”之类的短语。此外,DLP系统使用ABBYY分类器识别许多文件,包括护照。他改进了OCR技术的工作,最终提高了结果的准确性。

IB服务的专家开始调查此事件,发现机密文件是从公司设计师的帐户通过他的计算机传输的。所有文档都具有相似的名称-“ Scans”,“ Scans_new”,“ Scans_1”: 以MonitorController DLP系统模块制作的单独屏幕截图的方式从设计器工作站的监视器记录下来,这表明该设计器在Photoshop中进行了护照扫描。他从照片中剪出照片,然后插入新的照片:







在分析了设计者的所有动作之后,安全服务发现该员工伪造了文档扫描。当攻击者不想“照亮”他的真实身份时,可以使用高质量的伪造品在Internet服务中进行注册。自动验证系统很难确定此类图像中信息的真实性。

因此,技术有助于通过数据泄漏和伪造护照扫描来跟踪情况。因此,该公司消除了损害其声誉的风险。



石化公司保留了用员工数据手工填写的调查表。 DLP系统记录了将这些调查表发送到组织外部的事实:发送个人数据的安全策略起作用。 由于内置的​​OCR模块能够处理手写文本并以超过88%的准确度进行识别,因此DLP系统发出了信号。这是使用结构分类器完成的。关于智能字符识别技术ABBYY-智能字符识别(ICR)的更多详细信息,我们已经在Habré上进行了介绍





调查表中个人数据的存在成为检查事件的信号。原来,调查表还包含电话以及有关员工健康状况的详细信息。如果数据泄漏,则有人需要它。例如,他们可能对广告医疗服务和从事社会工程的人感兴趣

个人资料扫描很容易在公共领域进行,这将导致无法挽回的后果。攻击者可能会提取这些数据,从而不仅损害员工,而且损害整个公司的声誉。在这种情况下,调查表使用不当的员工可能会向劳动监察局Roskomnadzor投诉或在社交网络上讲述这个故事。

这种情况的复杂性在于,并非所有技术都可以识别手写文本,但是OCR ABBYY模块可以做到这一点。我们举一个例子。以下是一份手工填写的申请表:


以及识别此配置文件的结果:





ABBYY的文本识别模块有助于发现工业间谍活动模式。公司的一位聘请的高级管理人员从国外移居俄罗斯,他将个人邮件中的图形文件发送给了他的前同事。DLP系统已经发现了这一事实。

由于使用了OCR模块,DLP系统从照片中提取了文字,并发现该员工正在向公司的当前发展部门发送技术文档的照片然后DLP使用“搜索相似”算法分析了文本。他能够识别内容或什至含义与标准相近的文本。

困难在于机密文件使用的是独联体国家之一的语言。但是DLP系统和OCR模块都可以使用此语言。 OCR模块可识别210种语言(以打印文本格式)和126种语言(以手写格式)的文档-例如,具有基于拉丁文,西里尔文,希腊文和亚美尼亚文字母的字母的语言。您甚至可以处理多种语言的文档,例如,如果在那里使用CIS语言的单词和英语名称。

此外,所有技术文档均包含许多表格,工程图,图形和图表。通常,您需要了解其中写的内容,因为此信息可能起重要作用。 OCR模块可以很好地识别文档中的表格和其他复杂结构。因此,他可以从图表中提取所有信息,例如,以了解数据是当前数据还是已经过时的数据。

DLP系统向IB服务人员发出了泄漏技术文档的信号,他们对事件进行了分析,并确认该信号不是虚假的,并且照片确实是从机密文件中拍摄的。结果,开始验证该经理的工作往来。信息安全专家发现,他正在将国外的朋友与其他州的竞争对手可以使用的有价值的数据合并(破坏者:并使用它)。例如,在他的信中进行了一次非正式对话,吹嘘“他的朋友将首先征服市场并遍及所有人”,包括当时最高管理者所在的公司。

但是故事还没有结束。安全部门使用DLP系统的功能继续调查此案。该计划有助于寻找与客户的往来信件。事实证明,最高管理者开设了自己的法人实体,并将其假冒为“本地”公司的授权服务中心。他接受了雇主的部分维修单,但同时不使用新零件,而是丢弃了零件。这导致客户对主要公司的投诉和声誉损失。首先,该公司失去了竞争优势,其次,由于订单减少,它没有获得利润。



一家大公司的工程部门负责人签发了病假证明。如果解决DLP系统中较早解决机票问题的安全策略未能解决,那么这一事实将不会引起注意 事实是,早先一封信以PDF格式的图形附件被发送到员工的邮件中。由于使用了OCR模块,因此可以识别PDF上的文本,







DLP短语搜索分析模块指定附件为票据。使用一组短语完成此操作,这仅适用于电子机票,例如“出发时间”,“预订代码”,“航班”,“电子机票”等。结果,事实证明航班日期与病假重合。

进一步的调查显示,工程部门的负责人正前往另一个城市进行采访,这一点得到了他与人力资源竞争者的进一步往来的证实,安全部门对此进行了分析。因此,DLP系统帮助公司管理层对情况进行了特殊控制,并为解雇员工做准备。可以阻止重要数据向竞争对手的潜在泄漏,并保持企业工作流程的连续性。


如您所见,情况不同,但是在所有情况下,都可以识别和分析文档。如果您有图像或照片形式的异常文档泄漏示例,请在注释中共享。我们将帮助您解决这些情况。

All Articles