Cómo el sistema DLP y el módulo OCR impidieron a los empleados falsificar los escaneos de pasaportes

¿Recuerda la historia de la fuga de datos de pasaportes de 500 millones de clientes de la cadena hotelera Marriott? Los atacantes podrían haber encontrado los datos, y el grupo hotelero incluso prometió pagar el costo de cambiar los pasaportes a los huéspedes afectados. Hay muchos casos similares. Es comprensible por qué: hoy más del 50% de las empresas almacenan más de la mitad de sus documentos en forma de escaneos, capturas de pantalla y PDF. Hace tres años , no más de un tercio de esos documentos estaban en organizaciones . Según una nueva encuesta realizada por SearchInform , el 51% de las empresas dijo que la cantidad de documentos en formato de imagen aumentó.

Recientemente, la mayoría de las filtraciones en forma de imágenes están sujetas a documentos legalmente relevantes, por ejemplo, contratos. En segundo lugar en el "grupo de riesgo" están los documentos financieros: balances, estados de pérdidas y ganancias, etc. La pérdida de dichos datos no solo amenaza los riesgos de reputación de la empresa, sino que también puede provocar la interrupción de las transacciones. Para proteger datos importantes de intrusos e intrusos, se instalan DLP : sistemas de prevención de fugas de información en los sistemas de información de la compañía .

Ya hablamos en Habr acerca de cómo "SearchInform Information Security Circuit" (CIB) y el módulo OCR basado en el producto de tecnología ABBYY FineReader Engine. Ahora, junto con los empleados del departamento de implementación de productos SearchInform, hemos recopilado cuatro historias sobre filtraciones de diferentes tipos de datos a través de buzones corporativos y personales. Y descubrimos cómo identificarlos utilizando el sistema DLP con el módulo OCR.



En una compañía de viajes, un empleado envió archivos en formato gráfico al correo personal. Utilizando las tecnologías ABBYY, fue posible establecer que los archivos adjuntos eran escaneos de pasaportes , y esto es una violación grave del trabajo con documentos de identidad. Además, esto fue una violación grave de la política de seguridad de esta compañía de viajes.

¿Cómo resultó exactamente que los archivos gráficos eran escaneos de pasaportes? Utilizando las tecnologías OCR incorporadas, el sistema DLP reconoció el texto en el escaneo, lo analizó y determinó que el documento tenía un número de pasaporte. Existen otras características que son peculiares solo de los pasaportes, por ejemplo, la presencia de frases como "Pasaporte emitido", "Código de departamento", etc. Además, el sistema DLP utiliza el clasificador ABBYY para reconocer una serie de documentos, incluidos los pasaportes. Él refina el trabajo de las tecnologías OCR, y esto finalmente mejora la precisión del resultado.

Los especialistas del servicio del IB comenzaron a investigar el incidente y descubrieron que los archivos confidenciales se transfirieron desde la cuenta del diseñador de la compañía, desde su computadora. Todos los documentos tenían nombres similares: "Scans", "Scans_new", "Scans_1": la grabación desde el monitor de la estación de trabajo del diseñador en el modo de capturas de pantalla separadas, que el módulo MonitorController del sistema DLP hace, mostró que el diseñador trabajó en Photoshop con escaneos de pasaportes. Recortó fotos de ellos y luego insertó otras nuevas:







Después de analizar todas las acciones del diseñador, el servicio de seguridad descubrió que el empleado falsificó escaneos de documentos. Las falsificaciones de alta calidad podrían usarse para registrarse en los servicios de Internet cuando un atacante no quiere "brillar" su identidad real. Sería difícil para los sistemas de verificación automática determinar la autenticidad de la información en tales imágenes.

Por lo tanto, la tecnología ayudó a rastrear la situación con escapes de datos y escaneos de pasaportes falsos. Gracias a esto, la compañía eliminó el riesgo de dañar su reputación.



La compañía petroquímica mantuvo cuestionarios rellenos a mano con datos de empleados . El sistema DLP registró el hecho de enviar estos cuestionarios fuera de la organización: la política de seguridad para el envío de datos personales funcionó. El sistema DLP emitió una señal debido al hecho de que el módulo OCR incorporado puede trabajar con texto escrito a mano y reconocerlo con una precisión superior al 88%. Esto se hace usando un clasificador estructural. Más detalladamente sobre las tecnologías de reconocimiento inteligente de caracteres ABBYY - reconocimiento inteligente de caracteres (ICR) - ya lo contamos en Habré .





La presencia de datos personales en los cuestionarios se convirtió en una señal para verificar el incidente. Resultó que los cuestionarios también contenían teléfonos, así como información detallada sobre el estado de salud de los empleados. Si los datos se escapan, alguien los necesita. Por ejemplo, pueden ser de interés para quienes anuncian servicios médicos y se dedican a la ingeniería social .

Los escaneos de perfiles podrían ser fácilmente de dominio público y esto llevaría a consecuencias irreparables. Los atacantes podrían extraer estos datos y, por lo tanto, dañar no solo a los empleados, sino también a la reputación de toda la empresa. En este caso, el empleado cuyo cuestionario estaba en las manos equivocadas podría quejarse ante la inspección del trabajo, Roskomnadzor o contar la historia en las redes sociales.

La complejidad de este caso es que no todas las tecnologías pueden reconocer texto escrito a mano, pero el módulo OCR ABBYY puede hacerlo. Damos un ejemplo. A continuación hay un cuestionario lleno a mano:


Y el resultado del reconocimiento de dicho perfil:





El módulo de reconocimiento de texto de ABBYY ayudó a descubrir patrones de espionaje industrial. Uno de los altos directivos contratados de la compañía, que se mudó a Rusia desde el extranjero, envió archivos gráficos de su correo personal a sus antiguos colegas. El sistema DLP ha descubierto este hecho.

Gracias al módulo OCR, el sistema DLP extrajo el texto de las fotografías y descubrió que el empleado estaba enviando fotos de documentación técnica a los desarrollos actuales de la empresa. Luego, DLP analizó los textos utilizando el algoritmo de "búsqueda similar". Es capaz de identificar textos que tienen un contenido cercano o incluso significado para el estándar.

La dificultad era que los documentos confidenciales estaban en el idioma de uno de los países de la CEI. Pero tanto el sistema DLP como el módulo OCR pueden funcionar con este lenguaje. El módulo OCR reconoce documentos en 210 idiomas (en formato de texto impreso) y 126 idiomas (en formato manuscrito), por ejemplo, idiomas con alfabetos basados ​​en caracteres latinos, cirílicos, griegos y armenios y muchos otros. Incluso puede trabajar con documentos en idiomas mixtos si, por ejemplo, se usan allí palabras en el idioma CIS y nombres en inglés.

Además, toda la documentación técnica contiene muchas tablas, dibujos, gráficos y diagramas. A menudo necesita comprender lo que está escrito en ellos, ya que esta información puede desempeñar un papel importante. El módulo OCR reconoce bien las tablas y otras estructuras complejas en los documentos. Gracias a esto, puede extraer toda la información de los gráficos, por ejemplo, para comprender si los datos están actualizados o ya obsoletos.

El sistema DLP señaló una fuga de documentación técnica a los empleados del servicio del IB, analizaron el incidente y confirmaron que la señal no era falsa y que la foto realmente fue tomada de documentos confidenciales. Como resultado, comenzó la verificación de la correspondencia de trabajo de este gerente. Los expertos en seguridad de la información descubrieron que estaba fusionando a sus amigos en el extranjero con datos valiosos que los competidores de otro estado podrían usar (spoiler: y usarlo). Por ejemplo, en sus cartas hubo una conversación informal con alarde de cómo "sus amigos conquistarán primero el mercado y rodearán a todos", incluida la empresa en la que trabajaba el alto directivo en ese momento.

Pero la historia no termina allí. El servicio de seguridad continuó investigando este caso, utilizando las capacidades del sistema DLP. El programa ayudó a encontrar correspondencia con los clientes. Resultó que el gerente superior abrió su propia entidad legal y la hizo pasar por un centro de servicio autorizado de la compañía "nativa". Tomó parte de las órdenes de reparación del empleador, pero al mismo tiempo no utilizó piezas nuevas, sino piezas descartadas. Esto provocó quejas de los clientes sobre la empresa principal y una pérdida de reputación. En primer lugar, la compañía perdió su ventaja competitiva y, en segundo lugar, no recibió ganancias, ya que los pedidos se fueron.



El jefe del departamento de ingeniería de una gran empresa emitió un certificado de licencia por enfermedad. Este hecho no habría llamado la atención si la política de seguridad que fija el envío de boletos aéreos no hubiera funcionado anteriormente en el sistema DLP . El hecho es que antes se envió una carta al correo del empleado con un archivo adjunto gráfico en formato PDF. Gracias al módulo OCR, se reconoció el texto en el PDF,







y el módulo analítico de búsqueda de frases DLP especificó que el archivo adjunto es un ticket. Esto se hizo usando un conjunto de frases, que es típico solo para boletos electrónicos, por ejemplo, "hora de salida", "código de reserva", "vuelo", "boleto electrónico", etc. Como resultado, resultó que las fechas del vuelo coincidieron con la baja por enfermedad.

Una investigación adicional mostró que el jefe del departamento de ingeniería iría a otra ciudad para una entrevista, lo que fue confirmado por su correspondencia con los competidores de recursos humanos, que el servicio de seguridad encontró y analizó. Por lo tanto, el sistema DLP ayudó a la gerencia de la compañía a poner la situación bajo un control especial y prepararse para el despido del empleado. Era posible detener la posible fuga de datos importantes a los competidores y mantener la continuidad del proceso de trabajo en la empresa.


Como puede ver, los casos son diferentes, pero en todos los casos, los documentos se pueden reconocer y analizar. Si tiene ejemplos de fugas inusuales de documentos en forma de imágenes o fotografías, compártalas en los comentarios. Ayudaremos a resolver estas situaciones.

All Articles