Cinco etapas para aceptar lo inevitable, o cómo desarrollamos un programa para la creación de perfiles automatizada

Hola, estoy en contacto con Alexey Filatov (alias afilatov123) En 2017, fui invitado al equipo de SearchInform para lanzar una nueva solución de software. Más precisamente, para aumentar las capacidades del producto estrella: el sistema DLP . El mercado no solo sabe cómo hacer software (evitar fugas de información y fraude corporativo). Los clientes quieren que el programa pueda predecir el comportamiento del usuario: "este empleado se está preparando para el despido, lo que significa que puede ..." o "una persona está estresada y probablemente cometerá un error". Y estas predicciones deben hacerse con alta precisión y en un formato automatizado.

Para resolver este problema, los proveedores suelen seguir el camino de UEBA (o UBA). Pero seguimos nuestro propio camino y comenzamos a crear perfiles automatizados.

imagen

Debajo del corte: la historia de qué camino tomamos para que el producto tenga lugar.

Aclararé de inmediato que la creación de perfiles automatizada con grandes reservas también se puede llamar análisis del comportamiento del usuario. Pero la diferencia en los métodos es significativa, nos gustaría resolver la confusión en términos en una de las próximas publicaciones (o incluso una larga historia se convertirá en una crónica interminable).

Por lo tanto, la creación de perfiles es una técnica de larga data, pero solo en un formato fuera de línea. En este mundo fuera de línea, hay especialistas en perfiladores que, basados ​​en el análisis del habla, entonaciones, expresiones faciales, hacen conclusiones sobre el estado emocional, las cualidades personales de una persona, sus inclinaciones criminales, etc. Mantener un generador de perfiles (y preferiblemente una docena) en el personal de incluso una empresa rica es una utopía. De ahí la idea de un programa que reemplace las cabezas brillantes.

Empezamos a trabajar en ProfileCentercon la elección de lo que se convertirá en la "materia prima" para el análisis. No hay muchas opciones:

  • lenguaje hablado: para evaluar las características lingüísticas y de voz;
  • escritura a mano con teclado;
  • Tráfico de Internet y otros patrones de interacción del usuario con una computadora;
  • expresiones faciales;
  • textos de usuario.

Spoiler: llevamos los textos al desarrollo, pero primero explicaré brevemente por qué se eliminaron las otras opciones.

Hablar es una fuente accesible de información, porque los proveedores quieren trabajar con ella. Sí, y hay buenos avances científicos en la evaluación del habla. En particular, los más notables son las obras de Tim Polzehl, por ejemplo, Personalidad en el habla . Además de Swati Johar (Swati Johar), Koteswara Rao Anne (Koteswara Rao Anne), K. Srinivasa Rao (K. Sreenivasa Rao), Ute Jekosch (Ute Jekosch). Pero aunque la técnica se considera cruda: los analizadores de voz pueden identificar bien el nivel de estrés, pero muchos expertos han cuestionado su capacidad para determinar de manera confiable las características personales .

Otra opción para trabajar con el discurso oral es traducirlo a texto escrito para analizarlo más a fondo como texto. Y, por supuesto, también probamos las herramientas para traducir el discurso en letras. Pero hasta ahora, la mayoría de las herramientas fuera de línea para la calidad del reconocimiento no nos han convenido.

Patrones de comportamiento- indicadores estadísticos del uso de la computadora. Por ejemplo, el tiempo que una persona pasa en una aplicación, programa en particular, cuántas cartas envía, etc. Los proyectos conocidos de UEBA (UBA) básicamente funcionan con esta información, revelando que, por ejemplo, una persona de repente comenzó a enviar no 10, sino 100 cartas al día (lo que significa que debe mirarlo). Pero esta tecnología aún no ha dado resultados objetivamente buenos en términos de predecir el comportamiento del usuario y, nuevamente, evaluar sus características personales.

Un parámetro relativamente interesante aquí es el análisis del tráfico y las consultas de búsqueda, pero más bien habla de los intereses reales del usuario, en lugar de su carácter y personalidad.

Análisis facial- Este es uno de los métodos mejor desarrollados. Pero en la comunidad científica, cada vez más personas comenzaron a dudar de la exactitud de este enfoque, porque Ha aparecido mucha información de que las expresiones faciales no siempre reflejan el estado emocional de una persona y son muy "ruidosas".

imagen

Con esto, yo, como persona directamente familiarizada con el FACS (Sistema de codificación de acciones faciales), también estoy de acuerdo. Una evaluación de las emociones puede ser principalmente útil dado el contexto y la relación exacta de estímulo y reacción. En nuestras condiciones, desafortunadamente, es imposible rastrearlo. Además, si desarrolla la idea aún más, tendrá que enfrentarse a un análisis fisionómico, y esto ya está plagado de investigaciones en el campo del conocimiento no científico.

Escritura a mano del tecladoHasta que encuentre un gran escepticismo en la comunidad científica, hay docenas de trabajos que han estudiado la cuestión de determinar los rasgos de personalidad por cómo una persona "toca las teclas", pero estos trabajos aún no se han implementado en modelos prácticos.

Ahora, esta tecnología está estrechamente especializada en analizar cómo una persona escribe un nombre de usuario y contraseña y puede usarse para identificar a una persona. El análisis de textos arbitrarios no está desarrollado. Pero incluso teniendo en cuenta estas limitaciones, la escritura a mano del teclado de todas las fuentes de información anteriores es la más interesante para nosotros, que se llama "crecer".

Y finalmente, análisis de texto.. El más estudiado y probado, ya que el lenguaje escrito es un producto directo del pensamiento. Refleja los patrones de pensamiento, la estructura interna de la personalidad, las preferencias, los valores y otras características. La conexión entre el pensamiento y el habla es estudiada por dos ciencias: la psicolingüística en mayor medida, la psicosemántica en menor medida. No solo fuimos nosotros quienes incorporamos el lenguaje escrito al desarrollo, ABBYY y Google lo utilizamos como fuente de información para sus productos, y muchos otros.

Hay una ventaja más puramente técnica de elegir el lenguaje escrito como base para el análisis: hay muchos, es ensamblado con éxito por el sistema DLP con el que se integra ProfileCenter. Entonces, la elección estaba predeterminada.

¿Qué es el ruido y cómo limpiar el texto?


Entonces, registramos que el discurso escrito se ha convertido para nosotros en la principal fuente de información para el programa. La siguiente etapa del trabajo es la creación de un algoritmo para limpiar el habla del "ruido", normalizando el texto. Eliminar del "ruido" significa eliminar elementos del texto que no llevan una carga semántica y no tienen valor para el análisis. Fue fácil comenzar: números abstractos, palabras latinas, errores tipográficos, algunas imágenes, todo atribuido al ruido.

imagen

Con la puntuación, todo resultó ser más complicado. Lejos de todo, ponga un punto al final de la oración en la correspondencia del hogar y fue necesario aprender cómo comenzar a determinar dónde debe colocarse. La presencia y el número de comas también es un parámetro importante. Al mismo tiempo, en la correspondencia de Skype o las redes sociales, los signos de puntuación prácticamente se ignoran.

Otra dificultad fue aislar la comunicación informal de la correspondencia y analizar textos en los que el empleado va más allá del alcance de los deberes profesionales y oficiales. La primera fuente que conectamos al módulo es el correo. Las frases estándar introductorias se excluyeron de este texto (hola, con respeto, firma, etc.) y solo la parte sustantiva de la correspondencia se llevó a análisis. Sin embargo, las personas escriben principalmente cartas comerciales secas por correo electrónico y, si conecta otras fuentes de información (mensajeros corporativos, redes sociales, etc.), obtendremos un resultado más preciso.

El siguiente paso para el análisis también incluyó correspondencia de mensajeros corporativos, Skype, Viber, WhatsApp, Lync, Telegram y redes sociales.

Trabajar con texto despejado


Tengo un texto limpio. La siguiente etapa, también es la más difícil, es la construcción de psicotipos de usuario basados ​​en este texto. En nuestro aparato conceptual, el "psicotipo" es un sistema de estereotipos conductuales, actitudes individuales y de valor, rasgos de personalidad motivacionales, emocionales y comunicativos necesarios para describir la diferencia entre las personas.

Hay muchas psicotipologías en los trabajos de los científicos, pero en general se duplican entre sí. Nos basamos más en los trabajos de Lichko, Leongard, Sobchik, Glukhov, Kosinski, Saligman, Belyanin y el modelo de perfil estructuralmente dinámico Psychea .

Como resultado de la síntesis de estas tipologías, ahora confiamos en ocho psicotipos con nombres convencionales: histeroide, epileptoide, paranoide, emotivo, ansioso, hipertímico, esquizoide y crítico.

Pero, ¿cómo analizar el texto en un formato automatizado para atribuir a su autor a uno de los ocho tipos?


La primera hipótesis fue esta: para cada psicotipo, debe crear un diccionario léxico, encontrar coincidencias en el vocabulario de la persona y asignarlo a uno de los ocho tipos. Por ejemplo, se sabe que las personas del tipo esquizoide usan palabras de baja frecuencia con más frecuencia ("muzle" en lugar de "wire" u "octotorp" en lugar de #) y largas, y el tipo epileptoid ama los verbos más que otros.

Pero estas son conclusiones a nivel de observaciones empíricas. Si intenta traducirlos a algoritmos, la idea se vuelve irrealizable: los diccionarios son demasiado grandes, cada palabra necesita un peso (su importancia en la fórmula general de tipo). ¿Quién puede asignar este peso? Perfil experto. Supongamos que incluso existe un "Alexey Filatov" tan abstracto que se toma la molestia de palear todas las palabras del idioma ruso en la medida en que cada una corresponde al léxico de un esquizoide o epileptoide. Pero incluso en una versión tan utópica, esta será una evaluación subjetiva de un experto en particular.

Pero los diccionarios de la frecuencia de las palabras que usa una persona dependiendo de la severidad de las cualidades de la personalidad individual es un asunto completamente diferente. Los investigadores psicolingüísticos los tienen. Pero incluso entonces, por su importancia para el análisis, esta variable en la fórmula no está en primer lugar. Porque mucho más importante no es lo que dice la persona, sino cómo: qué partes del discurso usa, cómo compone las frases, cuál usa la morfología, etc. Muchos de estos parámetros se describen en el corpus del idioma ruso, y este ya es el punto de partida para la preparación de fórmulas.

Otro punto importante. Para decir acerca de la severidad de ciertas cualidades personales en una persona, necesita un punto de partida. Una persona no puede estar simplemente motivada por dinero o simplemente estar en conflicto, está motivada o en conflicto solo en comparación con otra persona. Por lo tanto, la "norma" condicional para el programa es el valor medio de las cualidades personales en el equipo. Su número mínimo para el cálculo correcto del valor medio debe ser de 20 personas.

Como resultado, el algoritmo de cálculo, desde el momento en que se recopiló el texto del usuario hasta la clasificación final de uno u otro psicotipo, se eligió de la siguiente manera:

  • extraer texto de usuario no estructurado de los mensajes;
  • definimos palabras en un texto no estructurado que coinciden con diccionarios de cualidades personales;
  • determinar el valor del peso de la palabra en función de la frecuencia de las palabras en un texto no estructurado;
  • determinar las características de las cualidades personales;
  • determinamos los indicadores de la expresión cuantitativa de las cualidades personales del usuario, comparando sus características con los indicadores medios para todos los usuarios del equipo;
  • determinar el psicotipo del usuario.

Se decidió que en la interfaz del programa, el usuario en la persona de un especialista en seguridad o RRHH no ve el resultado de los cálculos en forma de psicotipo, sino una etapa intermedia de los cálculos. Es decir, el diseño de las cualidades personales. Esto es más informativo. Y mostramos el psicotipo en sí en el llamado informe extendido.

Prueba de hipótesis y refinamiento de fórmulas.


Hemos decidido el algoritmo de cálculo. ¿Cómo verificar la fórmula y cómo ajustar a quién consultar? Para estos fines, los propios empleados de SearchInform se convirtieron en los sujetos de prueba: seleccionaron a 102 personas. Yo, con la ayuda de otros perfiladores, los perfilé manualmente. Los sujetos se sometieron a tres cuestionarios estandarizados: el cuestionario 5PFQ (los llamados "Cinco Grandes"), el cuestionario Schwartz, los cuestionarios LN Sobchik SMIL e ITO. Luego comparamos los resultados con los datos que produjo el programa.

En las escalas, los resultados fueron diferentes: del 57% al 94%. Se determinaron perfectamente las escalas de extraversión / introversión, ansiedad, conflicto, actividad, etc. Los resultados resultaron ser peores, por ejemplo, en términos de "ambición".

De acuerdo con las estadísticas obtenidas, la fórmula se ajustó, como resultado, "cosimos" más de 70 variables (por ejemplo, el índice de voz pasiva, el índice de longitud de la palabra, las oraciones, los nombres propios, etc.) y el peso de cada uno.

Tardó mucho tiempo en determinar la cantidad mínima suficiente de material escrito para el análisis. Ahora nos hemos asentado en 20 mil lemas (un lema es una forma invariable de una palabra). Pero comenzaron el análisis con 50 mil, reduciendo este volumen en incrementos de 5 mil.

Una de las preguntas más comunes es por qué todavía no nos hemos dado cuenta de la posibilidad de evaluar el texto de un usuario de terceros tomado de fuentes abiertas. Por ejemplo, ¿por qué esperar la acumulación de 20 mil lemas, si puede tomar el texto de un usuario específico en la red y analizarlo de acuerdo con el mismo criterio? Técnicamente, esto es posible, pero luego la información debe ser cargada en el programa no por una persona, sino por el colectivo de empleados o personas de profesiones similares (descritas anteriormente por qué).

Control de combate y límite


Cuando el modelo de trabajo estuvo listo, hace aproximadamente dos años, comenzaron a probar (MVP) el programa no solo en sus propios empleados, sino también en los empleados de varias docenas de clientes que aceptaron participar en el experimento. Entre octubre y noviembre de 2018, recibieron un producto que funcionaba bien. Estábamos seguros de que da datos cualitativos sobre el llamado cualidades personales primarias (que podemos verificar con el cuestionario).

La precisión de los resultados del módulo terminado fue evaluada por perfiladores expertos y clientes en un 75-80%. Para una tarea cuya solución nadie ha propuesto previamente, estos son buenos indicadores. Lo principal es que esto es suficiente para resolver problemas comerciales.

imagen

Hay líneas que todavía no podemos ir más allá. Para crear un retrato psicológico de la forma más cualitativa posible, necesita dos o cuatro modalidades: texto, entonación, tráfico, etc. Cuando agreguemos voz, redes sociales y análisis de escritura manual al teclado, la calidad de la implementación será aún mejor. Pero estas tareas se resuelven bastante difíciles (descritas anteriormente). Cada porcentaje subsiguiente de precisión en el cálculo de nuestro módulo se da con dificultad creciente.
Enfrentamos aproximadamente las mismas limitaciones cuando intentamos crear perfiles para aquellas personas que escriben un poco y cuyo vocabulario, francamente, es pobre. Estamos hablando de aquellos usuarios cuya comunicación se reduce a "hola", "ok" y "vamos". Es difícil construir un perfil correcto solo sobre la base de un discurso escrito sobre ellos.

¿Y que pasó? Perfil corto: lo que contiene


El producto de toda la investigación descrita anteriormente es un breve perfil de personalidad. Como dije, esta es información primaria, “materias primas”, para sacar conclusiones más detalladas sobre una persona y el equipo.

En el perfil corto, necesitábamos crear un retrato del usuario que reflejara características fundamentalmente importantes desde el punto de vista de un especialista en seguridad y un servicio de seguridad de la información: fortalezas / debilidades, diferencias fundamentales entre un empleado y otros usuarios, tipo general, tendencias criminales, valores y recomendaciones.

Como resultado, en el perfil corto destacamos los tres rasgos de personalidad más fuertes y tres más débiles.
Se ve, por ejemplo, así:

imagen
(Esto, por cierto, es una captura de pantalla del perfil de un líder fuerte).

A continuación, componimos un índice de cualidades personales.. ¿Por qué lo necesitamos? No todos los rasgos de personalidad son iguales ... estables. La manifestación de algunos depende en gran medida del contexto, y sin algún punto de partida es imposible concluir que la calidad se expresa.

Por ejemplo, ¿cuándo se puede decir acerca de una persona que está en conflicto? ¿Cuándo empieza a maldecir? ¿Vencer a otros? ¿Disparar? Pero si concluimos que existe un conflicto en comparación con la cualidad opuesta (en una dicotomía), podemos entender cuán pronunciados son ambos. Es decir, una persona es más receptiva, cortés que el conflicto.

imagen

También identificamos tendencias criminales en un perfil corto (no olvide que nuestro ProfileCenter es un producto principalmente para servicios de seguridad).

Para identificar riesgospara cada perfil, volvieron nuevamente a la psicología, resaltada en el lenguaje de los riesgos económicos y de seguridad de la información que son inherentes a las cualidades personales. Por ejemplo, conflicto, habla, una tríada oscura de personalidad (manipulativo), cualidades de liderazgo, emocionalidad. Hay estudios que han permitido que estos datos se comparen y deriven recomendaciones. Aquí nos centramos en una gran cantidad de trabajos no solo en el campo de la criminología, la psicología criminal y el perfil criminal, sino también en la seguridad del personal y la gestión de riesgos del personal.
Para calcular la ambición, compilamos nuestras propias fórmulas lingüísticas. Para la selección de fórmulas variables para calcular valores básicos, se tomaron los desarrollos científicos de Belyanin y Schwartz.

Así es como se ve todo por completo. Informe breve del perfil:

imagen

Calificaciones, informes avanzados y dinámica de perfil


¿Que sigue? Al tener información sobre las cualidades personales, nos propusimos crear calificaciones, ya que esta es una función útil para nuestro público objetivo: especialistas en servicios de seguridad y especialistas en seguridad de la información en particular. Nos dijeron: tenemos 5.000 usuarios, no puedes seguir a todos. Si pudiera reducir nuestro enfoque de atención (identificar grupos de riesgo), sabríamos a quién vigilar más de cerca.

La complejidad en esta etapa no era tecnológica, sino metodológica. Dado que no es suficiente tomar y calificar a todos los usuarios para cada calidad. Para los servicios de seguridad, los rasgos de personalidad "sintéticos" son informativos, es decir, no conflictivos, sino escandalosos, no un deseo de interacción, sino de liderazgo. El escándalo y el liderazgo incluyen varios indicadores de un perfil corto. Para compilar una fórmula para cada calificación, para determinar el peso de cada cualidad en ella, recurrimos nuevamente a la psicosemántica y la psicolingüística. Procesamos al menos 35 obras en ruso e inglés. Como resultado, ahora el programa otorga 12 calificaciones , sobre la base de las cuales puede crear las suyas propias.

imagenLas calificaciones pueden determinar los grupos de riesgo de aquellos empleados que se están preparando para el despido, desmotivados, agresivos, escandalosos, etc. Y viceversa, utilizando las calificaciones puede crear grupos de reserva de personal. Por cierto, somos muy buenos para predecir el despido de un empleado, su agotamiento y su alto potencial de liderazgo.

En principio, las mismas tareas técnicas y metodológicas de la psicolingüística también estaban presentes al crear un perfil extendido y una dinámica de perfil: elegir variables para fórmulas y determinar el peso de cada valor.

En perfil extendidohizo informes adicionales que amplían en gran medida el alcance del programa, porque en esencia, brindan información sobre las competencias básicas del usuario. Generalmente son evaluados por gerentes de personal y gerentes de competencia SHL (la necesidad de poder y control, consentimiento, extraversión, intelecto general, apertura a lo nuevo, compromiso, estabilidad emocional, motivación para los logros).

Dinámica de los cambios de perfil : según el informe, puede recibir advertencias si algo le sucede a una persona, si esta se convierte en líderes de calificaciones que son importantes para los especialistas en seguridad de la información.

imagen

Atribuyo gran importancia al hecho de que pudimos crear un informe sobre la dinámica. ¿Por qué era importante hacer esto? Si después de 2 a 4 meses, el perfil y las calificaciones del usuario después de varios recálculos se mantienen generalmente estables, entonces este es un indicador de que se ha encontrado el llamado comportamiento típico del usuario.

Esto significa que la tarea clave del análisis de comportamiento en seguridad de la información ha sido resuelta.

Interfaz


Pero, curiosamente, era necesario jugar no solo con problemas técnicos y metodológicos. La cuestión de la presentación gráfica de los resultados causó no menos discusión. En mi cabeza, la interfaz se veía completamente diferente de lo que es ahora. Pero era importante pensar en cómo sería más conveniente para los clientes trabajar con el producto.

imagen

El diseñador trabajó en modo de emergencia, revisó docenas de opciones. Cada elemento fue criticado: visualización del índice de cualidades personales, conocido en el equipo del proyecto como una "batería", pictogramas para indicar valores básicos y nivel de ambición, un bloque con recomendaciones.

imagen
Interfaz "CIB Searchinform ProfileCenter", que se lanzó en 2018


"Dificultades de traducción"


Otro punto es la terminología. ¿Cómo elegir esos nombres de cualidades personales, calificaciones, que son correctas desde el punto de vista de la ciencia, pero informativas para nuestros usuarios? Por ejemplo, en la primera versión, presentamos el parámetro "juego". En psicología, esto significa involucrarse en el proceso, y para la mayoría de las personas, "compromiso con el juego".

Debido a las diferencias en la terminología, la versión alfa causó una evaluación ambigua, por lo que aparecieron definiciones y breves explicaciones de términos en la versión final del informe.

Las discusiones continúan ahora, cada vez que presentamos una nueva calificación y usted necesita decidir sobre un nombre de no psicólogos amplio pero comprensible. Cabe señalar que seguimos el mismo camino en vocabulario extranjero: el año pasado el lanzamiento se realizó en inglés.

¿Qué más estás trabajando? Mientras se trabaja para mejorar los informes. Ahora el módulo puede generar alrededor de 78,000 opciones para perfiles avanzados de empleados; puede determinar la calificación de riesgo del usuario. ProfileCenter se integra con el sistema SearchInform CIB DLP y necesita aprender a encontrar correlaciones con incidentes y el comportamiento humano.

Estamos trabajando para integrar el módulo de detección de escritura a mano del teclado en el ProfileCenter, preparando un informe extendido y riesgos adicionales en el campo del personal y la seguridad de la información; en general, hay muchas más opciones sobre cómo aumentar las capacidades del software.

En general, el mercado se está desarrollando activamente en esta dirección y ya hay seguidores que intentan evaluar automáticamente los riesgos de los empleados en el campo de la seguridad de la información. Pero enfatizo que tal trabajo puede ser prometedor en la unión de varias "modalidades", cuando al mismo tiempo el análisis toma en cuenta al menos no solo información "técnica", sino también psicolingüística: mejor, incluso más.

PD


Si mi larga historia sobre la creación de perfiles no lo asustó, sino que le interesó más el tema, lo invito a partir del lunes a tomar un curso sobre "Creación de perfiles para el servicio de IS": 5 clases que llevaremos a cabo en el Centro de búsqueda en persona y estarán disponibles en línea y de forma gratuita (todo porque cuarentena, qué más).

La lista de temas:

  • 20 , 11.00 : . . , .
  • 21 , 11.00 .

    « ProfileCenter» .
  • 22 11.00 .

    . ? .
  • 23 , 11.00 . . .
  • 24 , 11.00 .

    . ? .

Puedes registrarte aquí .

All Articles