Big Data Mitos y Cultura Digital



Continuamos publicando los informes más interesantes de RAIF , el foro anual sobre inteligencia artificial organizado por Jet Infosystems. Hoy queremos compartir la historia de Boris Asenovich Novikov, doctor en ciencias físicas y matemáticas, profesor del departamento de informática de HSE.

Big Data Mitos y Cultura Digital


La palabra grande en nuestro caso se refiere más a los mitos que a los datos, por lo que hablaré principalmente sobre el primero, pero en el contexto del segundo. Como he estado pretendiendo trabajar en la comunidad científica durante varias décadas, comenzaré definiéndolo para que parezca un conocimiento exacto.


Los mitos son una parte integral de la cultura de la sociedad, siempre han existido y continúan apareciendo en el mundo moderno. Doy ejemplos:


La mayor parte de la audiencia debería recordar el ruido alrededor del año 2000, que de hecho es una de las 400 formas relativamente honestas de extraer dinero del cliente, nada más. Por supuesto, el desastre no sucedió entonces.

Surgen muchos mitos sobre la ingeniería de software: hay muchos puntos de vista diferentes, y no me concentraré en este tema ahora.

Una iniciativa de arriba me empujó a este informe: en la universidad donde trabajaba, era necesario enseñar alfabetización digital a todos, desde el jardín de infantes hasta la escuela de posgrado. Nadie sabía lo que era, y admití imprudentemente ante la gerencia que entendí aproximadamente cómo hacerlo ... y quedé atrapado. Era necesario aprender diferentes especialidades en un solo programa:


Mi principal contribución al asunto fue que renombré este curso de Alfabetización digital a Cultura digital.

En una de las conferencias internacionales, escuché esta declaración: para atraer la atención de la audiencia, debe agregar al menos un poco de sexualidad al informe, y así: hace unos años en la prensa (en particular, en Rusia) el caso fue ampliamente discutido una colegiala estadounidense comenzó a enviar anuncios para mujeres embarazadas (el contexto sexual de la historia termina aquí), luego la familia presentó una demanda, pero al final la demanda tuvo que ser retirada ... Porque la niña realmente resultó estar embarazada. La historia ha hecho mucho ruido, dicen, ¡estos analistas saben más sobre nosotros que nosotros mismos (esto es poco probable)! Todo esto es muy peligroso y es necesario fortalecer la defensa. Así nacieron los mitos:

  1. Big data es extremadamente peligroso
  2. Ellos saben más sobre nosotros que nosotros mismos.
  3. Se requieren medidas de seguridad adicionales

No me malinterpreten: la seguridad es importante, pero veamos cómo evaluar este caso profesionalmente.


¿Qué conclusión se puede hacer? El análisis A VECES puede producir los resultados correctos, y también podemos decir que a veces no sabemos nada.

Mis amigos y colegas llaman la atención sobre el hecho de que el envío aleatorio a veces también brinda los resultados correctos, y no podemos decir nada sobre la calidad del envío a menos que evaluamos algún indicador cuantitativo. En primer lugar, es necesario evaluar la integridad y precisión.

Los siguientes tipos de mitos que tomé prestados de un contexto extranjero. Por ejemplo, en una de las principales conferencias de procesamiento de datos SIGMOD 2019, hubo un panel de discusión (o, como decimos, una mesa redonda) sobre el tema "Ciencia de datos responsable". Discutieron ejemplos de cómo el uso irresponsable de herramientas de análisis de datos, aprendizaje automático, etc. Como un ejemplo, citaron la historia de determinar el sexo de una persona a partir de fotografías de los ojos. La gente trabajó en esto durante varios años, logró una precisión de hasta el 80%, hasta que un escéptico descubrió que, de hecho, determinan la presencia o ausencia de cosméticos.

Esto es una curiosidad, pero aquí hay un ejemplo en el que el peligro es absolutamente real: estamos hablando de usar métodos de aprendizaje automático para identificar criminales a partir de fotografías. Al final resultó que, en el principio mismo del trabajo de este sistema de aprendizaje, hay problemas con la corrección política: en primer lugar, dieron respuestas falsas positivas con diferentes frecuencias dependiendo de la raza, y en segundo lugar, como resultó más tarde, de hecho, determinaron la presencia o ausencia de una sonrisa en fotos, nada más. Sin embargo, hubo intentos de usar este sistema, y ​​los oficiales que debían usar los resultados, en caso de desacuerdo, debían escribir una explicación escrita de por qué no estaban de acuerdo con los resultados que produce el sistema. Este es un ejemplo de cómo los mitos pueden volverse peligrosos para la sociedad.


Por alguna razón estamos hablando de Data Science, aunque estamos hablando de aplicaciones industriales. En todas las demás áreas - Informática, pero ... Ingeniería de software. ¿Ecuaciones de física matemática y algún tipo de construcción de puentes, o algo más? Colegas, ¡no se puede confiar en los científicos! Me gustaría pensar que Data Science pertenece a la sección "Science", y desafortunadamente, la redacción de Data Engineering ya está ocupada por otro concepto.

Vuelvo a la historia con el diseño del curso para toda la universidad, independientemente de su preparación y especialidad. La imagen del lado derecho (cisne, cáncer y lucio) muestra cómo trabajó el equipo formado por representantes de todos los departamentos universitarios.


Sin embargo, tratamos de hacer algo razonable. La idea era mostrar cosas simples que todo investigador puede hacer por sí mismo, independientemente del área en la que trabaja. Además, para que pueda entender en qué punto (¡esto es lo más importante!), Debe ponerse en contacto con profesionales de procesamiento de datos. Traté de evitar tales recetas para principiantes (pero poco surgió), como "Hacer de la adición una guía popular, pero no práctica".

Entonces, los mitos son inevitables, y debemos entender que todavía tenemos que lidiar con ellos. Los mitos son la fuente de muchos errores, fallas y problemas, y a veces incluso pueden ser peligrosos: el uso irreflexivo del mítico "conocimiento" puede tener consecuencias negativas.

Además del hecho de que estamos desarrollando tecnologías, es necesario educar a la sociedad, y esta es una preocupación constante que nunca se resolverá por completo, porque la humanidad en general no se desarrolla tan rápido como la tecnología. Educar a las personas es mucho más difícil que la inteligencia artificial, una de las fuentes de los mitos. Necesitamos aprender a trabajar y vivir con él de tal manera que evitemos grandes peligros.

All Articles