¿Por qué el aprendizaje automático utiliza datos "sintéticos"?

Discutimos las opiniones de la comunidad de TI y los expertos de la industria. También consideramos un par de proyectos en los que desarrollan herramientas para generar datos "artificiales". Uno de ellos estuvo representado por inmigrantes de la Agencia de Seguridad Nacional de EE. UU. Y Google.


Fotos - Franki Chamaki - Unsplash

Problema de MO


Algunos algoritmos MO requieren datos estructurados para funcionar. Por ejemplo, para resolver los problemas de la visión artificial, los proporciona el proyecto ImageNet : en su base de datos, más de 14 millones de imágenes se dividen en 22 mil categorías. Trabajar con un conjunto tan grande está dando sus frutos. Los algoritmos que lo usan están equivocados al determinar el objeto en fotografías en solo el 3.75% de los casos. A modo de comparación, en humanos, esta cifra supera el 5%.

Pero crear conjuntos de datos como ImageNet para cada tarea es imposible. Al menos porque los registros en ellos están marcados (o marcados) manualmente. Al mismo tiempo, los datos reales, por ejemplo, bancarios o médicos, pueden estar cerrados e inaccesibles para todos los desarrolladores y científicos de datos. Pero incluso si tales datos existen, deben ser anonimizados antes del procesamiento.

Con la solución de estas dificultades, los datos sintéticos ayudan. Son artificiales y generados por computadora, pero se ven igualmente reales.

¿Quién trabaja en este campo?


Muchas universidades, empresas de TI y nuevas empresas están involucradas en proyectos en esta área. Por ejemplo, Gretel escribe software que genera un conjunto de datos artificiales basado en un conjunto de datos real. La compañía fue fundada por un grupo de inmigrantes de Google, Amazon y la Agencia de Seguridad Nacional de los Estados Unidos (NSA).

En primer lugar, su plataforma analiza la información disponible. Los ingenieros utilizaron los paseos en scooter eléctrico Uber como ejemplo . Gretel los clasifica y etiqueta, luego los anonimiza utilizando métodos de privacidad diferenciales . El resultado es un "conjunto de datos completamente artificial". Código de sus desarrolladores de decisionespublicado en GitHub .

Un proyecto similar se implementó en la Universidad de Illinois en Urbana-Champaign. Los ingenieros han escrito una biblioteca de Python que se puede usar para generar datos sintéticos para CSV estructurado, TSV y formatos JSON, Parquet y Avro parcialmente estructurados. En el primer caso, los expertos utilizaron redes generativas competitivas y, en el segundo, redes neuronales recurrentes .

¿Qué tan efectivos son los datos sintéticos?


Brindan una oportunidad para que los científicos y desarrolladores de datos capaciten modelos para proyectos en áreas donde todavía no hay datos grandes disponibles. De acuerdo a Alex Watson, uno de los fundadores de Gretel, en muchos casos no son suficientes valores que acaba de ver como los reales de los usuarios.

Gartner estima que para 2022, el 40% de los modelos MO estarán capacitados en conjuntos de datos sintéticos.

El jefe de Haze, una compañía de sistemas de inteligencia artificial, ha vinculado la difusión de tecnología a su "flexibilidad". La información artificial es más fácil de complementar y modificar para aumentar la efectividad del modelo entrenado.

También hay una serie de tareas relacionadas con la visión por computadora, donde es difícil usar algo que no sea un conjunto de datos sintético, por ejemplo, en robótica. Al diseñar robots industriales y vehículos no tripulados, se utiliza el aprendizaje por refuerzo . En este caso, el sistema de inteligencia artificial aprende interactuando directamente con un determinado entorno. Dependiendo de la respuesta de este entorno, el robot ajusta sus acciones.

Pero el dron no puede salir y determinar por ensayo y error que los peatones no pueden ser "aplastados". Por lo tanto, los ingenieros recurren a datos sintéticos: simulan el entorno en el espacio virtual. Por ejemplo, Nvidia ofrece una solución para tales experimentos . La investigación también ha llevado a cabo sobre la formación del equipo utilizando el motor del juego Grand Theft Auto V .


Fotos - Andrea Ang - Unsplash

A pesar de todas las ventajas de los datos artificiales, tienen sus inconvenientes. Son consideradosmenos preciso, incluso si se genera con datos reales, y puede conducir a modelos que generan resultados plausibles, pero irreproducibles en el mundo real. Sin embargo, uno de los residentes de Hacker News en un hilo temático señala que este no es un problema tan grande. Los datos artificiales se pueden usar para probar los algoritmos de un sistema inteligente.

Otro usuario de Hacker News dice que tecnologías similares complican el proceso de aprendizaje de los modelos y aumentan el costo de desarrollo. Sus palabras fueron confirmadas por un especialista de la Universidad de Illinois: la diferencia puede alcanzar el 50%.

En cualquier caso, los conjuntos de datos sintéticos no pueden considerarse una "bala de plata". Esta es solo una herramienta que puede ayudar a resolver un cierto rango de problemas. Pero es posible que con el tiempo este espectro se expanda rápidamente.

Sobre lo que escribimos en nuestro blog corporativo:

Una computadora que se niega a morir,
"Toma las huellas y vete para el fin de semana": cómo retirarte de los servicios más populares.
Qué herramientas ayudarán a cumplir con el GDPR
"Casi anarquía": una breve historia de Fidonet, un proyecto que "no importa" "A la victoria sobre Internet

All Articles