AutoML es genial y poderoso

Por el momento, tal vez, no hay una sola persona que esté interesada en la tecnología de la información y no haya escuchado que el aprendizaje automático, la minería de datos y los sistemas de soporte de decisiones son una de las áreas clave para implementar escenarios de transformación digital.

Los escenarios empresariales que utilizan ML (aprendizaje automático) cubren todas las áreas del negocio y utilizan la mayoría de los tipos de datos: tabular, texto y audio, imágenes, etc. Cada vez hay más proyectos y el número de especialistas está creciendo no tan rápido. Existe la idea de que parte del trabajo de estos científicos de datos "caros" puede automatizarse. Y aquí AutoML viene al rescate.

Por AutoML significan cosas diferentes. En SAP, creemos que esto es la automatización de las operaciones de rutina de Data Science. Probablemente, no es necesario describir la definición con más detalle en este artículo, ya que Aleksey Natekin ya hizo todo bastante bien aquí .

Si ves el video no hay deseo, entonces aquí hay algunas ideas sobre el tema:

imagen

Hay un buen ejemplo sobre este tema. Una vez, en un grupo de DS, discutimos un caso desde la práctica: una persona que afirmó el papel de Senior DS vino para una entrevista, todo lo
que pudo hacer fue ejecutar una de las herramientas populares de AutoML. A una pregunta razonable, ¿cómo se puede calificar para un nivel Senior con tal conocimiento, su respuesta fue impecable: "Traigo dinero a los negocios, y esta es mi herramienta". Es decir, AutoML en escenarios donde los datos ya se recopilan de forma ordenada en escaparates, se generan características de dominio y se definen métricas de calidad, lo que le permite lanzar rápidamente un nuevo servicio. Sí, el resultado puede ser peor que el prof. DS, pero probablemente mejor que junio, y en algunos casos, puede usarlo de inmediato.

Aquí hay más ejemplos de lo que la gente popular de la comunidad piensa acerca de esto (el primer comentario se refiere a una discusión sobre las noticias de que AutoML de Google tomó el segundo lugar).

imagen

Y se obtiene el uso de una gran cantidad de recursos, porque ahora no hay meta-entrenamiento avanzado. Más precisamente, es puntual en algunas decisiones o en una etapa muy temprana de preparación. También se puede encontrar en forma de prototipos. El resto es una búsqueda aleatoria de hiperparámetros o enfoques más prometedores: TPE, optimización bayesiana, NAS, RL.

Para poder comparar las soluciones y los enfoques de AutoML, ha aparecido un punto de referencia abierto. A las soluciones comerciales no les gustan tales comparaciones por una razón muy simple: la confrontación abierta es casi imposible. Además de la precisión, se presta demasiada atención a los tipos de datos, la inserción y el uso. Hacer el modelo en sí es el 15-20% del trabajo (o tal vez menos), además hay una gran capa de otros trabajos, desde transferencias hasta la publicación del servicio.

SAP toma su posición en el mercado de AutoML. Tenemos varios motores diferentes con diferentes niveles de madurez.

La Biblioteca predictiva automatizada de SAP en SAP HANA, que apareció históricamente después de la adquisición de KXEN en 2013, se desarrolló aún más exclusivamente como una herramienta para la implementación más rápida posible de modelos. Es conveniente cuando no hay un presupuesto pesado (a tiempo) para los modelos de entrenamiento, pero un resultado de calidad suficientemente alta es importante. De hecho, considere esta una versión rápida de AutoGBDT. Ahora hay un envoltorio de python familiar para la mayoría de las personas, y se parece a esto (Fig. 1).

imagen
Foto 1.

La segunda rama de la solución AutoML en SAP Data Intelligence de SAP apareció en diciembre de 2019. Este es un enfoque construido sobre la base de herramientas familiares de código abierto y complementado por nuestros propios desarrollos. Aquí se configura el posible tiempo de cálculo, y dentro del clúster, se selecciona la combinación óptima de pasos, algoritmos e hiperparámetros, donde la tubería final se ve así (Fig. 2).

imagen
Figura 2.

Esto es AutoML, que es parte de la plataforma SAP Data Intelligence y puede funcionar tanto en la nube como en las instalaciones. Además, todo lo que se necesita para administrar conjuntos de datos, integración y, quizás lo más importante, los mecanismos de integración estándar en SAP S / 4HANA con la generación de interfaces y servicios aparece aquí.

Si consideramos los siguientes pasos, es bastante obvio que los datos, desde el punto de vista del negocio, deben estar saturados de anotaciones que serán relevantes para ciertas tareas. Estos son signos de dominio, y las mejores formas de agregación con ciertas relaciones de objetos comerciales y redes micro-neurales pre-entrenadas - extractores de características.

Si observa competiciones y artículos en el campo de AutoML, puede identificar claramente las siguientes áreas:

  1. AutoTable - Datos tabulares
  2. AutoCV - Imágenes y videos
  3. AutoNLP - textos
  4. AutoTS - Series temporales
  5. AutoGraph - gráficos
  6. AutoSpeach - sonido
  7. AutoAD - busca anomalías

Supongo que también habrá soluciones bajo AutoRL, para entrenamiento con refuerzos.

Actualmente, SAP se está enfocando en trabajar con datos tabulares, series de tiempo y anomalías en términos de soluciones AutoML. La razón es simple, solo es posible construir una empresa inteligente con una gran cantidad de modelos en cada una de las áreas de negocio.

Bueno, por supuesto, cada compañía tiene sus propios detalles, por lo tanto, si los modelos estándar (típicos) no son adecuados, su personalización es necesaria. Y la forma más fácil de hacerlo es usar herramientas que no requieren la participación de especialistas en DS.

En general, nos esperan muchas cosas nuevas e interesantes en el futuro ...

Publicado por Dmitry Buslov, Arquitecto Senior de Soluciones Comerciales, SAP CIS.

All Articles