Flexibilidad y automatización en el aprendizaje automático.

En este artículo quiero hablar sobre las principales dificultades de la automatización del aprendizaje automático, su naturaleza y ventajas, y también considerar un enfoque más flexible que le permita evitar algunas de las deficiencias.

imagen

La automatización, por definición, Mikell P. Groover es una tecnología mediante la cual un proceso o procedimiento se realiza con una participación humana mínima. La automatización ha sido capaz de lograr una mayor productividad, lo que a menudo conduce a menores costos por unidad de producto. Los métodos de automatización, así como sus áreas de aplicación, están mejorando rápidamente y en los últimos siglos han evolucionado de mecanismos simples a robots industriales. La automatización comienza a afectar no solo el trabajo físico, sino también el intelectual, llegando a áreas relativamente nuevas, incluido el aprendizaje automático: el aprendizaje automático (auto ml, aml). Al mismo tiempo, la automatización del aprendizaje automático ya ha encontrado su aplicación en varios productos comerciales (por ejemplo, Google AutoML, SAP AutoML y otros).

imagenimagenimagen

Descargo de responsabilidad
Este artículo no pretende ser dogmático en el campo y es la visión del autor.

Aprendizaje automático automatizado


Las tareas en el campo del procesamiento de datos y el aprendizaje automático están asociadas con muchos factores que surgen debido a la complejidad del sistema y complican su solución. Estos incluyen ( según Charles Sutton ):

  • La presencia de incertidumbre e incertidumbre, lo que lleva a una falta de conocimiento a priori de los datos y las dependencias deseadas. Por lo tanto, el elemento de investigación siempre está presente.
  • "Muerte de mil cortes". En la práctica, al crear una tubería para el procesamiento y análisis de datos y el modelado posterior, debe tomar muchas decisiones grandes y pequeñas. Por ejemplo, ¿es necesario normalizar los datos? De ser así, ¿qué método y qué parámetros debe tener este método? Etc.
  • La presencia de bucles de retroalimentación resultantes de la incertidumbre. Cuanto más larga sea la inmersión en la tarea y los datos, más podrá aprender sobre ellos. Esto lleva a la necesidad de dar un paso atrás y realizar cambios en los mecanismos de análisis y procesamiento existentes.
  • Además, los resultados de modelos obtenidos por algoritmos de aprendizaje automático son solo una aproximación de la realidad, es decir Obviamente no es exacto.

imagen

Por lo tanto, el proceso de obtener una tubería completa de procesamiento y análisis de datos puede considerarse como un sistema complejo (es decir, un sistema complejo).

Sistema complejo
Peter Sloot, « » « », . , () , , () , () .. , , .

Por un lado, la presencia de estos factores complica tanto la solución de los problemas de aprendizaje automático y profundo como su automatización. Por otro lado, las capacidades informáticas cada vez más crecientes y cada vez más accesibles nos permiten asignar más recursos a la tarea.

imagenSegún el estándar común CRISP-DM, el ciclo de vida de un proyecto de análisis de datos consta de seis etapas principales: comprensión de una tarea empresarial, comprensión y estudio de datos (comprensión de datos), procesamiento de datos (preparación de datos), modelado ( modelado), evaluación de calidad (evaluación) y aplicación práctica (despliegue, aplicación). En la práctica, no todos estos pasos pueden automatizarse efectivamente hoy en día.

La mayoría de las obras o bibliotecas existentes (h2o, auto-sklearn, autokeras) se centran en la automatización del modelado y, en parte, en la evaluación de la calidad. Sin embargo, la expansión del enfoque hacia la automatización del procesamiento de datos permite cubrir más etapas (que, por ejemplo, se aplicó en el servicio Google AutoML).

Formulación del problema


Las tareas de aprendizaje automático con un maestro se pueden resolver mediante varios métodos, la mayoría de los cuales se reducen a minimizar la función de pérdida Jo maximizando la función de probabilidad L, para obtener una estimación de los parámetros θ^mbasado en la muestra disponible - conjunto de datos de entrenamiento yt:

All Articles