Flexibilité et automatisation dans l'apprentissage automatique

Dans cet article, je veux parler des principales difficultés de l'automatisation de l'apprentissage automatique, de sa nature et de ses avantages, et également envisager une approche plus flexible qui vous permet de vous éloigner de certaines des lacunes.

image

L'automatisation, par définition, Mikell P. Groover est une technologie par laquelle un processus ou une procédure est effectuée avec une implication humaine minimale. L'automatisation a longtemps été en mesure d'atteindre une productivité accrue, ce qui entraîne souvent une baisse des coûts par unité de produit. Les méthodes d'automatisation, ainsi que leurs domaines d'application, s'améliorent rapidement et au cours des siècles passés sont passés de simples mécanismes à des robots industriels. L'automatisation commence à affecter non seulement le travail physique, mais aussi intellectuel, atteignant des domaines relativement nouveaux, y compris l'apprentissage automatique - apprentissage automatique (auto ml, aml). Dans le même temps, l'automatisation de l'apprentissage automatique a déjà trouvé son application dans un certain nombre de produits commerciaux (par exemple, Google AutoML, SAP AutoML et autres).

imageimageimage

Avertissement
Cet article ne prétend pas être dogmatique dans le domaine et est la vision de l'auteur.

Apprentissage automatique automatisé


Les tâches dans le domaine du traitement des données et de l'apprentissage automatique sont associées à de nombreux facteurs qui surviennent en raison de la complexité du système et compliquent leur solution. Il s'agit notamment ( selon Charles Sutton ):

  • La présence d'incertitude et d'incertitude, ce qui conduit à un manque de connaissance a priori des données et des dépendances souhaitées. Ainsi, l'élément de recherche est toujours présent.
  • "La mort de mille coupures." En pratique, lors de la construction d'un pipeline pour le traitement et l'analyse des données et la modélisation ultérieure, vous devez prendre de nombreuses décisions, grandes et petites. Par exemple, est-il nécessaire de normaliser les données, si oui, quelle méthode et quels paramètres cette méthode devrait-elle avoir? Etc.
  • La présence de boucles de rétroaction résultant de l'incertitude. Plus l'immersion dans la tâche et les données a lieu, plus vous en apprenez. Cela conduit à la nécessité de prendre du recul et d'apporter des modifications aux mécanismes de traitement et d'analyse existants.
  • De plus, les résultats des modèles obtenus par les algorithmes d'apprentissage automatique ne sont qu'une approximation de la réalité, c'est-à-dire évidemment pas précis.

image

Ainsi, le processus d'obtention d'un pipeline complet de traitement et d'analyse de données peut être considéré comme un système complexe (c'est-à-dire un système complexe).

Système complexe
Peter Sloot, « » « », . , () , , () , () .. , , .

D'une part, la présence de ces facteurs complique à la fois la résolution des problèmes de machine et d'apprentissage profond et leur automatisation. D'un autre côté, les capacités informatiques toujours croissantes et de plus en plus accessibles nous permettent d'attacher plus de ressources à la tâche.

imageSelon la norme commune CRISP-DM, le cycle de vie d'un projet lié à l'analyse des données comprend itérativement six étapes principales: la compréhension d'une tâche métier (compréhension métier), la compréhension et l'étude des données (compréhension données), le traitement des données (préparation des données), la modélisation ( modélisation), évaluation de la qualité (évaluation) et application pratique (déploiement, application). Dans la pratique, toutes ces étapes ne peuvent pas être efficacement automatisées aujourd'hui.

La plupart des ouvrages ou bibliothèques existantes (H2O, auto-sklearn, autokeras) se concentrent sur l'automatisation de la modélisation et en partie sur l'évaluation de la qualité. Cependant, l'expansion de l'approche vers l'automatisation du traitement des données permet de couvrir plusieurs étapes (qui, par exemple, a été appliquée au service Google AutoML).

Formulation du problème


Les tâches d'apprentissage automatique avec un enseignant peuvent être résolues par différentes méthodes, dont la plupart sont réduites à minimiser la fonction de perte Jou maximiser la fonction de vraisemblance L, afin d'obtenir une estimation des paramètres θ^msur la base de l'échantillon disponible - ensemble de données de formation yt:

All Articles