AutoML est génial et puissant

Pour le moment, peut-être, il n'y a pas une seule personne qui s'intéresse aux technologies de l'information et n'a pas entendu dire que l'apprentissage automatique, l'exploration de données, les systèmes d'aide à la décision sont l'un des domaines clés pour la mise en œuvre de scénarios de transformation numérique.

Les scénarios commerciaux utilisant le ML (machine learning) couvrent tous les domaines de l'entreprise et utilisent la plupart des types de données: tabulaires, texte et audio, images, etc. Il y a de plus en plus de projets, et le nombre de spécialistes ne croît pas si vite. Il existe une idée selon laquelle une partie du travail de ces scientifiques «coûteux» peut être automatisée. Et ici, AutoML vient à la rescousse.

Par AutoML, ils signifient des choses différentes. Chez SAP, nous pensons qu'il s'agit de l'automatisation des opérations de routine de Data Science. Il n'est probablement pas nécessaire de décrire la définition plus en détail dans cet article, car Aleksey Natekin a déjà tout fait assez bien ici .

Si vous regardez la vidéo, il n'y a aucun désir, alors voici quelques réflexions sur le sujet:

image

Il y a un bon exemple à ce sujet. Une fois, dans le groupe DS, nous avons discuté d'un cas de pratique - une personne qui prétendait le rôle de Senior DS est venue pour une entrevue, tout
ce qu'il pouvait faire était d'exécuter l'un des outils AutoML populaires. À une question raisonnable, comment peut-on se qualifier pour un niveau senior avec une telle connaissance, sa réponse était impeccable: "J'apporte de l'argent aux entreprises, et c'est mon outil." Autrement dit, AutoML dans des scénarios où les données sont déjà soigneusement collectées dans les vitrines, les fonctionnalités de domaine sont générées et des mesures de qualité sont définies, ce qui vous permet de lancer rapidement un nouveau service. Oui, le résultat peut être pire que le prof. DS, mais probablement mieux qu'en juin, et dans certains cas, vous pouvez immédiatement l'utiliser.

Voici d'autres exemples de ce que les gens populaires de la communauté en pensent (le premier commentaire fait référence à une discussion sur les nouvelles selon lesquelles AutoML de Google a pris la deuxième place).

image

Et l'utilisation d'un grand nombre de ressources est obtenue, car il n'y a plus de méta-formation avancée. Plus précisément, il est ponctuel dans certaines décisions ou à un stade très précoce de préparation. Il se retrouve également sous forme de prototypes. Le reste est une recherche aléatoire d'hyperparamètres ou d'approches plus prometteuses: TPE, optimisation bayésienne, NAS, RL.

Afin de comparer les solutions et les approches AutoML, un benchmark ouvert est apparu. Les solutions commerciales n'aiment pas de telles comparaisons pour une raison très simple - une confrontation ouverte est presque impossible. Outre la précision, l'accent est trop mis sur les types de données, leur intégration et leur utilisation. Faire le modèle lui-même représente 15 à 20% du travail (ou peut-être moins), en plus il y a une énorme couche d'autres travaux - des transferts à la publication du service.

SAP prend position sur le marché AutoML. Nous avons plusieurs moteurs différents avec différents niveaux de maturité.

La bibliothèque SAP Automated Preditive Library de SAP HANA, apparue historiquement après l'acquisition de KXEN en 2013, s'est développée exclusivement en tant qu'outil pour la mise en œuvre la plus rapide possible de modèles. C'est pratique lorsqu'il n'y a pas de budget lourd (dans le temps) pour les modèles de formation, mais un résultat suffisamment de haute qualité est important. En fait - considérez ceci comme une version rapide d'AutoGBDT. Il existe maintenant un wrapper python familier à la plupart des gens, et il ressemble à ceci (Fig. 1).

image
Image 1.

La deuxième branche de la solution AutoML dans SAP Data Intelligence de SAP est apparue en décembre 2019. Il s'agit d'une approche basée sur des outils open source familiers et complétée par nos propres développements. Ici, le temps de calcul possible est configuré, et au sein du cluster, la combinaison optimale d'étapes, d'algorithmes et d'hyperparamètres est sélectionnée, où le pipeline final ressemble à ceci (Fig.2).

image
Figure 2.

Il s'agit d'AutoML, qui fait partie de la plateforme SAP Data Intelligence et peut fonctionner à la fois dans le cloud et sur site. En outre, tout ce qui est nécessaire pour gérer les ensembles de données, l'intégration et, peut-être le plus important, les mécanismes d'intégration standard dans SAP S / 4HANA avec la génération d'interfaces et de services apparaît ici.

Si l'on considère les prochaines étapes, il est bien évident que les données, du point de vue de l'entreprise, doivent être saturées d'annotations qui seront pertinentes pour certaines tâches. Ce sont des signes de domaine et les meilleures formes d'agrégation avec certaines relations d'objets métier et des réseaux micro-neuronaux pré-formés - des extracteurs de fonctionnalités.

Si vous regardez des concours et des articles dans le domaine d'AutoML, vous pouvez clairement identifier les domaines suivants:

  1. AutoTable - Données tabulaires
  2. AutoCV - Images et vidéos
  3. AutoNLP - textes
  4. AutoTS - Séries chronologiques
  5. AutoGraph - graphiques
  6. AutoSpeach - son
  7. AutoAD - recherche d'anomalies

Je suppose qu'il y aura également des solutions sous AutoRL - pour l'entraînement avec des renforts.

Actuellement, SAP se concentre sur l'utilisation de données tabulaires, de séries chronologiques et d'anomalies en termes de solutions AutoML. La raison est simple, il est seulement possible de construire une entreprise intelligente avec un grand nombre de modèles dans chacun des domaines d'activité.

Eh bien, bien sûr, chaque entreprise a ses propres spécificités, par conséquent, si les modèles standard (typiques) ne conviennent pas, leur personnalisation est nécessaire. Et la façon la plus simple de le faire est d'utiliser des outils qui ne nécessitent pas la participation de spécialistes DS.

En général, beaucoup de choses nouvelles et intéressantes nous attendent dans le futur ...

Publié par Dmitry Buslov, Architecte Senior Business Solutions, SAP CIS.

All Articles