AutoML ist großartig und leistungsstark

Im Moment gibt es vielleicht keine einzige Person, die sich für Informationstechnologie interessiert und nicht gehört hat, dass maschinelles Lernen, Data Mining und Entscheidungsunterstützungssysteme einer der Schlüsselbereiche für die Implementierung digitaler Transformationsszenarien sind.

Geschäftsszenarien mit ML (maschinelles Lernen) decken alle Bereiche des Geschäfts ab und verwenden die meisten Arten von Daten: Tabellen, Text und Audio, Bilder usw. Es gibt immer mehr Projekte, und die Anzahl der Spezialisten wächst nicht so schnell. Es besteht die Idee, dass ein Teil der Arbeit dieser „teuren“ Datenwissenschaftler automatisiert werden kann. Und hier kommt AutoML zur Rettung.

Mit AutoML meinen sie verschiedene Dinge. Wir bei SAP glauben, dass dies eine Automatisierung der Routineoperationen von Data Science ist. Wahrscheinlich ist es nicht notwendig, die Definition in diesem Artikel genauer zu beschreiben, da Aleksey Natekin hier bereits alles ganz gut gemacht hat .

Wenn Sie das Video sehen, gibt es keine Lust, dann sind hier einige Gedanken zum Thema:

Bild

Zu diesem Thema gibt es ein gutes Beispiel. Einmal diskutierten wir in der DS-Gruppe einen Fall aus der Praxis - eine Person, die die Rolle des Senior DS behauptete, kam zu einem Interview. Alles
, was er tun konnte, war, eines der beliebten AutoML-Tools auszuführen. Auf eine vernünftige Frage, wie man sich mit einem solchen Wissen für ein Senior-Level qualifizieren kann, war seine Antwort einwandfrei: "Ich bringe Geld ins Geschäft, und das ist mein Werkzeug." Das heißt, AutoML in Szenarien, in denen Daten bereits sauber in Storefronts erfasst, Domänenfunktionen generiert und Qualitätsmetriken definiert werden, mit denen Sie schnell einen neuen Dienst starten können. Ja, das Ergebnis kann schlechter sein als prof. DS, aber höchstwahrscheinlich besser als Juni, und in einigen Fällen können Sie es sofort verwenden.

Hier finden Sie weitere Beispiele dafür, was beliebte Leute in der Community darüber denken (der erste Kommentar bezieht sich auf eine Diskussion der Nachrichten, dass AutoML von Google den zweiten Platz belegt hat).

Bild

Und die Verwendung einer großen Anzahl von Ressourcen wird erreicht, da es jetzt kein fortgeschrittenes Meta-Training gibt. Genauer gesagt ist es bei einigen Entscheidungen oder in einem sehr frühen Stadium der Bereitschaft sinnvoll. Es kann auch in Form von Prototypen gefunden werden. Der Rest ist eine zufällige Suche nach Hyperparametern oder vielversprechenderen Ansätzen: TPE, Bayes'sche Optimierung, NAS, RL.

Damit AutoML-Lösungen und -Ansätze verglichen werden können, ist ein offener Benchmark erschienen. Kommerzielle Lösungen mögen solche Vergleiche aus einem sehr einfachen Grund nicht - eine offene Konfrontation ist fast unmöglich. Neben der Genauigkeit liegt der Schwerpunkt zu stark auf Datentypen, Einbettung und Verwendung. Das Modell selbst zu machen, macht 15-20% der Arbeit (oder vielleicht weniger) aus, außerdem gibt es eine riesige Schicht anderer Arbeiten - von der Übertragung bis zur Veröffentlichung des Dienstes.

SAP nimmt seine Position im AutoML-Markt ein. Wir haben verschiedene Motoren mit unterschiedlichen Reifegraden.

Die SAP Automated Preditive Library bei SAP HANA, die nach der Übernahme von KXEN im Jahr 2013 historisch entstanden ist, wurde ausschließlich als Werkzeug für die schnellstmögliche Implementierung von Modellen weiterentwickelt. Es ist praktisch, wenn für Schulungsmodelle kein hohes (zeitliches) Budget vorhanden ist, aber ein ausreichend hochwertiges Ergebnis wichtig ist. In der Tat - betrachten Sie dies als eine schnelle Version von AutoGBDT. Jetzt gibt es einen Python-Wrapper, den die meisten kennen, und er sieht ungefähr so ​​aus (Abb. 1).

Bild
Bild 1.

Der zweite Zweig der AutoML-Lösung in SAP Data Intelligence von SAP erschien im Dezember 2019. Dies ist ein Ansatz, der auf bekannten Open-Source-Tools basiert und durch unsere eigenen Entwicklungen ergänzt wird. Hier wird die mögliche Berechnungszeit festgelegt und innerhalb des Clusters die optimale Kombination von Schritten, Algorithmen und Hyperparametern ausgewählt, wobei die endgültige Pipeline so aussieht (Abb. 2).

Bild
Abbildung 2.

Dies ist AutoML, das Teil der SAP Data Intelligence-Plattform ist und sowohl in der Cloud als auch vor Ort arbeiten kann. Außerdem wird hier alles angezeigt, was zum Verwalten von Datensätzen, zur Integration und, was vielleicht am wichtigsten ist, zu den Standardintegrationsmechanismen in SAP S / 4HANA mit der Generierung von Schnittstellen und Diensten erforderlich ist.

Wenn wir die nächsten Schritte betrachten, ist es ziemlich offensichtlich, dass die Daten aus Sicht des Unternehmens mit Anmerkungen gesättigt sein sollten, die für bestimmte Aufgaben relevant sind. Dies sind Domänenzeichen und die besten Formen der Aggregation mit bestimmten Beziehungen von Geschäftsobjekten sowie vorab trainierte mikro-neuronale Netzwerke - Merkmalsextraktoren.

Wenn Sie sich Wettbewerbe und Artikel im Bereich AutoML ansehen, können Sie die folgenden Bereiche eindeutig identifizieren:

  1. AutoTable - Tabellarische Daten
  2. AutoCV - Bilder und Videos
  3. AutoNLP - Texte
  4. AutoTS - Zeitreihen
  5. AutoGraph - Diagramme
  6. AutoSpeach - Ton
  7. AutoAD - Suche nach Anomalien

Ich nehme an, es wird auch Lösungen unter AutoRL geben - für das Training mit Verstärkungen.

Derzeit konzentriert sich SAP auf die Arbeit mit tabellarischen Daten, Zeitreihen und Anomalien in Bezug auf AutoML-Lösungen. Der Grund ist einfach: Es ist nur möglich, ein intelligentes Unternehmen mit einer Vielzahl von Modellen in jedem Geschäftsbereich aufzubauen.

Natürlich hat jedes Unternehmen seine eigenen Besonderheiten. Wenn Standardmodelle (typisch) nicht geeignet sind, ist deren Anpassung erforderlich. Der einfachste Weg, dies zu tun, ist die Verwendung von Tools, für die keine DS-Spezialisten erforderlich sind.

Im Allgemeinen erwarten uns in Zukunft viele neue und interessante Dinge ...

Gepostet von Dmitry Buslov, Senior Business Solutions Architect, SAP CIS.

All Articles