Flexibilität und Automatisierung beim maschinellen Lernen

In diesem Artikel möchte ich über die Hauptschwierigkeiten der Automatisierung des maschinellen Lernens, ihre Art und ihre Vorteile sprechen und auch einen flexibleren Ansatz betrachten, der es Ihnen ermöglicht, einige der Mängel zu beseitigen.

Bild

Automatisierung Per Definition ist Mikell P. Groover eine Technologie, mit der ein Prozess oder eine Prozedur mit minimalem menschlichem Aufwand durchgeführt wird. Durch die Automatisierung konnte seit langem eine höhere Produktivität erzielt werden, was häufig zu niedrigeren Kosten pro Produkteinheit führt. Die Automatisierungsmethoden sowie ihre Anwendungsbereiche verbessern sich rasch und haben sich in den letzten Jahrhunderten von einfachen Mechanismen zu Industrierobotern entwickelt. Die Automatisierung wirkt sich nicht nur auf die körperliche, sondern auch auf die intellektuelle Arbeit aus und erschließt relativ neue Bereiche, einschließlich maschinelles Lernen - automatisiertes maschinelles Lernen (auto ml, aml). Gleichzeitig hat die Automatisierung des maschinellen Lernens bereits in einer Reihe kommerzieller Produkte Anwendung gefunden (z. B. Google AutoML, SAP AutoML und andere).

BildBildBild

Haftungsausschluss
Dieser Artikel gibt nicht vor, auf diesem Gebiet dogmatisch zu sein, und ist die Vision des Autors.

Automatisiertes maschinelles Lernen


Die Aufgaben im Bereich Datenverarbeitung und maschinelles Lernen sind mit vielen Faktoren verbunden, die sich aufgrund der Komplexität des Systems ergeben und deren Lösung erschweren. Dazu gehören ( laut Charles Sutton ):

  • Das Vorhandensein von Unsicherheit und Unsicherheit, was zu einem Mangel an a priori Kenntnis der Daten und der gewünschten Abhängigkeiten führt. Somit ist das Forschungselement immer vorhanden.
  • "Tod durch tausend Schnitte." In der Praxis müssen Sie beim Aufbau einer Pipeline für die Datenverarbeitung und -analyse und die anschließende Modellierung viele große und kleine Entscheidungen treffen. Ist es beispielsweise erforderlich, die Daten zu normalisieren, wenn ja, welche Methode und welche Parameter sollte diese Methode haben? Usw.
  • Das Vorhandensein von Rückkopplungsschleifen aufgrund von Unsicherheit. Je länger das Eintauchen in die Aufgabe und die Daten dauert, desto mehr können Sie über sie lernen. Dies führt dazu, dass Sie einen Schritt zurücktreten und Änderungen an den vorhandenen Verarbeitungs- und Analysemechanismen vornehmen müssen.
  • Darüber hinaus sind die Ergebnisse von Modellen, die durch Algorithmen für maschinelles Lernen erhalten wurden, nur eine Annäherung an die Realität, d.h. offensichtlich nicht genau.

Bild

Somit kann der Prozess des Erhaltens einer vollständigen Pipeline der Datenverarbeitung und -analyse als ein komplexes System (d. H. Ein komplexes System) betrachtet werden.

Komplexes System
Peter Sloot, « » « », . , () , , () , () .. , , .

Einerseits erschwert das Vorhandensein dieser Faktoren sowohl die Lösung von Problemen mit maschinellem und tiefem Lernen als auch deren Automatisierung. Andererseits ermöglichen uns die ständig wachsenden und zunehmend zugänglichen Computerfunktionen, mehr Ressourcen für die Aufgabe bereitzustellen.

BildGemäß dem gemeinsamen CRISP-DM-Standard besteht der Lebenszyklus eines Datenanalyseprojekts iterativ aus sechs Hauptphasen: Verstehen einer Geschäftsaufgabe, Verstehen und Studieren von Daten (Datenverstehen), Verarbeiten von Daten (Datenaufbereitung), Modellieren ( Modellierung), Qualitätsbewertung (Bewertung) und praktische Anwendung (Bereitstellung, Anwendung). In der Praxis können heute nicht alle diese Schritte effektiv automatisiert werden.

Die meisten Werke oder vorhandenen Bibliotheken (h2o, auto-sklearn, autokeras) konzentrieren sich auf die Modellierung der Automatisierung und teilweise auf die Qualitätsbewertung. Die Ausweitung des Ansatzes zur Automatisierung der Datenverarbeitung ermöglicht jedoch die Abdeckung mehrerer Phasen (die beispielsweise im Google AutoML-Dienst angewendet wurden).

Formulierung des Problems


Die Aufgaben des maschinellen Lernens mit einem Lehrer können durch verschiedene Methoden gelöst werden, von denen die meisten auf die Minimierung der Verlustfunktion reduziert sind Joder Maximieren der Wahrscheinlichkeitsfunktion Lum eine Schätzung der Parameter zu erhalten θ^mbasierend auf dem verfügbaren Beispiel - Trainingsdatensatz yt::

All Articles