👴 ♀️ 💇🏿 Pavel Klemenkov, NVIDIA: Wir versuchen, die Kluft zwischen dem, was ein Datenwissenschaftler tun kann und dem, was er tun muss, zu verringern. 🤛🏼 💥 😧

Die zweite Gruppe von Studenten des Master-Programms für Datenwissenschaft und Business Intelligence Ozon Masters begann - und um zu entscheiden, eine Bewerbung zu verlassen und Online-Tests zu bestehen, war es einfacher, die Lehrer des Programms zu fragen, was sie vom Training und Arbeiten mit Daten erwarten können. Pavel Klemenkov

Bild

, Chief Data Scientist bei NVIDIA und Kurslehrer für Big Data und Data Engineering, sprach darüber, warum Mathematiker zwei Jahre lang Code schreiben und bei Ozon Masters studieren.

- Gibt es viele Unternehmen, die datenwissenschaftliche Algorithmen verwenden?

- Eigentlich viel. Nicht wenige große Unternehmen mit wirklich großen Datenmengen arbeiten entweder effizient mit ihnen oder arbeiten schon lange. Es ist klar, dass die Hälfte des Marktes Daten verwendet, die in ein Excel-Tablet passen oder auf einem großen Server gezählt werden können, aber es ist unmöglich zu sagen, dass es nur wenige Unternehmen gibt, die mit Daten arbeiten können.

- Erzählen Sie mir etwas über Projekte, die Data Science verwenden.

- Während unserer Arbeit in Rambler haben wir beispielsweise ein Werbesystem entwickelt, das auf den Prinzipien von RTB (Real Time Bidding) basiert. Wir mussten viele Modelle erstellen, die den Kauf von Werbung optimieren oder beispielsweise die Wahrscheinlichkeit eines Klicks, einer Conversion usw. vorhersagen können. Gleichzeitig generiert eine Werbeauktion viele Daten: Protokolle von Website-Anfragen an potenzielle Käufer von Anzeigen, Protokolle von Anzeigenimpressionen, Klickprotokolle - das sind Dutzende Terabyte Daten pro Tag.

Darüber hinaus haben wir für diese Aufgaben ein interessantes Phänomen beobachtet: Je mehr Daten Sie für das Training des Modells angeben, desto höher ist seine Qualität. Normalerweise verbessert sich für eine bestimmte Datenmenge die Prognosequalität nicht mehr, und um die Genauigkeit weiter zu verbessern, müssen Sie ein grundlegend anderes Modell, einen anderen Ansatz für die Aufbereitung von Daten, Funktionen usw. verwenden. Hier haben wir mehr Daten eingegossen und die Qualität ist gewachsen.

Dies ist ein typischer Fall, in dem Analysten zunächst mit großen Datenmengen arbeiten mussten, um zumindest ein Experiment durchzuführen, und in dem es unmöglich war, mit einer kleinen Stichprobe auszukommen, die in ein komfortables Macbook passt. Gleichzeitig brauchten wir verteilte Modelle, weil es sonst unmöglich war, sie zu trainieren. Mit der Einführung von Computer Vision in der Produktion werden solche Beispiele immer häufiger, da Bilder eine große Datenmenge darstellen und Millionen von Bildern zum Trainieren eines großen Modells benötigt werden.

Es stellt sich sofort die Frage: Wie werden all diese Informationen gespeichert, wie können sie effizient verarbeitet werden, wie werden verteilte Lernalgorithmen verwendet? Der Schwerpunkt der reinen Mathematik verlagert sich auf das Ingenieurwesen. Auch wenn Sie in der Produktion keinen Code schreiben, müssen Sie in der Lage sein, mit Engineering-Tools zu arbeiten, um ein Experiment durchzuführen.

- Wie hat sich der Ansatz für offene Stellen im Bereich Data Science in den letzten Jahren verändert?

- Big Data ist kein Hype mehr und Realität geworden. Festplatten sind billig genug, was bedeutet, dass die Möglichkeit besteht, alle Daten im Allgemeinen zu sammeln, sodass sie in Zukunft ausreichen, um Hypothesen zu testen. Infolgedessen wird das Wissen über Tools für die Arbeit mit Big Data immer beliebter, und infolgedessen ergeben sich immer mehr Beschäftigungsmöglichkeiten für Dateningenieure.

Nach meinem Verständnis ist das Ergebnis der Arbeit eines Datenwissenschaftlers kein Experiment, sondern ein Produkt, das die Produktion erreicht hat. Und gerade unter diesem Gesichtspunkt war der Prozess vor dem Aufkommen des Hype um Big Data einfacher: Die Ingenieure beschäftigten sich mit maschinellem Lernen, um bestimmte Probleme zu lösen, und es gab keine Probleme, die Algorithmen in die Produktion zu bringen.

- Was braucht es, um ein gefragter Spezialist zu bleiben?

- Jetzt sind viele Menschen in die Datenwissenschaft gekommen, die Mathematik und Theorie des maschinellen Lernens gelernt und an Datenanalysewettbewerben teilgenommen haben, bei denen eine vorgefertigte Infrastruktur bereitgestellt wird: Daten werden gelöscht, Metriken werden definiert und es gibt keine Anforderungen an die Reproduzierbarkeit und Schnelligkeit der Lösung.

Infolgedessen kommen Leute zur Arbeit, die schlecht auf die Realität des Geschäfts vorbereitet sind, und es entsteht eine Lücke zwischen Anfängern und erfahrenen Entwicklern.

Mit der Entwicklung von Tools, mit denen Sie Ihr eigenes Modell aus vorgefertigten Modulen zusammenstellen können - und Microsoft, Google und viele andere haben bereits solche Lösungen - und der Automatisierung des maschinellen Lernens wird diese Lücke noch größer. In Zukunft werden für den Beruf ernsthafte Forscher erforderlich sein, die neue Algorithmen entwickeln, sowie Mitarbeiter mit fortgeschrittenen technischen Fähigkeiten, die Modelle implementieren und Prozesse automatisieren. Nur der Ozon Masters-Kurs in Data Engineering konzentriert sich auf die Entwicklung technischer Fähigkeiten und die Fähigkeit, verteilte Algorithmen für maschinelles Lernen für Big Data zu verwenden. Wir versuchen, die Lücke zwischen dem, was ein Datenwissenschaftler tun kann, und dem, was er in der Praxis tun sollte, zu schließen.

- Warum studiert Mathematik mit Diplom in Wirtschaft?

- Die russische Data-Science-Community hat verstanden, dass Fähigkeiten und Erfahrungen sehr schnell in Geld umgewandelt werden. Sobald ein Spezialist über praktische Erfahrung verfügt, steigen seine Kosten sehr schnell, die qualifiziertesten Mitarbeiter sind sehr teuer - und dies gilt zum gegenwärtigen Zeitpunkt der Entwicklung Markt.

Die meiste Arbeit eines Datenwissenschaftlers besteht darin, in die Daten einzusteigen, zu verstehen, was dort liegt, sich mit Personen zu beraten, die für Geschäftsprozesse verantwortlich sind, diese Daten zu generieren - und sie erst dann zum Erstellen von Modellen zu verwenden. Um mit Big Data arbeiten zu können, ist es äußerst wichtig, über technische Kenntnisse zu verfügen. Es ist viel einfacher, scharfe Ecken zu umgehen, die in der Datenwissenschaft häufig vorkommen.

Eine typische Geschichte: Sie haben eine SQL-Abfrage geschrieben, die mit dem Framework Hive ausgeführt wird, das auf Big Data ausgeführt wird. Die Anfrage wird im schlimmsten Fall in zehn Minuten bearbeitet - in ein oder zwei Stunden. Wenn Sie die Uploads dieser Daten erhalten, stellen Sie häufig fest, dass Sie vergessen haben, einen Faktor oder zusätzliche Informationen zu berücksichtigen. Sie müssen die Anfrage erneut senden und auf diese Minuten und Stunden warten. Wenn Sie ein Genie der Effizienz sind, werden wir eine andere Aufgabe übernehmen, aber wie die Praxis zeigt, haben wir nur wenige Genies der Effizienz, und die Leute warten nur. Daher werden wir in den Kursen viel Zeit für die Arbeitseffizienz aufwenden, um zunächst Abfragen zu schreiben, die nicht zwei Stunden, sondern mehrere Minuten lang funktionieren. Diese Fähigkeit vervielfacht die Produktivität und damit den Wert eines Spezialisten.

- Wie unterscheidet sich Ozon Masters von anderen Kursen?

- Ozon-Mitarbeiter unterrichten bei Ozon Masters, und die Aufgaben basieren auf realen Geschäftsfällen, die in Unternehmen gelöst werden. Zusätzlich zu den mangelnden technischen Fähigkeiten hat die Person, die an der Universität Datenwissenschaft gelernt hat, ein weiteres Problem: Die Geschäftsaufgabe ist in der Geschäftssprache formuliert, und ihr Ziel ist ganz einfach: mehr Geld verdienen. Und der Mathematiker weiß gut, wie man mathematische Metriken optimiert - aber es ist schwierig, eine Metrik zu finden, die mit einer Geschäftsmetrik korreliert. Und Sie müssen verstehen, dass Sie ein Geschäftsproblem lösen, Metriken formulieren, die zusammen mit dem Geschäft mathematisch optimiert werden können. Diese Fähigkeit wird auf Kosten realer Fälle erworben und Ozon gibt sie.
Und selbst wenn Sie die Fälle fallen lassen, unterrichtet die Schule viele Praktiker, die geschäftliche Probleme in realen Unternehmen lösen. Infolgedessen ist der Unterrichtsansatz noch praktischer. Zumindest in meinem Kurs werde ich versuchen, den Fokus auf die Verwendung von Tools, die vorhandenen Ansätze usw. zu verlagern. Zusammen mit den Schülern werden wir verstehen, dass jede Aufgabe ein eigenes Werkzeug hat und jedes Werkzeug ein Anwendungsfeld hat.

- Das bekannteste Trainingsprogramm für Datenanalyse, natürlich ShAD - was ist der Unterschied speziell dazu?

- Es ist klar, dass ShAD- und Ozon-Meister zusätzlich zur Bildungsfunktion das lokale Trainingsproblem lösen. Top-SHAD-Absolventen werden hauptsächlich für Yandex rekrutiert, aber der Haken ist, dass Yandex aufgrund seiner Spezifität - und es war groß und geschaffen, als es nur wenige gute Tools für die Arbeit mit Big Data gab - über eine eigene Infrastruktur und Tools für die Arbeit mit Daten verfügt, was bedeutet muss sie meistern. Ozon Masters hat eine andere Botschaft: Wenn Sie das Programm erfolgreich gemeistert haben und Ozon oder eines der 99% anderer Unternehmen Sie zur Arbeit einlädt, ist es viel einfacher, dem Unternehmen zu nützen. Die durch Ozon Masters erworbenen Fähigkeiten reichen aus, um einfach mit der Arbeit zu beginnen.

- Der Kurs dauert zwei Jahre. Warum dauert es so lange?

- Gute Frage. Für eine lange Zeit, weil der Inhalt und das Niveau der Lehrer ein integraler Masterstudiengang ist, der viel Zeit für das Mastering einschließlich der Hausaufgaben erfordert.

Aus der Sicht meines Kurses ist es üblich zu erwarten, dass der Student 2-3 Stunden pro Woche für Aufgaben aufbringt. Erstens werden Aufgaben im Trainingscluster ausgeführt, und jeder gemeinsame Cluster impliziert, dass mehrere Personen ihn gleichzeitig verwenden. Das heißt, Sie müssen warten, bis die Aufgabe ausgeführt wird. Einige Ressourcen können ausgewählt und in eine Warteschlange mit höherer Priorität übertragen werden. Andererseits ist jede Arbeit mit Big Data zeitaufwändig.

, — , 25 12:00, Ozon Masters . c Zoom YouTube.

Pavel Klemenkov, NVIDIA: Wir versuchen, die Kluft zwischen dem, was ein Datenwissenschaftler tun kann und dem, was er tun muss, zu verringern.