3 Fallen, in die Anfänger Data Scientists fallen

Dies kann passieren, wenn Sie nicht gut in Mathe sind.





Hallo! Dies ist Petr Lukyanchenko, Autor und Leiter der Online-Kurse "Mathematik für Datenwissenschaft " bei OTUS. Im Klassenzimmer lieben wir es, alles anhand von Fällen zu veranschaulichen. Deshalb werde ich auch hier bei jedem Problem, auf das Anfänger stoßen, mit einem Beispiel beginnen.

Geschichte Nr. 1 ., , , . , -, , . , 0,95. , «», , . , , , , .

— , , - ?



In unserer Geschichte hat der Auszubildende die Daten falsch aufbereitet, weil er nicht verstand, welche Art von Abhängigkeit anzunehmen ist. Dies ist der häufigste und gefährlichste Fehler, den Neulinge in der Datenanalyse machen.

In allen Klassen senden wir zwei Dinge:

  1. Jede Analyse sollte mit einer Hypothese beginnen
  2. Die Hypothese kann falsch sein. Es ist nicht beängstigend, einen Fehler zu machen, es ist wichtig, die Analyse rechtzeitig zu verstehen, zu korrigieren und fortzusetzen.

Die Fähigkeit, Hypothesen zu formulieren, die anschließend anhand von Daten getestet werden, bereitet Anfängern, Praktikanten und jungen Spezialisten für Data Science die größten Schwierigkeiten. Sie kennen die Statistiken in der Regel recht gut, haben aber keine Erfahrung, weshalb sie oft blind glauben, dass ein guter Wert der Metrik signalisiert, dass ihr Ergebnis gültig ist. Aus diesem Grund werden Neuankömmlinge häufig von dem Wunsch getrieben, einen hohen Korrelationswert zu erhalten. Eine hohe Korrelation an sich ist jedoch keine Garantie für die richtige Abhängigkeit!

Imaginäre Korrelationen (Regressionen) sind normalerweise sehr lustig. Sie können zwei beliebige Parameter verwenden. Wenn jeder von ihnen eine Trendkomponente aufweist, stellt sich heraus, dass die geschätzte Korrelation nahezu eins ist, während die Parameter selbst möglicherweise keine Beziehung haben.

Zum Beispiel untersucht eine Person Gletscher in Grönland und entscheidet sich, wie sich die Niederschlagsmenge in Thailand während der Monsunzeit auf die Eisschmelzrate auswirkt. In einem bestimmten Zeitraum nehmen beide Variablen zu, dh sie haben einige Trendkomponenten: In Thailand wächst die Niederschlagsmenge zu Beginn der heißen Phase und die Gletscher schmelzen schneller. Wenn wir die Korrelation "frontal" betrachten, wird sie nahe an der Einheit liegen, was bedeutet, dass eine direkte Beziehung zwischen den Werten besteht. Daher müssen Sie vor der Analyse zunächst mit den Daten arbeiten und diese von der Trendkomponente entfernen, d. H. Detrendieren und den täglichen Wert der Erhöhung erhalten. Und jetzt werden diese Δx-Variablen verwendet, um eine Korrelation zu erhalten. Dies ist eine sehr einfache Sache, die die Qualität der Analyse dennoch erheblich verbessert.

Geschichte Nr. 2. . - , — . , : , . ?

, , . , , , , .

Es ist die falsche Wahl des Zeitraums für die Kalibrierung, wenn externe Faktoren nicht berücksichtigt werden. Dies ist der häufigste Fehler, wenn das Modell, das zuerst arbeitet, unbrauchbar wird.


Laden Sie Daten wie in einer Blackbox in das Modell


Seit mehreren Jahren der rasanten Entwicklung der Bereiche der Datenwissenschaft hat die Menschheit beeindruckende Bibliotheken von Modellen und Methoden der Datenverarbeitung angehäuft. Und das ist großartig - sie können verwendet werden, um gewöhnliche Probleme zu lösen, auf die viele Experten zurückgreifen, nicht nur Anfänger, sondern auch erfahrene. Die Gefahr besteht darin, das fertige Modell zu nehmen, einfach die Daten darin zu stecken und einen prädiktiven Wert am Ausgang zu erhalten. Ein erfahrener Spezialist verwendet immer mathematische Werkzeuge, um die Methode zu testen und an seine Aufgabe anzupassen.

Für Anfänger ist es zunächst schwierig, die Wiederherstellung der empirischen Verteilung in vorhandenen Daten zu identifizieren. Und selbst wenn ein unerfahrener Spezialist die geeignete Methode in der Bibliothek erfolgreich auswählt oder ein älterer Kollege ihm bei der Einrichtung des Modells hilft, ist er einer weiteren Gefahr ausgesetzt: Die Art des Datenverhaltens kann sich jederzeit ändern oder der interne Prozess der Zeitreihen kann sich ändern. Dies bedeutet, dass Sie das Modell schnell neu kalibrieren müssen, da seine Genauigkeit abgenommen hat und die Effektivität der gesamten Vorhersage dadurch gesunken ist. Um dies zu erfassen und das Modell anzupassen, müssen Sie statistische Methoden besitzen und das Prinzip verstehen, nach dem es funktioniert.

Selbst wenn die Methode in Python programmiert ist und sich irgendwo in der Box befindet, muss sie mindestens einmal manuell angezeigt werden, um zu verstehen, wie sie funktioniert. Wenn Sie im Projekt auf diese Methode stoßen und sie anpassen müssen, wissen Sie bereits, in welchen Ketten welche Schritte Sie ausführen müssen.

Geschichte Nr. 3. Stellen Sie sich vor, Sie haben eine Datenmatrix von 10.000 Zeilen pro 10.000 Spalten. ~ 30 Millisekunden werden für die Multiplikation jedes Elementpaars aufgewendet, dh Ihr Algorithmus verarbeitet die Daten länger als eine Stunde! Und wenn es eine Matrix von einer Milliarde zu einer Milliarde sein wird? Oder müssen Sie viele solcher Algorithmen ausführen?

Rohe Matrizen


Es kommt häufig vor, dass Neuankömmlinge Matrizen vor der Analyse nicht verarbeiten oder vorbereiten. Infolgedessen nimmt der Prozess ihre zusätzliche Zeit und Mühe weg. Um die Arbeit mit Matrizen zu vereinfachen und zu beschleunigen, verwenden Spezialisten Werkzeuge aus der linearen Algebra. Das funktioniert so: Die vorhandene Datenmatrix wird in einen untergeordneten Unterraum projiziert und dadurch dessen Dimension vorübergehend reduziert.

Wie das geht, erfahren Sie in unseren Online-Kursen „Mathematik für Data Science“. Die Grundstufe ist für die Ausbildung aus dem Lehrplan konzipiert und konzentriert sich auf die mathematische Komponente. Sie sollten in die fortgeschrittene Stufe wechseln, wenn Sie einmal, auch sehr lange, höhere Mathematik studiert haben oder bereits Erfahrung in Data Science haben. Auf der fortgeschrittenen Ebene analysieren wir Datenanalysemethoden für verschiedene Aufgaben. Am Ende des Kurses erledigen die Studenten Entwurfsarbeiten: Sie versuchen, eine der Methoden manuell zu implementieren, um zu verstehen, wie sie angeordnet ist, und um einen ihrer Abschnitte zu ändern. Der Eingangstest hilft Ihnen bei der Bestimmung des Niveaus.

Die theoretischen und praktischen Fähigkeiten, die Sie im Klassenzimmer erlernen, sind in erster Linie für Mittelfachleute erforderlich, sie sind jedoch auch zu Beginn des Berufs nützlich. Wir haben eine Umfrage unter unseren Arbeitgebern im Bereich Data Science durchgeführt und festgestellt, dass mehr als die Hälfte von ihnen bereit ist, einen Praktikanten mit mathematischen Kenntnissen einzustellen, auch wenn er nicht weiß, wie man mit Python-Bibliotheken arbeitet.

Wenn Sie arbeiten oder sich nur Data Science ansehen, lade ich Sie ein, den Data Street- Telegrammkanal zu abonnieren , in dem ich meine Erfahrungen teile und nützliche Materialien aus der Welt der Mathematik, Datenanalyse und des maschinellen Lernens sammle. Ich würde mich freuen, Sie hier bei den OTUS-Kursen zu sehen!

Sie können mehr über die Kurse erfahren und den Eingangstest bestehen, um Ihr Wissen zu testen, indem Sie auf die folgenden Links klicken:


All Articles