Nullproblem in Data Science und Machine Learning

Die derzeitige Definition von Null in Data Science ist stark eingeschränkt. Mit ein wenig Aufwand? Wir werden die Verarbeitung von Daten, die zuvor in Null gefunden wurden, erheblich verbessern.


Das alte Problem ist das "Null" -Problem . Es wurde in einem Artikel von Codd über Datenbanksemantik formuliert .


Programmierer müssen hart arbeiten, um mit Nullwerten umzugehen. Vielleicht mögen sie deshalb Null nicht und haben sogar die Idee beworben, dass man ohne Null auskommen kann. Ein beliebtes Sprichwort ist, dass das Einfügen von Null in SQL ein Fehler war .


Die folgenden Nulldefinitionen sind verfügbar:


  • Nicht verfügbar
  • Unzutreffend
  • verpasst
  • Unbekannt

Die letzte Definition wird am häufigsten in der Datenbank verwendet.


Data Science definiert Null als einen fehlenden Wert.
Hier diskutiert Jake VanderPlas die Verwendung und Interpretation von Null-, NaN-, NA- und None-Werten in Python, Pandas und Numpy.


Im Folgenden werde ich zeigen, dass der bestehende Ansatz die Realität nur teilweise widerspiegelt und in vielen Fällen speziell für die Verwendung in Data Science erweitert werden kann.


missed data ( AlkanSte !)


, (sample), , .



: , , . . .



  • : . , Null.
  • : , . .
  • : . , , . , .


  • outlier: " " 1000 . 1000 Null.

, .


Null . , Null " ", . Null " ", , . " " ( ).


ML , Null , .


Null


. — . . :


  1. , , . .
  2. , . .
  3. . , . , , . , . .
  4. , , : , , .. .
  5. . .

Null. , ^ , : " ", " ", " ", "", " ". Null . , . , , .


- .


Es ist auch ein Minus, Null durch mehrere detailliertere Klassen zu ersetzen. Null ist eine Abstraktion auf der Ebene der Datentypen auf der Sprachebene, die uns viele integrierte Funktionen und Methoden in der Datenverarbeitung bietet.


Tatsächlich fügen wir unserem Klassifizierungssystem neue Klassen hinzu, was die Verarbeitung nicht wesentlich erschwert.


Und zumindest müssen wir klar verstehen, was unter Nullwerten in unseren Daten zu verstehen ist. Ein besseres Verständnis der Daten führt immer zu besseren Ergebnissen, nicht wahr?


All Articles