Null problem in Data Science and Machine Learning

La définition actuelle de Null dans la science des données est sévèrement limitée. Avec un petit effort? nous améliorerons considérablement le traitement des données précédemment trouvées dans Null.


L'ancien problème est le problème "Null" . Il a été formulé dans un article de Codd concernant la sémantique des bases de données.


Les programmeurs doivent travailler dur pour gérer les valeurs nulles. C'est peut-être pourquoi ils n'aiment pas Null et ont même promu l'idée que vous pouvez vous passer de Null. Un dicton populaire est que l' inclusion de Null dans SQL était une erreur .


Les définitions nulles suivantes sont disponibles:


  • Indisponible
  • N'est pas applicable
  • manqué
  • inconnue

La dernière définition est la plus utilisée dans la base de données.


La science des données définit Null comme une valeur manquée.
Ici, Jake VanderPlas discute de l'utilisation et de l'interprétation des valeurs Null, NaN, NA, None en python, Pandas, numpy.


Ci-dessous, je montrerai que l'approche existante ne reflète que partiellement la réalité et peut dans de nombreux cas être développée spécifiquement pour une utilisation en Data Science.


missed data ( AlkanSte !)


, (sample), , .



: , , . . .



  • : . , Null.
  • : , . .
  • : . , , . , .


  • outlier: " " 1000 . 1000 Null.

, .


Null . , Null " ", . Null " ", , . " " ( ).


ML , Null , .


Null


. — . . :


  1. , , . .
  2. , . .
  3. . , . , , . , . .
  4. , , : , , .. .
  5. . .

Null. , ^ , : " ", " ", " ", "", " ". Null . , . , , .


- .


Il y a aussi un inconvénient à remplacer Null par plusieurs classes plus détaillées. Null est une abstraction au niveau des types de données, au niveau du langage, ce qui nous donne de nombreuses fonctions et méthodes intégrées dans le traitement des données.


En fait, nous ajoutons de nouvelles classes à notre système de classification, ce qui ne complique pas beaucoup le traitement.


Et, au minimum, nous devons comprendre clairement ce que l'on entend par valeurs nulles dans nos données. Une meilleure compréhension des données conduira toujours à de meilleurs résultats, n'est-ce pas?


All Articles