Problema nulo en ciencia de datos y aprendizaje automático

La definición actual de Null en Data Science es muy limitada. Con un poco de esfuerzo? Mejoraremos significativamente el procesamiento de los datos encontrados previamente en Null.


El viejo problema es el problema "nulo" . Fue formulado en un artículo de Codd sobre la semántica de la base de datos.


Los programadores deben trabajar duro para manejar valores nulos. Quizás es por eso que no les gusta Null e incluso promovieron la idea de que puedes prescindir de Null. Un dicho popular es que incluir Null en SQL fue un error .


Las siguientes definiciones nulas están disponibles:


  • No disponible
  • No aplica
  • perdido
  • desconocido

La última definición es la más utilizada en la base de datos.


Data Science define Null como un valor perdido.
Aquí Jake VanderPlas discute el uso e interpretación de los valores Null, NaN, NA, None en python, Pandas, numpy.


A continuación, mostraré que el enfoque existente solo refleja parcialmente la realidad y, en muchos casos, se puede ampliar específicamente para su uso en Data Science.


missed data ( AlkanSte !)


, (sample), , .



: , , . . .



  • : . , Null.
  • : , . .
  • : . , , . , .


  • outlier: " " 1000 . 1000 Null.

, .


Null . , Null " ", . Null " ", , . " " ( ).


ML , Null , .


Null


. — . . :


  1. , , . .
  2. , . .
  3. . , . , , . , . .
  4. , , : , , .. .
  5. . .

Null. , ^ , : " ", " ", " ", "", " ". Null . , . , , .


- .


También hay una desventaja al reemplazar Null con varias clases más detalladas. Nulo es una abstracción a nivel de tipos de datos, a nivel de lenguaje, que nos brinda muchas funciones y métodos integrados en el procesamiento de datos.


De hecho, agregamos nuevas clases a nuestro sistema de clasificación, lo que no complica mucho el procesamiento.


Y, como mínimo, debemos comprender claramente qué se entiende por valores nulos en nuestros datos. Una mejor comprensión de los datos siempre conducirá a mejores resultados, ¿no es así?


All Articles