Problema nulo em Ciência de Dados e Machine Learning

A definição atual de Nulo na Data Science é severamente limitada. Com um pouco de esforço? melhoraremos significativamente o processamento de dados encontrados anteriormente em Null.


O problema antigo é o problema "Nulo" . Foi formulado em um artigo do Codd sobre semântica de banco de dados.


Os programadores devem trabalhar duro para lidar com valores nulos. Talvez seja por isso que eles não gostam de Null e até promoveram a ideia de que você pode fazer sem Null. Um ditado popular é que incluir Nulo no SQL foi um erro .


As seguintes definições nulas estão disponíveis:


  • Não disponível
  • Não aplicável
  • perdido
  • desconhecido

A última definição é a mais usada no banco de dados.


A Data Science define Null como um valor esquecido.
Aqui, Jake VanderPlas discute o uso e a interpretação dos valores Nulo, NaN, NA, Nenhum em python, Pandas, numpy.


Abaixo, mostrarei que a abordagem existente reflete apenas parcialmente a realidade e, em muitos casos, pode ser expandida especificamente para uso em Data Science.


missed data ( AlkanSte !)


, (sample), , .



: , , . . .



  • : . , Null.
  • : , . .
  • : . , , . , .


  • outlier: " " 1000 . 1000 Null.

, .


Null . , Null " ", . Null " ", , . " " ( ).


ML , Null , .


Null


. — . . :


  1. , , . .
  2. , . .
  3. . , . , , . , . .
  4. , , : , , .. .
  5. . .

Null. , ^ , : " ", " ", " ", "", " ". Null . , . , , .


- .


Há também um ponto negativo na substituição de Null por várias classes mais detalhadas. Nulo é uma abstração no nível dos tipos de dados, no nível da linguagem, o que nos fornece muitas funções e métodos internos no processamento de dados.


De fato, adicionamos novas classes ao nosso sistema de classificação, o que não complica muito o processamento.


E, no mínimo, precisamos entender claramente o que se entende por valores nulos em nossos dados. Uma melhor compreensão dos dados sempre levará a melhores resultados, não é?


All Articles