3 armadilhas em que os cientistas de dados iniciantes se enquadram

É o que pode acontecer se você não é bom em matemática.





Olá! Este é Petr Lukyanchenko, autor e líder dos cursos on-line "Matemática para Ciência de Dados" da OTUS. Na sala de aula, gostamos de ilustrar tudo com os casos. Então, aqui também, todos os problemas que os iniciantes encontrarem, começarei com um exemplo.

História nº 1 ., , , . , -, , . , 0,95. , «», , . , , , , .

— , , - ?



Em nossa história, o estagiário preparou os dados incorretamente porque não entendeu que tipo de dependência assumir. Esse é o erro mais comum e perigoso que os novatos na análise de dados cometem.

Em todas as aulas, transmitimos duas coisas:

  1. Qualquer análise deve começar com uma hipótese
  2. A hipótese pode ser incorreta. Não é assustador cometer um erro, é importante entender, corrigir e continuar a análise a tempo.

A capacidade de formular hipóteses, que são posteriormente testadas em dados, causa a maior dificuldade para iniciantes, estagiários e jovens especialistas em Ciência de Dados. Como regra geral, conhecem bem as estatísticas, mas não têm experiência; portanto, muitas vezes acreditam cegamente que um bom valor da métrica sinaliza que seu resultado é válido. Por esse motivo, os recém-chegados geralmente são motivados pelo desejo de obter um alto valor de correlação. Mas uma alta correlação por si só não é uma garantia da dependência correta!

Correlações imaginárias (regressões) são geralmente muito engraçadas. Você pode usar dois parâmetros e, se cada um deles tiver um componente de tendência, a correlação estimada se aproximará da unidade, enquanto os próprios parâmetros podem não ter nenhum relacionamento.

Por exemplo, uma pessoa estuda geleiras na Groenlândia e decide ver como a quantidade de precipitação na Tailândia durante a estação das monções afeta a taxa de derretimento do gelo. Em um determinado período, ambas as variáveis ​​aumentam, ou seja, elas têm alguns componentes de tendência: na Tailândia, o volume de precipitação aumenta ao mesmo tempo em que o período quente começa e as geleiras derretem mais rapidamente. Se considerarmos a correlação "de frente", ela estará próxima da unidade, o que significa que existe uma relação direta entre os valores. Portanto, antes da análise, você deve primeiro trabalhar com os dados - limpá-los do componente de tendência, ou seja, Desvie e obtenha o valor diário do aumento. E agora essas variáveis ​​Δx são usadas para obter correlação. Isso é uma coisa muito simples, que, no entanto, melhora significativamente a qualidade da análise.

História No. 2. . - , — . , : , . ?

, , . , , , , .

É a escolha errada do período de calibração, quando fatores externos não são levados em consideração, que é o erro mais comum quando o modelo que trabalha inicialmente se torna inútil.


Carregar dados no modelo como em uma caixa preta


Por vários anos de rápido desenvolvimento das áreas de Ciência de Dados, a humanidade acumulou impressionantes bibliotecas de modelos e métodos de processamento de dados. E isso é ótimo - eles podem ser usados ​​para resolver problemas comuns, aos quais muitos especialistas recorrem, não apenas iniciantes, mas também experientes. O perigo é pegar o modelo finalizado, basta colar os dados nele e obter algum valor preditivo na saída. Um especialista experiente sempre usa ferramentas matemáticas para testar e adaptar o método à sua tarefa.

Para iniciantes, no início é difícil identificar a restauração da distribuição empírica nos dados existentes. E mesmo que um especialista iniciante selecione com êxito o método apropriado na biblioteca ou um colega sênior o ajude a configurar o modelo, outro perigo está à sua espera: a qualquer momento, a natureza do comportamento dos dados pode mudar ou o processo interno da série temporal. Isso significa que você precisa recalibrar rapidamente o modelo, porque sua precisão diminuiu e, como resultado, a eficácia de toda a previsão diminuiu. Para entender isso e ajustar o modelo, você precisa possuir métodos estatísticos e entender o princípio pelo qual ele funciona.

Mesmo que o método esteja programado em Python e esteja em algum lugar da caixa, pelo menos uma vez ele deve ser exibido manualmente para entender como funciona. Se você se deparar com esse método no projeto e precisar adaptá-lo, já saberá em quais cadeias quais etapas precisa executar.

História No. 3. Imagine que você tenha uma matriz de dados de 10.000 linhas por 10.000 colunas. ~ 30 milissegundos são gastos na multiplicação de cada par de elementos, ou seja, seu algoritmo processará os dados por mais de uma hora! E se será de um bilhão a um bilhão de matrizes? Ou você precisa executar muitos desses algoritmos?

Matrizes Brutas


Muitas vezes acontece que os recém-chegados não processam ou preparam matrizes antes da análise. Como resultado, o processo retira seu tempo e esforço extras. Para simplificar e acelerar o trabalho com matrizes, os especialistas usam ferramentas da álgebra linear. Funciona assim: a matriz de dados existente é projetada em um subespaço de baixo escalão e, assim, reduz temporariamente sua dimensão.

Você pode aprender como fazer tudo isso em nossos cursos on-line "Matemática para ciência de dados". O nível básico é projetado para o treinamento do currículo escolar e se concentra no componente matemático. Você deve ir para o nível Avançado se, uma vez, há muito tempo, estudou matemática superior ou já possui experiência em Data Science. No nível Avançado, analisamos métodos de análise de dados para diferentes tarefas. No final do curso, os alunos fazem o trabalho de design: eles tentam implementar manualmente um dos métodos para entender como ele está organizado e modificar uma de suas seções. O teste de entrada ajudará a determinar o nível.

A teoria e as habilidades práticas que você dominará na sala de aula são principalmente necessárias para os especialistas em Middle, mas elas também serão úteis no início da profissão. Realizamos uma pesquisa entre nossos empregadores parceiros no campo da ciência de dados e descobrimos que mais da metade deles está pronta para contratar um estagiário com conhecimentos de matemática, mesmo que ele não saiba trabalhar com as bibliotecas Python.

Além disso, se você trabalha ou apenas observa a Data Science, convido você a se inscrever no canal de telegrama da Data Street , onde compartilho minha experiência e coleciono materiais úteis do mundo da matemática, análise de dados e aprendizado de máquina. Ficarei feliz em vê-lo aqui nos cursos da OTUS!

Você pode aprender mais sobre os cursos, bem como passar no teste de entrada para testar seus conhecimentos, clicando nos links abaixo:


All Articles