3 trampas en las que los científicos de datos principiantes caen

Esto es lo que puede suceder si no eres bueno en matemáticas.





¡Hola! Este es Petr Lukyanchenko, autor y líder de los cursos en línea "Matemáticas para la ciencia de datos" en OTUS. En el aula, nos encanta ilustrar todo con casos, así que aquí, también, cada problema que enfrentan los principiantes, comenzaré con un ejemplo.

Historia No. 1 ., , , . , -, , . , 0,95. , «», , . , , , , .

— , , - ?



En nuestra historia, el aprendiz preparó los datos incorrectamente porque no entendía qué tipo de dependencia asumir. Este es el error más común y peligroso que cometen los recién llegados al análisis de datos.

En todas las clases transmitimos dos cosas:

  1. Cualquier análisis debe comenzar con una hipótesis
  2. La hipótesis puede ser errónea. No es aterrador cometer un error, es importante comprender, corregir y continuar el análisis a tiempo.

La capacidad de formular hipótesis, que posteriormente se prueban en datos, causa la mayor dificultad para principiantes, pasantes y jóvenes especialistas en ciencia de datos. Como regla general, conocen bastante bien las estadísticas, pero no tienen experiencia, por lo tanto, a menudo creen ciegamente que un buen valor de las métricas indica que su resultado es válido. Debido a esto, los recién llegados a menudo son impulsados ​​por el deseo de obtener un alto valor de correlación. ¡Pero una alta correlación en sí misma no es garantía de la dependencia correcta!

Las correlaciones imaginarias (regresiones) suelen ser muy divertidas. Puede tomar cualquiera de los dos parámetros, y si cada uno de ellos tiene un componente de tendencia, entonces la correlación estimada será cercana a la unidad, mientras que los parámetros en sí mismos pueden no tener ninguna relación.

Por ejemplo, una persona estudia glaciares en Groenlandia y decide ver cómo la cantidad de precipitación en Tailandia durante la temporada de los monzones afecta la velocidad de fusión del hielo. En un período determinado, ambas variables aumentan, es decir, tienen algunos componentes de tendencia: en Tailandia, el volumen de precipitación aumenta al mismo tiempo cuando comienza un período de calor y los glaciares se derriten más rápido. Si consideramos la correlación "de frente", estará cerca de la unidad, lo que significa que existe una relación directa entre los valores. Por lo tanto, antes de la analítica, primero debe trabajar con los datos: eliminarlos del componente de tendencia, es decir, Reduzca la tendencia y obtenga el valor diario del aumento. Y ahora estas variables Δx se utilizan para obtener la correlación. Esto es algo muy simple, que sin embargo mejora significativamente la calidad del análisis.

Historia No. 2. . - , — . , : , . ?

, , . , , , , .

Es la elección incorrecta del período de tiempo para la calibración, cuando no se tienen en cuenta los factores externos, ese es el error más común cuando el modelo que funciona al principio se vuelve inútil.


Cargue datos en el modelo como en un cuadro negro


Durante varios años de rápido desarrollo de las áreas de ciencia de datos, la humanidad ha acumulado impresionantes bibliotecas de modelos y métodos de procesamiento de datos. Y esto es genial: se pueden usar para resolver problemas comunes, a los que recurren muchos expertos, no solo principiantes, sino también experimentados. El peligro es tomar el modelo terminado, simplemente pegar los datos en él y obtener un valor predictivo en la salida. Un especialista experimentado siempre usa herramientas matemáticas para probar y adaptar el método a su tarea.

Para los principiantes, al principio es difícil identificar la restauración de la distribución empírica en los datos existentes. E incluso si un especialista novato selecciona con éxito el método apropiado en la biblioteca o un colega superior lo ayuda a configurar el modelo, otro peligro lo espera: en cualquier momento, la naturaleza del comportamiento de los datos puede cambiar o el proceso interno de la serie temporal puede cambiar. Esto significa que necesita recalibrar rápidamente el modelo, porque su precisión ha disminuido y, como resultado, la efectividad de toda la predicción ha disminuido. Para captar esto y ajustar el modelo, debe poseer métodos estadísticos y comprender el principio por el cual funciona.

Incluso si el método está programado en Python y está en algún lugar del cuadro, al menos una vez debe mostrarse manualmente para comprender cómo funciona. Si se encuentra con este método en el proyecto y necesita adaptarlo, ya sabrá en qué cadenas debe realizar los pasos.

Historia No. 3. Imagine que tiene una matriz de datos de 10,000 filas por 10,000 columnas. Se gastan ~ 30 milisegundos en multiplicar cada par de elementos, es decir, ¡su algoritmo procesará los datos durante más de una hora! ¿Y si será una matriz de mil millones a mil millones? ¿O necesita ejecutar muchos de estos algoritmos?

Matrices crudas


A menudo sucede que los recién llegados no procesan ni preparan matrices antes del análisis. Como resultado, el proceso les quita su tiempo y esfuerzo extra. Para simplificar y acelerar el trabajo con matrices, los especialistas usan herramientas de álgebra lineal. Funciona así: la matriz de datos existente se proyecta en un subespacio de bajo rango y, por lo tanto, reduce temporalmente su dimensión.

Puede aprender cómo hacer todo esto en nuestros cursos en línea "Matemáticas para la ciencia de datos". El nivel básico está diseñado para la capacitación del currículo escolar y se enfoca en el componente matemático. Debería pasar al nivel Avanzado si alguna vez, incluso durante mucho tiempo, estudió matemáticas superiores o ya tiene experiencia en Ciencias de datos. En el nivel avanzado, analizamos los métodos de análisis de datos para diferentes tareas. Al final del curso, los estudiantes realizan trabajos de diseño: intentan implementar manualmente uno de los métodos para comprender cómo está organizado y modificar una de sus secciones. La prueba de acceso lo ayudará a determinar el nivel.

La teoría y las habilidades prácticas que dominará en el aula son principalmente necesarias para los especialistas de Middle, pero también serán útiles al comienzo de la profesión. Realizamos una encuesta entre nuestros empleadores socios en el campo de la ciencia de datos y descubrimos que más de la mitad de ellos están listos para contratar a un pasante con conocimientos de matemáticas, incluso si no sabe cómo trabajar con las bibliotecas de Python.

Además, si está trabajando o simplemente mirando Data Science, lo invito a suscribirse al canal de telegramas Data Street , donde comparto mi experiencia y recopilo materiales útiles del mundo de las matemáticas, el análisis de datos y el aprendizaje automático. ¡Estaré encantado de verte aquí en los cursos de OTUS!

Puede obtener más información sobre los cursos, así como aprobar el examen de ingreso para evaluar sus conocimientos, haciendo clic en los enlaces a continuación:


All Articles