3 pièges dans lesquels tombent les Data Scientists débutants

C'est ce qui peut arriver si vous n'êtes pas bon en mathématiques.





salut! Il s'agit de Petr Lukyanchenko, auteur et responsable des cours en ligne "Mathématiques pour la science des données" à OTUS. En classe, nous aimons tout illustrer avec des cas, donc ici aussi, chaque problème que les débutants rencontrent, je vais commencer par un exemple.

Histoire n ° 1 ., , , . , -, , . , 0,95. , «», , . , , , , .

— , , - ?



Dans notre histoire, le stagiaire a mal préparé les données car il ne comprenait pas quel type de dépendance assumer. Il s'agit de l'erreur la plus courante et la plus dangereuse commise par les nouveaux venus dans l'analyse des données.

Dans toutes les classes, nous diffusons deux choses:

  1. Toute analyse doit commencer par une hypothèse
  2. L'hypothèse peut être erronée. Il n'est pas effrayant de se tromper, il est important de comprendre, corriger et poursuivre l'analyse dans le temps.

La capacité de formuler des hypothèses, qui sont ensuite testées sur des données, pose le plus de difficultés aux débutants, aux stagiaires et aux jeunes spécialistes de la science des données. En règle générale, ils connaissent assez bien les statistiques, mais n'ont pas d'expérience, c'est pourquoi ils croient souvent aveuglément qu'une bonne valeur des métriques signale que leur résultat est valide. Pour cette raison, les nouveaux arrivants sont souvent motivés par le désir d'obtenir une valeur de corrélation élevée. Mais une corrélation élevée n'est pas en soi une garantie de la bonne dépendance!

Les corrélations imaginaires (régressions) sont généralement très drôles. Vous pouvez prendre deux paramètres quelconques, et si chacun d'eux a une composante de tendance, alors la corrélation estimée se révélera proche de l'unité, tandis que les paramètres eux-mêmes peuvent ne pas avoir de relation.

Par exemple, une personne étudie les glaciers du Groenland et décide de voir comment la quantité de précipitations en Thaïlande pendant la saison de la mousson affecte le taux de fonte des glaces. Dans une période donnée, ces deux variables augmentent, c'est-à-dire qu'elles ont des composantes de tendance: en Thaïlande, la quantité de précipitations augmente lorsque la période chaude commence et les glaciers fondent plus rapidement. Si nous considérons la corrélation de front, elle sera proche de l'unité, ce qui signifie qu'il existe une relation directe entre les valeurs. Par conséquent, avant l'analyse, vous devez d'abord travailler avec les données - les effacer de la composante de tendance, c'est-à-dire Détruisez et obtenez la valeur quotidienne de l'augmentation. Et maintenant, ces variables Δx sont utilisées pour obtenir la corrélation. C'est une chose très simple, qui améliore néanmoins considérablement la qualité de l'analyse.

Histoire n ° 2. . - , — . , : , . ?

, , . , , , , .

C'est le mauvais choix de la période de calibration, lorsque les facteurs externes ne sont pas pris en compte, c'est l'erreur la plus courante lorsque le modèle qui fonctionne au début devient inutile.


Charger des données dans le modèle comme dans une boîte noire


Pendant plusieurs années de développement rapide des domaines de la science des données, l'humanité a accumulé d'impressionnantes bibliothèques de modèles et de méthodes de traitement des données. Et c'est formidable - ils peuvent être utilisés pour résoudre des problèmes ordinaires, auxquels de nombreux experts ont recours, non seulement pour les débutants, mais aussi pour les plus expérimentés. Le danger est de prendre le modèle fini, de simplement y coller les données et d'obtenir une valeur prédictive en sortie. Un spécialiste expérimenté utilise toujours des outils mathématiques pour tester et adapter la méthode à sa tâche.

Pour les débutants, dans un premier temps, il est difficile d'identifier la restauration de la distribution empirique dans les données existantes. Et même si un spécialiste novice sélectionne avec succès la méthode appropriée dans la bibliothèque ou qu'un collègue senior l'aide à configurer le modèle, un autre danger l'attend: à tout moment, la nature du comportement des données peut changer ou le processus interne de la série chronologique peut changer. Cela signifie que vous devez recalibrer rapidement le modèle, car sa précision a diminué et, par conséquent, l'efficacité de l'ensemble de la prédiction a diminué. Afin de saisir cela et d'ajuster le modèle, vous devez posséder des méthodes statistiques et comprendre le principe selon lequel cela fonctionne.

Même si la méthode est programmée en Python et se trouve quelque part dans la boîte, au moins une fois elle doit être affichée manuellement pour comprendre comment elle fonctionne. Si vous rencontrez cette méthode dans le projet et que vous devez l'adapter, vous saurez déjà dans quelles chaînes les étapes à suivre.

Histoire n ° 3. Imaginez que vous ayez une matrice de données de 10 000 lignes pour 10 000 colonnes. ~ 30 millisecondes sont consacrées à la multiplication de chaque paire d'éléments, c'est-à-dire que votre algorithme traitera les données pendant plus d'une heure! Et si ce sera une matrice d'un milliard à un milliard? Ou avez-vous besoin d'exécuter un grand nombre de ces algorithmes?

Matrices brutes


Il arrive souvent que les nouveaux arrivants ne traitent ni ne préparent de matrices avant l'analyse. En conséquence, le processus leur enlève leur temps et leurs efforts supplémentaires. Pour simplifier et accélérer le travail avec les matrices, les spécialistes utilisent des outils d'algèbre linéaire. Cela fonctionne comme ceci: la matrice de données existante est projetée dans un sous-espace de bas rang et réduit ainsi temporairement sa dimension.

Vous pouvez apprendre à faire tout cela dans nos cours en ligne «Mathématiques pour la science des données». Le niveau de base est conçu pour la formation à partir du programme scolaire et se concentre sur la composante mathématique. Vous devriez passer au niveau Avancé si vous avez déjà, même pendant très longtemps, étudié des mathématiques supérieures ou avez déjà une expérience en Data Science. Au niveau avancé, nous analysons les méthodes d'analyse des données pour différentes tâches. À la fin du cours, les étudiants effectuent un travail de conception: ils essaient d'implémenter manuellement l'une des méthodes pour comprendre comment elle est organisée et modifier une de ses sections. Le test d'entrée vous aidera à déterminer le niveau.

La théorie et les compétences pratiques que vous maîtriserez en classe sont principalement nécessaires pour les spécialistes intermédiaires, mais elles seront également utiles au début de la profession. Nous avons mené une enquête auprès de nos employeurs partenaires dans le domaine de la science des données et avons découvert que plus de la moitié d'entre eux sont prêts à embaucher un stagiaire ayant des connaissances en mathématiques, même s'il ne sait pas comment travailler avec les bibliothèques Python.

De plus, si vous travaillez ou si vous regardez simplement la science des données, je vous invite à vous abonner à la chaîne de télégramme Data Street , où je partage mon expérience et collecte des matériaux utiles du monde des mathématiques, de l'analyse des données et de l'apprentissage automatique. Je serai ravi de vous voir ici aux cours OTUS!

Vous pouvez en savoir plus sur les cours, ainsi que passer le test d'entrée pour tester vos connaissances, en cliquant sur les liens ci-dessous:


All Articles