💡 🌿 🆖 Pavel Klemenkov, NVIDIA: Nous essayons de réduire l'écart entre ce qu'un scientifique des données peut faire et ce qu'il doit être capable de faire. 🖖🏽 👩🏾‍🤝‍👨🏻 🚳

Le deuxième groupe d'étudiants du programme de master en science des données et intelligence d'affaires Ozon Masters a commencé - et afin de décider de laisser une application et de passer les tests en ligne, il était plus facile, nous avons demandé aux enseignants du programme à quoi s'attendre de la formation et du travail avec les données. Pavel Klemenkov,

professeur en chef du NVIDIA Data Scientist et professeur de cours sur le Big Data et l'ingénierie des données, a expliqué pourquoi les mathématiciens écrivent du code et étudient à l'Ozon Masters pendant deux ans.

- Existe-t-il de nombreuses entreprises qui utilisent des algorithmes de science des données?

- En fait beaucoup. Un grand nombre de grandes entreprises qui disposent de très gros volumes de données commencent à travailler efficacement avec elles ou travaillent depuis longtemps. Il est clair que la moitié du marché utilise des données pouvant tenir dans une tablette Excel ou pouvant être comptées sur un grand serveur, mais il est impossible de dire que seules quelques entreprises peuvent travailler avec des données.

- Parlez-moi un peu des projets qui utilisent la science des données.

- Par exemple, pendant que nous travaillions chez Rambler, nous avons créé un système de publicité qui fonctionne sur les principes de la RTB (Real Time Bidding) - nous avions besoin de construire de nombreux modèles qui optimiseraient l'achat de publicité ou, par exemple, pourraient prédire la probabilité d'un clic, d'une conversion, etc. Dans le même temps, une enchère publicitaire génère beaucoup de données: journaux de demandes de site auprès d'acheteurs potentiels de publicités, journaux d'impressions publicitaires, journaux de clics - ce sont des dizaines de téraoctets de données par jour.

De plus, pour ces tâches, nous avons observé un phénomène intéressant: plus vous donnez de données pour la formation du modèle, plus sa qualité est élevée. Habituellement, pour une certaine quantité de données, la qualité des prévisions cesse de s'améliorer et, pour améliorer encore la précision, vous devez utiliser un modèle fondamentalement différent, une approche différente pour la préparation des données, des fonctionnalités, etc. Ici, nous avons versé plus de données et la qualité a augmenté.

C'est un cas typique où les analystes ont dû, premièrement, travailler avec de grands ensembles de données pour au moins mener une expérience, et où il était impossible de s'en tirer avec un petit échantillon qui tient dans un macbook confortable. Dans le même temps, nous avions besoin de modèles distribués, car sinon, il était impossible de les former. Avec l'introduction de la vision par ordinateur dans la production, de tels exemples sont de plus en plus courants, car les images représentent une grande quantité de données et des millions d'images sont nécessaires pour former un grand modèle.

La question se pose immédiatement: comment stocker toutes ces informations, comment les traiter efficacement, comment utiliser des algorithmes d'apprentissage distribués - l'accent mis sur les mathématiques nues se déplace vers l'ingénierie. Même si vous n'écrivez pas de code en production, vous devez être en mesure de travailler avec des outils d'ingénierie pour mener une expérience.

- Comment l'approche des postes vacants en science des données a-t-elle changé ces dernières années?

- Le Big Data a cessé d'être un battage médiatique et est devenu une réalité. Les disques durs sont assez bon marché, ce qui signifie qu'il est possible de collecter toutes les données en général, de sorte qu'à l'avenir, elles seront suffisantes pour tester toutes les hypothèses. En conséquence, la connaissance des outils pour travailler avec les mégadonnées devient très populaire, et en conséquence, de plus en plus d'opportunités d'emploi pour les ingénieurs de données apparaissent.

À ma connaissance, le résultat du travail d'un data scientist n'est pas une expérience, mais un produit qui a atteint la production. Et juste de ce point de vue, avant l'avènement du battage médiatique autour des mégadonnées, le processus était plus simple: les ingénieurs étaient engagés dans l'apprentissage automatique pour résoudre des problèmes spécifiques, et il n'y avait aucun problème avec la mise en production des algorithmes.

- Que faut-il pour rester un spécialiste recherché?

- Maintenant, beaucoup de gens sont venus à la science des données qui ont appris les mathématiques, la théorie de l'apprentissage automatique, participé à des concours d'analyse de données où une infrastructure prête à l'emploi est fournie: les données sont effacées, les métriques sont définies et il n'y a aucune exigence pour que la solution soit reproductible et rapide.

En conséquence, des gars mal préparés aux réalités du monde du travail viennent travailler et un fossé se forme entre débutants et développeurs expérimentés.

Avec le développement d'outils qui vous permettent d'assembler votre propre modèle à partir de modules prêts à l'emploi - et Microsoft, Google et bien d'autres ont déjà de telles solutions - et l'automatisation de l'apprentissage automatique, cet écart deviendra encore plus prononcé. À l'avenir, la profession exigera des chercheurs sérieux qui trouveront de nouveaux algorithmes et des employés dotés de compétences avancées en ingénierie qui mettront en œuvre des modèles et automatiseront les processus. Seul le cours Ozon Masters en ingénierie des données est axé sur le développement de compétences en ingénierie et la capacité d'utiliser des algorithmes d'apprentissage automatique distribués sur les mégadonnées. Nous essayons de réduire l'écart entre ce qu'un scientifique des données peut faire et ce qu'il devrait être capable de faire dans la pratique.

- Pourquoi les mathématiques avec diplôme vont-elles étudier en entreprise?

- La communauté russe de la science des données a compris que les compétences et l'expérience sont très rapidement converties en argent.Par conséquent, dès qu'un spécialiste a une expérience pratique, son coût commence à augmenter très rapidement, les personnes les plus qualifiées sont très chères - et cela est vrai au moment actuel du développement. marché.

La plupart du travail d'un data scientist consiste à consulter les données, à comprendre ce qui s'y trouve, à consulter les personnes responsables des processus métier et à générer ces données, puis à les utiliser uniquement pour construire des modèles. Pour commencer à travailler avec le Big Data, il est extrêmement important d'avoir des compétences en ingénierie - il est beaucoup plus facile de contourner les angles vifs, qui sont nombreux en science des données.

Une histoire typique: vous avez écrit une requête SQL qui est exécutée à l'aide du framework Hive, qui s'exécute sur le Big Data. La demande est traitée en dix minutes, dans le pire des cas - en une heure ou deux, et souvent, lorsque vous recevez les téléchargements de ces données, vous vous rendez compte que vous avez oublié de prendre en compte un facteur ou des informations supplémentaires. Vous devez renvoyer la demande et attendre ces minutes et heures. Si vous êtes un génie de l'efficacité, nous entreprendrons une autre tâche, mais, comme le montre la pratique, nous avons peu de génies de l'efficacité et les gens n'attendent que cela. Par conséquent, dans les cours, nous consacrerons beaucoup de temps à l'efficacité du travail afin de rédiger initialement des requêtes qui ne fonctionnent pas pendant deux heures, mais pendant plusieurs minutes. Cette compétence multiplie la productivité, et avec elle la valeur d'un spécialiste.

- En quoi l'Ozon Masters est-il différent des autres cours?

- Les employés d'Ozon enseignent à Ozon Masters, et les missions sont basées sur des cas commerciaux réels qui sont résolus dans les entreprises. En fait, en plus du manque de compétences en ingénierie, la personne qui a appris la science des données à l'université a un autre problème: la tâche commerciale est formulée dans le langage des affaires, et son objectif est assez simple: gagner plus d'argent. Et le mathématicien sait bien comment optimiser les métriques mathématiques - mais trouver une métrique qui sera en corrélation avec une métrique commerciale est difficile. Et vous devez comprendre que vous résolvez un problème commercial, formuler des mesures pouvant être optimisées mathématiquement en collaboration avec l'entreprise. Cette compétence s'acquiert au détriment des cas réels, et Ozon les donne.
Et même si vous abandonnez les cas, l'école enseigne à beaucoup de praticiens qui résolvent les problèmes commerciaux dans de vraies entreprises. En conséquence, l'approche de l'enseignement est encore plus pratique. Au moins dans mon cours, j'essaierai de déplacer l'attention sur la façon d'utiliser les outils, les approches existantes, etc. Avec les étudiants, nous comprendrons que chaque tâche a son propre outil et que chaque outil a un champ d'application.

- Le programme de formation le plus célèbre en analyse de données, bien sûr, ShAD - quelle est la différence en particulier?

- Il est clair que ShAD et Ozon Masters, en plus de la fonction éducative, résolvent le problème de formation local. Les meilleurs diplômés de SHAD sont principalement recrutés pour Yandex, mais le hic est que Yandex, en raison de sa spécificité - et il était grand quand il n'y avait pas assez de bons outils pour travailler avec les mégadonnées - a sa propre infrastructure et outils pour travailler avec les données, ce qui signifie devra les maîtriser. Ozon Masters a un message différent - si vous avez réussi à maîtriser le programme et qu'Ozon ou l'une des 99% d'autres entreprises vous invite à travailler, il sera beaucoup plus facile de commencer à bénéficier de l'entreprise; les compétences acquises grâce à Ozon Masters seront suffisantes pour commencer à travailler.

- Le cours dure deux ans. Pourquoi cela prend-il autant de temps?

- Bonne question. Pendant longtemps, car le contenu et le niveau des enseignants est un programme de master intégré, nécessitant beaucoup de temps pour la maîtrise, y compris les devoirs.

Du point de vue de mon cours, s'attendre à ce que l'étudiant passe 2-3 heures par semaine sur des tâches est une chose courante. Tout d'abord, les tâches sont effectuées sur le cluster de formation, et tout cluster commun implique que plusieurs personnes l'utilisent simultanément. Autrement dit, vous devez attendre que la tâche commence à s'exécuter, certaines ressources peuvent être sélectionnées et transférées vers une file d'attente de priorité supérieure. D'un autre côté, tout travail avec des mégadonnées prend du temps.

, — , 25 12:00, Ozon Masters . c Zoom YouTube.

Pavel Klemenkov, NVIDIA: Nous essayons de réduire l'écart entre ce qu'un scientifique des données peut faire et ce qu'il doit être capable de faire.