Comment apprendre d'un data scientist: les compétences techniques les plus recherchées

Quelles connaissances techniques deviennent les plus populaires auprès des employeurs et qui perdent en popularité.

image

Dans mon article original en 2018 , j'ai examiné la demande de compétences communes - statistiques et communication. J'ai également examiné la demande pour Python et le langage de programmation R. La technologie logicielle change beaucoup plus rapidement que la demande de compétences générales, donc je n'inclus que la technologie dans cette analyse mise à jour.

J'ai recherché des mots clés apparaissant sur les offres d'emploi de Data Scientist aux États-Unis sur des sites comme SimplyHired , Indeed , Monster et LinkedIn.. Cette fois, j'ai décidé d'écrire du code pour examiner toutes les listes au lieu de chercher manuellement. Cette décision a été très réussie pour SimplyHired, Indeed et Monster. J'ai utilisé Requests and Beautiful Soup de la bibliothèque HTTP Python. Vous pouvez voir le code avec l'analyse dans mon rapport sur GitHub .

Passer par LinkedIn s'est avéré beaucoup plus difficile. Vous devez suivre le processus d'autorisation pour afficher le nombre exact de listes d'emplois. J'ai décidé d'utiliser Selenium pour afficher des pages sans interface utilisateur graphique. En septembre 2019, la Cour suprême des États-Unisa remporté l'affaire contre LinkedIn, vous permettant ainsi d'effacer les données du site. Cependant, je n'ai pas pu accéder à mon compte après plusieurs tentatives de connexion. Ce problème est peut-être dû à des limitations de vitesse. Mise à jour: j'ai toujours pu me connecter, mais je crains qu'ils ne me bloquent lorsque je réessayerai.

Incidemment, Microsoft possède LinkedIn, Randstad Holding possède Monster et Recruit Holdings détient Indeed et SimplyHired.

Quoi qu'il en soit, les données de LinkedIn n'ont pas fourni une comparaison précise de l'année précédente avec le présent. Cet été, j'ai remarqué d'énormes fluctuations lors de la recherche d'emplois dans le domaine technique. Je suppose qu'ils ont peut-être expérimenté un algorithme de recherche utilisant le traitement du langage naturel. Au contraire, environ le même nombre de postes vacants pour «Data Scientist» est apparu sur d'autres sites au cours des deux dernières années.

C'est pourquoi j'ai exclu les résultats de LinkedIn 2019 et 2018 de cet article.

Pour chaque site de recherche d'emploi, j'ai calculé le pourcentage du nombre total d'annonces d'emploi pour les scientifiques des données où le mot-clé est apparu. Ensuite, j'ai fait la moyenne de ces pourcentages sur trois sites pour chaque mot clé.

J'ai exploré manuellement de nouvelles recherches et passé en revue les plus prometteuses. Aucune des nouvelles demandes n'a atteint une moyenne de 5% dans la liste de 2019; Ci-dessous, vous verrez le résultat de la sélection.

Aller!

résultats


Il existe au moins quatre façons d'afficher les résultats pour chaque mot clé:

  1. Divisez le nombre d'annonces de mots clés par le nombre total de requêtes qui incluent un «data scientist» sur chaque site de recherche d'emploi pour chaque code. Prenez ensuite la moyenne des trois sites. C'est ce processus que j'ai décrit plus tôt.
  2. 2018 2019 .
  3. 2018 2019 .
  4. . .

Examinons les trois premières options à l'aide d'histogrammes. Ensuite, je vais vous montrer un tableau avec des données, et nous discuterons des résultats.

Voici donc un graphique avec le premier paragraphe pour 2019. Nous pouvons voir que Python apparaît dans près de 75% des publicités.

image

Ci-dessous, un graphique avec le deuxième paragraphe, montrant les ajouts et les diminutions en termes de pourcentage moyen d'annonces entre 2018 et 2019. AWS a augmenté de 5% points. En moyenne, en 2018, il est apparu dans 14,6% des publicités, alors qu'en 2019 il est passé à 19,4%.

image

Voici un graphique pour le troisième paragraphe, montrant la variation en pourcentage d'une année à l'autre. PyTorch a augmenté de 108,1% par rapport au pourcentage moyen d'annonces dans lesquelles il est apparu en 2018.

image

Tous les diagrammes ont été compilés dans Plotly. Si vous souhaitez apprendre à utiliser Plotly pour créer des visualisations interactives, consultez mon guide. Si vous souhaitez jeter un œil aux graphiques interactifs, accédez au fichier HTML de mon rapport sur GitHub. Code avec analyse et visualisation au même endroit.

Ci-dessous, sous forme de tableaux, les informations des graphiques ci-dessus, triées par pourcentage de variation du pourcentage moyen d'annonces de 2018 à 2019.

image

Je comprends que tout cela est un peu déroutant, alors voici un petit guide des informations dans le tableau.

  • Avg 2018 est le pourcentage moyen d'annonces depuis le 10 octobre 2018 de SimplyHired, Indeed et Monster.
  • Avg 2019 est le même que Avg 2018, seulement pour le 4 décembre 2019. Ces données sont présentées dans le premier des trois diagrammes ci-dessus.
  • La variation de la moyenne est la colonne 2019 moins 2018. Ces informations proviennent du deuxième des trois diagrammes ci-dessus.
  • La variation en% est la variation en pourcentage de 2018 à 2019. Ces données figurent sur le troisième graphique.
  • Le classement 2018 est un classement par rapport aux autres mots clés en 2018.
  • 2019 Rank est un classement par rapport aux autres mots clés en 2019.
  • Le changement de classement est une augmentation ou une diminution de la notation au cours de ces deux années.

Que pouvons-nous apprendre de ces informations?


Des changements importants se sont produits en moins de 14 mois.

Gagnants


Python est toujours à cheval. C'est de loin le mot-clé le plus courant. Littéralement dans trois des quatre annonces. Python a connu une croissance décente depuis 2018.

SQL est notre étoile montante. Il a presque dépassé R dans la deuxième plus grande moyenne. A ce rythme, il arrivera bientôt en deuxième position.

La plus forte croissance a été enregistrée par les cadres d'apprentissage en profondeur .

Dans PyTorch était le plus gros mot- clé de gain. Keras et TensorFlowa également montré du succès. Keras et PyTorch ont gravi quatre marches, TensorFlow - trois. Veuillez noter que PyTorch a commencé avec une valeur moyenne faible et que la valeur moyenne de TensorFlow est également deux fois plus élevée que PyTorch. Les

compétences de la plateforme cloud deviennent de plus en plus populaires. AWS est apparu dans près de 20% des annonces, Azure dans environ 10% et a grimpé quatre étapes.

Ce sont les technologies les plus avancées.

Les perdants


Nous R la plus forte baisse de la valeur moyenne. Cette découverte n'est pas très surprenante, compte tenu des résultats d'autres études . Python est bien en avance sur R en tant que langage de programmation. Quoi qu'il en soit, R continue d'être très populaire, apparaissant dans 55% des publicités. Ne désespérez pas si vous possédez R, mais pensez aussi à apprendre Python si vous voulez acquérir une compétence plus recherchée.

De nombreux produits Apache , notamment Pig , Hive , Hadoop et Sparkperdre leur popularité. Pig a perdu cinq positions dans le classement - bien plus que n'importe quelle autre technologie. Spark et Hadoop sont toujours en forte demande, mais d'après mes résultats, vous pouvez voir la tendance vers les technologies Big Data.

Les progiciels statistiques MATLAB et SAS perdent beaucoup de popularité. MATLAB a perdu quatre lignes dans le classement, tandis que SAS est passé de la sixième à la huitième place. Les deux langues affichent une baisse significative en pourcentage par rapport à la moyenne de 2018.

Pointe


Il y a beaucoup de technologies sur cette liste. Bien sûr, vous n'avez pas besoin de tout savoir. Pas étonnant que le mythique scientifique des données s'appelle une licorne.

Mon conseil est le suivant - si vous commencez à travailler dans ce domaine, concentrez-vous sur les technologies en demande.

Concentrer.
Sur le.
En train d'étudier.
Une.
Les technologies.
Derrière.
Temps.

(C'est un excellent conseil, même si je n'y ai pas toujours adhéré.)

Dans cet ordre, je recommande d'étudier:

  1. Apprenez Python pour la programmation générale.
  2. Pandas. , , data scientist Python Pandas Scikit-learn. Scikit-learn , Pandas . Pandas Matplotlib NumPy.
  3. Scikit-learn. «Introduction to Machine Leaning with Python».
  4. SQL .
  5. Tableau . , .
  6. . AWS – - . Microsoft Azure – . , Google Cloud, . , Google Cloud, , Data Engineer Google Cloud.
  7. . TensorFlow. «Deep Learning with Python» Keras . Keras TensorFlow, . PyTorch . , .

Ce sont mes conseils d'apprentissage généraux. Adaptez-les à vos objectifs ou martelez et faites ce que vous voulez.



image
Apprenez en détail comment obtenir une profession recherchée à partir de zéro ou passer au niveau supérieur en compétences et en salaire en suivant les cours en ligne SkillFactory:



Lire la suite



All Articles