Wie man von einem Datenwissenschaftler lernt: Die meistgesuchten technischen Fähigkeiten

Welches technische Wissen bei Arbeitgebern am beliebtesten ist und welches an Popularität verliert.

Bild

In meinem ursprünglichen Artikel aus dem Jahr 2018 habe ich mich mit der Nachfrage nach gemeinsamen Fähigkeiten befasst - Statistik und Kommunikation. Ich habe mir auch die Nachfrage nach Python und der Programmiersprache R angesehen. Die Softwaretechnologie ändert sich viel schneller als die Nachfrage nach allgemeinen Fähigkeiten, daher beziehe ich nur Technologie in diese aktualisierte Analyse ein.

Ich habe nach Keywords gesucht, die in Stellenangeboten für Data Scientist in den USA auf Websites wie SimplyHired , Indeed , Monster und LinkedIn aufgeführt sind. Dieses Mal habe ich beschlossen, Code zu schreiben, um alle Listen zu untersuchen, anstatt manuell zu suchen. Diese Entscheidung war für SimplyHired, Indeed und Monster sehr erfolgreich. Ich habe Requests und Beautiful Soup aus der Python HTTP-Bibliothek verwendet. Sie können den Code mit der Analyse in meinem Bericht auf GitHub sehen .

Es stellte sich als viel schwieriger heraus, durch LinkedIn zu kommen. Sie müssen den Autorisierungsprozess durchlaufen, um die genaue Anzahl der Stellenanzeigen anzuzeigen. Ich habe mich für Selenium entschieden, um Seiten ohne grafische Benutzeroberfläche anzuzeigen. Im September 2019 wurde der Oberste Gerichtshof der USAhat den Fall gegen LinkedIn gewonnen, wodurch Sie die Site-Daten löschen können. Nach mehreren Anmeldeversuchen konnte ich jedoch nicht auf mein Konto zugreifen. Möglicherweise ist dieses Problem auf Geschwindigkeitsbegrenzungen zurückzuführen. Update: Ich konnte mich noch anmelden, habe aber Angst, dass sie mich blockieren, wenn ich es erneut versuche.

Microsoft besitzt übrigens LinkedIn, Randstad Holding Monster und Recruit Holdings Indeed und SimplyHired.

In jedem Fall lieferten die LinkedIn-Daten keinen genauen Vergleich des Vorjahres mit der Gegenwart. In diesem Sommer habe ich große Schwankungen bei der Suche nach Jobs im technischen Bereich festgestellt. Ich nehme an, dass sie vielleicht mit einem Suchalgorithmus experimentiert haben, der die Verarbeitung natürlicher Sprache verwendet. Im Gegenteil, in den letzten zwei Jahren ist an anderen Standorten ungefähr die gleiche Anzahl von Stellen für 'Data Scientist' ausgeschrieben.

Deshalb habe ich die Ergebnisse von LinkedIn 2019 und 2018 aus diesem Artikel ausgeschlossen.

Für jede Website für die Jobsuche habe ich den Prozentsatz der Gesamtzahl der Stellenanzeigen für Datenwissenschaftler berechnet, bei denen das Keyword angezeigt wurde. Dann habe ich diese Prozentsätze für jedes Keyword auf drei Websites gemittelt.

Ich habe neue Suchanfragen manuell untersucht und die vielversprechendsten überprüft. Keine der neuen Anfragen erreichte in der Liste von 2019 durchschnittlich 5%; Unten sehen Sie das Ergebnis der Auswahl.

Gehen!

Ergebnisse


Es gibt mindestens vier Möglichkeiten, die Ergebnisse für jedes Keyword anzuzeigen:

  1. Teilen Sie die Anzahl der Keyword-Anzeigen durch die Gesamtzahl der Abfragen, die einen „Datenwissenschaftler“ auf jeder Website für die Jobsuche für jeden Code enthalten. Dann nehmen Sie den Durchschnitt aller drei Standorte. Es ist dieser Prozess, den ich zuvor beschrieben habe.
  2. 2018 2019 .
  3. 2018 2019 .
  4. . .

Schauen wir uns die ersten drei Optionen anhand von Histogrammen an. Dann zeige ich Ihnen eine Tabelle mit Daten und wir werden die Ergebnisse diskutieren.

Hier ist eine Tabelle mit dem ersten Absatz für 2019. Wir können sehen, dass Python in fast 75% der Anzeigen erscheint.

Bild

Unten finden Sie eine Tabelle mit dem zweiten Absatz, in der Hinzufügungen und Abnahmen in Bezug auf den durchschnittlichen Prozentsatz der Anzeigen zwischen 2018 und 2019 aufgeführt sind. AWS wuchs um 5% Punkte. Im Durchschnitt erschien es 2018 in 14,6% der Anzeigen, während es 2019 auf 19,4% wuchs.

Bild

Hier ist eine Tabelle für den dritten Absatz, die die prozentuale Veränderung von Jahr zu Jahr zeigt. PyTorch wuchs um 108,1% im Vergleich zum durchschnittlichen Prozentsatz der Anzeigen, in denen es 2018 geschaltet wurde.

Bild

Alle Diagramme wurden in Plotly zusammengestellt. Wenn Sie lernen möchten, wie Sie mit Plotly interaktive Visualisierungen erstellen, lesen Sie meinen Leitfaden. Wenn Sie sich interaktive Diagramme ansehen möchten, gehen Sie zur HTML-Datei in meinem Bericht auf GitHub. Code mit Analyse und Visualisierung am selben Ort.

In Form von Tabellen finden Sie unten die Informationen aus den obigen Diagrammen, sortiert nach der prozentualen Änderung des durchschnittlichen Prozentsatzes der Anzeigen von 2018 bis 2019.

Bild

Ich verstehe, dass dies alles etwas verwirrend ist, daher hier eine kleine Anleitung zu den Informationen in der Tabelle.

  • Der Durchschnitt von 2018 ist der durchschnittliche Prozentsatz der Anzeigen seit dem 10. Oktober 2018 von SimplyHired, Indeed und Monster.
  • Der Durchschnitt von 2019 ist der gleiche wie der Durchschnitt von 2018, nur gilt dies für den 4. Dezember 2019. Diese Daten sind im ersten der drei obigen Diagramme dargestellt.
  • Die Änderung im Durchschnitt ist die Spalte 2019 minus 2018. Diese Informationen stammen aus dem zweiten der drei obigen Diagramme.
  • % Veränderung ist die prozentuale Veränderung von 2018 bis 2019. Diese Daten befinden sich in der dritten Grafik.
  • Der Rang 2018 ist ein Ranking im Vergleich zu anderen Keywords im Jahr 2018.
  • Der Rang 2019 ist ein Ranking im Vergleich zu anderen Keywords im Jahr 2019.
  • Eine Rangänderung ist eine Erhöhung oder Verringerung des Ratings in diesen zwei Jahren.

Was können wir aus diesen Informationen lernen?


In weniger als 14 Monaten traten signifikante Veränderungen auf.

Gewinner


Python ist immer noch zu Pferd. Dies ist bei weitem das häufigste Schlüsselwort. Buchstäblich in drei von vier Anzeigen. Python ist seit 2018 anständig gewachsen.

SQL ist unser aufgehender Stern. Er übertraf R im zweitgrößten Durchschnitt fast. In diesem Tempo wird er bald den zweiten Platz belegen.

Das größte Wachstum zeigten Deep-Learning-Frameworks .

In PyTorch war der größte Gewinn Schlüsselwörter. Keras und TensorFlowzeigte auch Erfolg. Sowohl Keras als auch PyTorch stiegen vier Stufen hinauf, TensorFlow - drei. Bitte beachten Sie, dass PyTorch mit einem niedrigen Durchschnittswert begann und der durchschnittliche TensorFlow-Wert ebenfalls doppelt so hoch ist wie PyTorch. Cloud-Plattform-

Kenntnisse werden immer beliebter. AWS erschien in fast 20% der Anzeigen, Azure in etwa 10% und stieg in vier Schritten. Dies sind die fortschrittlichsten Technologien.



Verlierer


Wir R den größten Rückgang der durchschnittlichen Wert. Diese Entdeckung ist angesichts der Ergebnisse anderer Studien nicht sehr überraschend . Python ist R als Programmiersprache weit voraus. Wie dem auch sei, R ist weiterhin sehr beliebt und erscheint in 55% der Anzeigen. Verzweifeln Sie nicht, wenn Sie R besitzen, sondern denken Sie auch daran, Python zu lernen, wenn Sie eine anspruchsvollere Fähigkeit erwerben möchten.

Viele Apache- Produkte , einschließlich Pig , Hive , Hadoop und Sparkverlieren ihre Popularität. Pig verlor fünf Positionen in der Rangliste - viel mehr als jede andere Technologie. Spark und Hadoop sind immer noch sehr gefragt, aber nach meinen Erkenntnissen können Sie den Trend zu Big-Data-Technologien erkennen.

Die statistischen Softwarepakete MATLAB und SAS verlieren stark an Popularität. MATLAB verlor vier Zeilen in der Rangliste, während SAS vom sechsten auf den achten Platz fiel. Beide Sprachen weisen im Vergleich zum Durchschnitt von 2018 einen signifikanten prozentualen Rückgang auf.

Trinkgeld


Es gibt viele Technologien auf dieser Liste. Natürlich müssen Sie nicht alles wissen. Kein Wunder, dass der mythische Datenwissenschaftler Einhorn genannt wird.

Mein Rat lautet wie folgt: Wenn Sie anfangen, in diesem Bereich zu arbeiten, konzentrieren Sie sich auf die Technologien, die gefragt sind.

Konzentrieren.
Auf der.
Studieren.
Eins.
Technologien.
Hinter.
Zeit.

(Dies ist ein ausgezeichneter Rat, obwohl ich mich selbst nicht immer daran gehalten habe.)

In dieser Reihenfolge empfehle ich, Folgendes zu studieren:

  1. Lernen Sie Python für die allgemeine Programmierung.
  2. Pandas. , , data scientist Python Pandas Scikit-learn. Scikit-learn , Pandas . Pandas Matplotlib NumPy.
  3. Scikit-learn. «Introduction to Machine Leaning with Python».
  4. SQL .
  5. Tableau . , .
  6. . AWS – - . Microsoft Azure – . , Google Cloud, . , Google Cloud, , Data Engineer Google Cloud.
  7. . TensorFlow. «Deep Learning with Python» Keras . Keras TensorFlow, . PyTorch . , .

Dies sind meine allgemeinen Lerntipps. Passen Sie sie an Ihre Ziele oder Ihren Hammer an und tun Sie, was Sie wollen.



Bild
Erfahren Sie in SkillFactory-Onlinekursen, wie Sie einen begehrten Beruf von Grund auf neu erlernen oder Ihre Fähigkeiten und Ihr Gehalt verbessern können:



Weiterlesen



All Articles