如何向数据科学家学习:最想要的技术技能

哪些技术知识正变得最受雇主欢迎,哪些正在失去其知名度。

图片

2018年的原始文章中,我探讨了对通用技能-统计和沟通的需求。我还研究了对Python和R编程语言的需求,软件技术的变化比对一般技能的需求变化快得多,因此,在此更新的分析中我仅包含技术。

我搜索了出现在美国数据科学家工作列表上的关键字,这些关键字在美国的SimplyHiredIndeedMonsterLinkedIn等网站上。这次,我决定编写代码来检查所有列表,而不是手动搜索。这个决定对于SimplyHired,Indeed和Monster都是非常成功的。我使用了Python HTTP库中的Requests and Beautiful Soup。您可以在GitHub上的报告中看到包含分析的代码

通过LinkedIn变得困难得多。您必须完成授权过程才能查看职位列表的确切数量。我决定使用Selenium来查看没有图形用户界面的页面。 2019年9月,美国最高法院在LinkedIn案中胜诉,因此您可以清除网站数据。但是,几次登录尝试后我都无法访问我的帐户。可能由于速度限制而出现了此问题。更新:我仍然可以登录,但是担心再次尝试时,它们会阻止我。

顺便说一句,微软拥有LinkedIn,Randstad Holding拥有Monster,Recruit Holdings拥有Indeed和SimplyHired。

无论如何,LinkedIn数据都无法提供上一年与现在的准确比较。今年夏天,我在寻找技术领域的工作时发现了巨大的波动。我想也许他们尝试了使用自然语言处理的搜索算法。相反,在过去两年中,“数据科学家”的职位空缺数量大约相同。

这就是为什么我从本文中排除了LinkedIn 2019和2018的结果的原因。

对于每个求职网站,我计算了出现关键字的数据科学家在求职广告总数中所占的百分比。然后,我将每个关键字在三个网站上的平均百分比作为平均值。

我手动探索了新的搜索并审查了最有前途的搜索。2019年列表中没有新请求平均达到5%; 在下面,您将看到选择的结果。

走!

结果


至少有四种方法可以查看每个关键字的结果:

  1. 用关键字广告的数量除以每个代码中每个工作搜索网站上包含“数据科学家”的查询总数。然后取所有三个站点的平均值。我之前描述的就是这个过程。
  2. 2018 2019 .
  3. 2018 2019 .
  4. . .

让我们看一下使用直方图的前三个选项。然后,我将向您显示一个包含数据的表,我们将讨论结果。

因此,这是2019年第一段的图表。我们可以看到Python几乎出现在75%的广告中。

图片

以下是带有第二段的图表,显示了2018年至2019年之间广告平均百分比的增减情况。 AWS增长了5%。平均而言,2018年它出现在14.6%的广告中,而2019年则增长到19.4%。

图片

这是第三段的图表,显示了每年的百分比变化。与2018年出现在广告中的平均百分比相比,PyTorch增长了108.1%。

图片

所有图均在Plotly中编译。如果您想学习如何使用Plotly创建交互式可视化,请查阅我的指南。如果要查看交互式图表,请转到我在GitHub上的报告中的HTML文件。在同一位置进行分析和可视化编码。

下表以表格形式提供了以上图表中的信息,按2018年至2019年广告平均百分比的变化百分比排序。

图片

我知道这有点令人困惑,因此这里是表中信息的小指南。

  • 2018年平均收入是自2018年10月10日以来来自SimplyHired,Indeed和Monster的平均广告百分比。
  • 2019年平均值与2018年平均值相同,仅适用于2019年12月4日。这些数据显示在以上三个图表的第一个中。
  • 平均变化是2019栏减去2018。该信息来自以上三个图表中的第二个。
  • 百分比变化是从2018年到2019年的百分比变化。此数据在第三张图表上。
  • 2018年排名是相对于2018年其他关键字的排名。
  • 2019年排名是相对于2019年其他关键字的排名。
  • 等级变化是两年内等级的增加或减少。

我们可以从这些信息中学到什么?


不到14个月就发生了重大变化。

优胜者


Python仍然在马背上。到目前为止,这是最常用的关键字。从字面上看,是四个广告中的三个。自2018年以来,Python取得了可观的增长。

SQL是我们的后起之秀。他几乎在第二大平均值中超过了R。以这种速度,他很快将排在第二位。深度学习框架

显示出最大的增长PyTorch中,收益最大的关键字是。KerasTensorFlow

也显示出成功。Keras和PyTorch都爬了四步,TensorFlow爬了三步。请注意,PyTorch的平均值较低,而TensorFlow的平均值仍是PyTorch的两倍。云平台

技能越来越受欢迎。AWS出现在几乎20%的广告中,Azure出现在大约10%的广告中,并且爬了四个步骤。 这些是最先进的技术。



失败者


我们[R的平均值的最大跌幅。考虑到其他研究的结果,这一发现并不令人惊讶。作为编程语言,Python远远领先于R。尽管如此,R仍然非常受欢迎,出现在55%的广告中。如果您拥有R,请不要失望,但如果您想获得更抢手的技能,也可以考虑学习Python。

许多Apache产品,包括PigHiveHadoopSpark失去他们的知名度。猪在排名中下降了五个位置-比其他任何技术都多。Spark和Hadoop仍然有很高的需求,但是根据我的发现,您可以看到大数据技术的趋势。

统计软件包MATLABSAS不再流行。MATLAB排名下降了四行,而SAS从第六下降到了第八。与2018年的平均水平相比,两种语言都显示出显着的百分比下降。

小费


此列表上有很多技术。当然,您不需要了解所有内容。难怪神话般的数据科学家被称为独角兽。

我的建议如下-如果您开始在这一领域工作,请专注于所需的技术。

浓缩。
上了。
学习中。
一。
技术。
背后。
时间。

(这是很好的建议,尽管我本人并不总是遵守

该建议。)我建议按照以下顺序学习:

  1. 学习Python进行常规编程。
  2. Pandas. , , data scientist Python Pandas Scikit-learn. Scikit-learn , Pandas . Pandas Matplotlib NumPy.
  3. Scikit-learn. «Introduction to Machine Leaning with Python».
  4. SQL .
  5. Tableau . , .
  6. . AWS – - . Microsoft Azure – . , Google Cloud, . , Google Cloud, , Data Engineer Google Cloud.
  7. . TensorFlow. «Deep Learning with Python» Keras . Keras TensorFlow, . PyTorch . , .

这些是我的一般学习技巧。使它们适应您的目标或锤击并做您想做的。



图片
通过参加SkillFactory在线课程,了解如何从头开始获得热门职业或技能和薪资水平提高的详细信息:



阅读更多



All Articles