初学者数据科学家会陷入的三个陷阱

如果您不擅长数学,就会发生这种情况。





你好!这是OTUS 在线课程“数据科学的数学”的作者兼负责人Petr Lukyanchenko 在课堂上,我们喜欢用案例来说明所有事情,因此,在这里,对于初学者遇到的每个问题,我也将从一个例子开始。

历史第一, , , . , -, , . , 0,95. , «», , . , , , , .

— , , - ?



在我们的故事中,受训者不正确地准备了数据,因为他不了解要假设什么样的依赖性。这是数据分析新手最常犯的危险错误。

在所有课程中,我们广播两件事:

  1. 任何分析都应从假设开始
  2. 该假设可能是错误的。犯错并不可怕,及时了解,纠正和继续分析很重要。

提出假设的能力随后在数据上进行测试,这给数据科学的初学者,实习生和年轻专家带来了最大的困难。通常,他们非常了解统计信息,但是没有经验,因此他们常常盲目地认为度量标准的高价值表示其结果有效。因此,新来者常常受到获得高相关值的渴望的驱使。但是,本身的高度相关性并不能保证对权利的依赖!

虚相关(回归)通常很有趣。您可以采用任意两个参数,如果每个参数都具有趋势成分,则估计的相关性将接近于统一,而参数本身可能没有任何关系。

例如,某人研究格陵兰的冰川,并决定查看季风季节泰国的降水量如何影响冰的融化速率。在给定的时期内,这两个变量都增加,也就是说,它们具有一些趋势成分:在泰国,在高温时期和冰川融化更快的同时,降水量增加。如果我们认为相关性是“正面的”,它将接近于统一,这意味着这些值之间存在直接的关系。因此,在进行分析之前,您必须首先使用数据-清除趋势成分,即下降趋势并获得每日增加值。现在,这些Δx变量用于获得相关性。这是一件非常简单的事情,但是仍然可以显着提高分析质量。

历史2号 . - , — . , : , . ?

, , . , , , , .

如果不考虑外部因素,这是校准时间段的错误选择,这是当模型最初失效时最常见的错误。


像黑匣子一样将数据加载到模型中


在数据科学领域的几年快速发展中,人类积累了令人印象深刻的数据处理模型和方法库。这非常好-它们可以用于解决普通问题,许多专家不仅是初学者,而且是经验丰富的专家都诉诸于此。危险是采用完成的模型,只是将数据粘贴到其中,并在输出中获得一些预测值。经验丰富的专家始终使用数学工具来测试方法并将其适应任务。

对于初学者来说,起初很难确定现有数据中经验分布的恢复。即使是新手专家成功地在库中选择了合适的方法,还是高级同事帮助他建立了模型,另一个危险在于等待他:在任何时候,数据行为的性质可能会发生变化,或者时间序列的内部过程可能会发生变化。这意味着您需要快速重新校准模型,因为其准确性降低了,结果,整个预测的有效性下降了。为了抓住这一点并调整模型,您需要拥有统计方法并了解其工作原理。

即使该方法是使用Python编程的并且位于框中,也必须至少手动显示一次以了解其工作原理。如果您在项目中遇到此方法并且需要对其进行调整,那么您将已经知道需要在哪些链中执行哪些步骤。

历史第3号。 假设您有一个数据矩阵,每10,000列10,000行。每对元素相乘需要30毫秒,也就是说,您的算法将处理数据超过一个小时!如果是十亿到十亿矩阵?还是您需要运行很多这样的算法?

原始矩阵


经常发生新来者在分析之前不处理或准备矩阵的情况。结果,该过程浪费了他们的额外时间和精力。为了简化和加快矩阵运算,专家使用线性代数的工具。它的工作原理是:将现有的数据矩阵投影到低阶子空间中,从而暂时减小其维度。

您可以在我们的在线课程“数据科学数学”中学习如何做所有这一切。基本级别旨在从学校课程中进行培训,并侧重于数学部分。如果您曾经(甚至很长时间)学习过高等数学或者已经具有数据科学方面的经验,则应该进入高级水平。在高级级别,我们分析用于不同任务的数据分析方法。在课程的最后,学生进行设计工作:他们尝试手动实现其中一种方法,以了解其布置方式并修改其中的一部分。入学考试将帮助您确定水平。

您将在课堂上掌握的理论和实践技能对于中级专家来说是必不可少的,但它们在专业开始时也会很有用。我们在数据科学领域的合作伙伴雇主中进行了一项调查,发现他们中有一半以上愿意聘用具有数学知识的实习生,即使他不知道如何使用Python库也是如此。

另外,如果您工作或仅看Data Science,我邀请您订阅Data Street电报频道,在这里我分享我的经验,并从数学,数据分析和机器学习领域中收集有用的材料。我很高兴在OTUS课程中与您见面!

通过单击以下链接,您可以了解有关课程的更多信息,以及通过入学考试以测试您的知识:


All Articles