大数据神话与数字文化



我们将继续发布由Jet Infosystems组织AIIF年度论坛RAIF的最有趣的报告今天,我们要分享物理和数学科学博士,HSE计算机科学系教授Boris Asenovich Novikov的故事。

大数据神话与数字文化


在我们的案例中,“大”一词更多地是指神话而不是数据,因此,我将主要介绍前者,但在后者的背景下。由于我假装在科学界工作了几十年,因此我将首先定义它看起来像是准确的知识。


神话是社会文化不可或缺的一部分,它们一直存在并继续在现代世界中出现。我举个例子:


较大的听众应该记住2000年左右的噪音,实际上这是从客户那里取钱的400种相对诚实的方式之一,仅此而已。当然,灾难并没有发生。

关于软件工程,有很多神话-有很多不同的观点,我现在将不再专注于这个主题。

自上而下的一项举措将我引向了这份报告:在我工作的大学里,有必要向从幼儿园到研究生院的所有人讲授数字素养。没有人知道这是什么,我粗鲁地向管理层承认我大致了解该怎么做...并被抓住了。有必要在一个程序中学习不同的专业:


我对此事的主要贡献是我将本课程从“数字素养”重命名为“数字文化”。

在一个国际会议上,我听到了这样的说法:为了引起听众的注意,您需要在报告中至少添加一些暗示性的内容,因此:几年前,在新闻界(特别是在俄罗斯)对该案进行了广泛讨论。一名美国女学生开始为孕妇发送广告(故事的性爱内容到此为止),然后一家人提起诉讼,但最终不得不撤回诉讼……因为这名女孩确实怀孕了。他们说,历史引起了很大的轰动,这些分析师比我们对我们了解更多(这不太可能)!这一切都是非常危险的,有必要加强防御。神话由此诞生:

  1. 大数据极其危险
  2. 他们比我们更了解我们。
  3. 需要采取额外的安全措施

不要误会我的意思:安全很重要,但让我们看看如何专业评估这种情况。


可以得出什么结论?有时分析可以得出正确的结果,我们也可以说有时我们一无所知。

我的朋友和同事提请注意以下事实:随机邮寄有时也会产生正确的结果,除非评估任何定量指标,否则我们就无法说出邮寄的质量。首先,有必要评估完整性和准确性。

我从外国背景中借鉴了以下类型的神话。例如,在SIGMOD 2019顶级数据处理会议之一上,就“负责任的数据科学”主题进行了小组讨论(或我们所说的圆桌会议)。他们讨论了如何不负责任地使用数据分析工具,机器学习等的示例。例如,他们引用了从眼睛的照片确定一个人的性别的故事。人们为此进行了长达数年的研究,其准确率高达80%,直到怀疑论者发现实际上他们确定化妆品的存在与否。

出于好奇,但这是一个绝对危险的例子:我们正在谈论使用机器学习方法从照片中识别罪犯。事实证明,在这个学习系统的工作原理中,存在政治正确性的问题:首先,他们根据种族给出不同频率的假阳性答案,其次,后来,事实证明,他们确定微笑的存在与否。照片,仅此而已。但是,尝试使用此系统,如果意见分歧,应该使用结果的人员应该写一份书面说明,说明为什么他们不同意系统产生的结果。这是神话如何对社会构成危险的一个例子。


由于某些原因,我们在谈论数据科学,尽管我们在谈论工业应用。在所有其他领域-计算机科学,但...软件工程。数学物理学方程式和某种桥梁建筑,还是其他?同事们,科学家们不可信赖!我想认为数据科学属于“科学”部分,但不幸的是,数据工程的用语已经被另一个概念所接受。

无论准备和专业如何,我都会通过整个大学课程的设计来重温故事。右侧的图片(天鹅,癌症和长矛)显示了各大学各部门代表组成的团队的工作方式。


但是,我们试图做一些合理的事情。这个想法是要展示每个研究人员可以为自己做的简单事情,而不管他从事的工作领域如何。此外,为了使他可以了解到什么时候(这是最重要的!),您需要联系数据处理专业人员。我尝试避免为初学者准备这样的食谱(但很少有),例如“使添加成为流行但不实用的指南”。

因此,神话是不可避免的,我们必须理解,我们仍然必须应对它们。神话是许多错误,失败和问题的根源,有时甚至是危险的-盲目使用神话般的“知识”可能会带来负面后果。

除了我们正在开发技术这一事实之外,还必须对社会进行教育,这是一个永远不会完全解决的长期关切,因为人类通常不会像技术一样快地发展。对人的教育要比人工智能(神话的来源之一)难得多。我们需要学习如何避免这种危险以及如何使用它。

All Articles