🧡 ⏪ 🏒 大数据神话与数字文化 🔕 👎 👻

我们将继续发布由Jet Infosystems组织的AIIF年度论坛RAIF的最有趣的报告。今天，我们要分享物理和数学科学博士，HSE计算机科学系教授Boris Asenovich Novikov的故事。

大数据神话与数字文化

在我们的案例中，“大”一词更多地是指神话而不是数据，因此，我将主要介绍前者，但在后者的背景下。由于我假装在科学界工作了几十年，因此我将首先定义它看起来像是准确的知识。

神话是社会文化不可或缺的一部分，它们一直存在并继续在现代世界中出现。我举个例子：

较大的听众应该记住2000年左右的噪音，实际上这是从客户那里取钱的400种相对诚实的方式之一，仅此而已。当然，灾难并没有发生。

关于软件工程，有很多神话-有很多不同的观点，我现在将不再专注于这个主题。

自上而下的一项举措将我引向了这份报告：在我工作的大学里，有必要向从幼儿园到研究生院的所有人讲授数字素养。没有人知道这是什么，我粗鲁地向管理层承认我大致了解该怎么做...并被抓住了。有必要在一个程序中学习不同的专业：

我对此事的主要贡献是我将本课程从“数字素养”重命名为“数字文化”。

在一个国际会议上，我听到了这样的说法：为了引起听众的注意，您需要在报告中至少添加一些暗示性的内容，因此：几年前，在新闻界（特别是在俄罗斯）对该案进行了广泛讨论。一名美国女学生开始为孕妇发送广告（故事的性爱内容到此为止），然后一家人提起诉讼，但最终不得不撤回诉讼……因为这名女孩确实怀孕了。他们说，历史引起了很大的轰动，这些分析师比我们对我们了解更多（这不太可能）！这一切都是非常危险的，有必要加强防御。神话由此诞生：

大数据极其危险
他们比我们更了解我们。
需要采取额外的安全措施

不要误会我的意思：安全很重要，但让我们看看如何专业评估这种情况。

可以得出什么结论？有时分析可以得出正确的结果，我们也可以说有时我们一无所知。

我的朋友和同事提请注意以下事实：随机邮寄有时也会产生正确的结果，除非评估任何定量指标，否则我们就无法说出邮寄的质量。首先，有必要评估完整性和准确性。

我从外国背景中借鉴了以下类型的神话。例如，在SIGMOD 2019顶级数据处理会议之一上，就“负责任的数据科学”主题进行了小组讨论（或我们所说的圆桌会议）。他们讨论了如何不负责任地使用数据分析工具，机器学习等的示例。例如，他们引用了从眼睛的照片确定一个人的性别的故事。人们为此进行了长达数年的研究，其准确率高达80％，直到怀疑论者发现实际上他们确定化妆品的存在与否。

出于好奇，但这是一个绝对危险的例子：我们正在谈论使用机器学习方法从照片中识别罪犯。事实证明，在这个学习系统的工作原理中，存在政治正确性的问题：首先，他们根据种族给出不同频率的假阳性答案，其次，后来，事实证明，他们确定微笑的存在与否。照片，仅此而已。但是，尝试使用此系统，如果意见分歧，应该使用结果的人员应该写一份书面说明，说明为什么他们不同意系统产生的结果。这是神话如何对社会构成危险的一个例子。

由于某些原因，我们在谈论数据科学，尽管我们在谈论工业应用。在所有其他领域-计算机科学，但...软件工程。数学物理学方程式和某种桥梁建筑，还是其他？同事们，科学家们不可信赖！我想认为数据科学属于“科学”部分，但不幸的是，数据工程的用语已经被另一个概念所接受。

无论准备和专业如何，我都会通过整个大学课程的设计来重温故事。右侧的图片（天鹅，癌症和长矛）显示了各大学各部门代表组成的团队的工作方式。

但是，我们试图做一些合理的事情。这个想法是要展示每个研究人员可以为自己做的简单事情，而不管他从事的工作领域如何。此外，为了使他可以了解到什么时候（这是最重要的！），您需要联系数据处理专业人员。我尝试避免为初学者准备这样的食谱（但很少有），例如“使添加成为流行但不实用的指南”。

因此，神话是不可避免的，我们必须理解，我们仍然必须应对它们。神话是许多错误，失败和问题的根源，有时甚至是危险的-盲目使用神话般的“知识”可能会带来负面后果。

除了我们正在开发技术这一事实之外，还必须对社会进行教育，这是一个永远不会完全解决的长期关切，因为人类通常不会像技术一样快地发展。对人的教育要比人工智能（神话的来源之一）难得多。我们需要学习如何避免这种危险以及如何使用它。

大数据神话与数字文化

大数据神话与数字文化

More articles: