🤙🏿 👩🏾‍🔧 🚎 为什么机器学习使用“合成”数据 🦑 💞 💂🏼

我们讨论IT界和行业专家的意见。我们还考虑了几个项目，它们在其中开发了用于生成“人工”数据的工具。其中之一由美国国家安全局和Google的移民代表。

照片-Franki Chamaki-未飞溅

MO问题

某些MO算法需要结构化数据才能正常工作。例如，为解决机器视觉问题，它们由ImageNet项目提供-在其数据库中有1400万张图像，分为22,000个类别。使用如此大规模的设备正在获得回报。仅在3.75％的情况下，使用它的算法就无法确定照片中的对象。作为比较-在人类中，这个数字超过5％。

但是为每个任务创建像ImageNet这样的数据集是不可能的。至少因为其中的记录是手动标记（或检查）的。同时，所有开发人员和数据科学家都可能无法访问真实数据（例如，银行或医疗）。但是，即使存在此类数据，也必须在处理之前将其匿名化。

通过解决这些困难，综合数据将有所帮助。它们是人造的，是计算机生成的，但看起来却很真实。

谁在这个领域工作

许多大学，IT公司和初创公司都参与了这一领域的项目。例如，Gretel编写了基于真实数据集生成人工数据集的软件。该公司由一群来自Google，亚马逊和美国国家安全局（NSA）的移民创立。

首先，他们的平台分析可用信息。工程师以 Uber电动踏板车为例。 Gretel 对它们进行分类并标记它们，然后使用差分隐私方法对它们进行匿名化。输出是“完全人工的数据集”。决策者的代码发布在GitHub上。伊利诺伊大学香槟分校的

一个类似项目也得到了实施。工程师已经编写了一个Python库，该库可用于生成结构化CSV，TSV和部分结构化JSON，Parquet和Avro格式的综合数据。在第一种情况下，专家使用生成竞争网络，在第二种情况下，使用递归神经网络。

综合数据的有效性如何？

它们为数据科学家和开发人员提供了在尚无大数据的地区为项目训练模型的机会。根据对亚历克斯·沃森，格莱特的创始人之一，在许多情况下有足够的价值，只是看起来像真正的用户的。

Gartner估计，到2022年，将有40％的MO模型在合成数据集上进行训练。

人工智能系统公司Haze的负责人已将技术传播与其“灵活性” 联系起来。人工信息更易于补充和修改，以提高训练模型的有效性。

还有许多与计算机视觉有关的任务，在这些任务中很难使用合成数据集以外的其他功能，例如在机器人技术中。在设计工业机器人和无人驾驶车辆时，会使用强化学习。在这种情况下，人工智能系统通过与特定环境直接交互来学习。根据该环境的响应，机器人会调整其动作。

但是，无人机无法走出去并通过反复试验确定行人不能被“压死”。因此，工程师求助于合成数据-他们在虚拟空间中模拟环境。例如，Nvidia 为此类实验提供了解决方案。还使用Grand Theft Auto V游戏引擎对机器培训进行了研究。

照片-Andrea Ang -Unsplash

尽管人工数据有很多优点，但它们也有缺点。他们被认为即使是根据真实数据生成的，准确性也会降低，并且可能导致模型在实际结果中生成可信但不可复制的模型。但是，一位参与Hacker News主题活动的居民指出，这并不是一个大问题。人造数据可用于测试智能系统的算法。

Hacker News的另一位用户说，类似的技术使模型的学习过程复杂化，并增加了开发成本。伊利诺伊大学的一位专家证实了他的话-差异可以达到50％。

在任何情况下，合成数据集都不能视为“银色子弹”。这只是可以帮助解决某些问题的工具。但是随着时间的流逝，这个频谱可能会迅速扩展。

^{我们在公司博客中写的内容：

一台拒绝死亡的计算机，
“拿脚印，去周末”：如何从最受欢迎的服务中
脱身？哪些工具将帮助GDPR匹配
“几乎无政府状态”：Fidonet的简要历史，该项目“无关紧要” “为了赢得互联网的胜利}

为什么机器学习使用“合成”数据

MO问题

谁在这个领域工作

综合数据的有效性如何？

More articles: