👨‍👧‍👦 📎 👩🏿‍🔧 研究人员正在开发一种减少计算机视觉数据集中偏差的方法 ⤴️ 🤟🏻 🐬

该文章的翻译是专门为计算机视觉课程的学生准备的。

2020年2月14日，
普林斯顿大学工程系。

简介：
为了解决人工智能中的偏见问题，计算机科学家开发了一些方法来获取包含人的图像的更可靠的数据集。研究人员正在提供ImageNet的增强功能，ImageNet是一个包含1400万张图像的数据库，在过去十年中，它在计算机视觉的发展中发挥了关键作用。

ImageNet包含对象，风景以及尤其是人的图像，是培训数据的来源，供研究人员创建机器学习算法，以对图像进行分类或识别图像上的各个元素。 ImageNet前所未有的规模要求使用众包进行自动图像收集和注释。尽管研究界很少使用数据库中人物的图像类别，但ImageNet团队致力于消除与人物图像相关的偏见和其他许多问题，这些是ImageNet设计的意外结果。

普林斯顿大学计算机科学助理教授Olga Russakovskaya说：“如今，计算机视觉已经足够好运行，可以在各种环境中的任何地方实施。” “这意味着现在是时候谈论它如何影响世界并考虑信誉问题了。”

在一篇新文章中，ImageNet团队针对ImageNet人类图像类别系统地识别了非视觉概念和令人讨厌的类别，例如种族和性特征，并建议将其从数据库中删除。研究人员还开发了一种工具，该工具可使用户识别并获取按年龄，性别和肤色平衡的人像集，以促进采用合适的算法来更可靠地对人脸及其在图片上的行为进行分类。 1月30日，研究人员在西班牙巴塞罗那计算机技术协会的准确性，可靠性和透明性会议上介绍了他们的工作。

Russakovskaya继续说道：“将具有基本技术经验的实验室和研究人员的注意力吸引到讨论中非常重要。” “鉴于我们需要大规模收集数据，并且将使用众包来实施（因为这是最有效且经过充分验证的渠道），因此出现了一个问题-我们如何做到这一点以确保最大程度地可靠性而不踩熟悉的耙子？本文主要关注设计解决方案。”

普林斯顿大学和斯坦福大学的一群计算机科学家于2009年启动了ImageNet，作为研究人员和教育工作者的资源。普林斯顿大学的毕业生和现任斯坦福大学计算机科学教授的Fay-Fay Lee领导了这项倡议。为了鼓励研究人员使用ImageNet创建更好的计算机视觉算法，该团队还发起了ImageNet大规模视觉识别挑战赛。比赛主要集中在使用1000类图像识别物体上，其中只有三个具有人物特征。

ImageNet中的某些可靠性问题源于用于创建数据库的管道。它的图像类别来自WordNet，WordNet是用于自然语言处理研究的旧英语单词数据库。 ImageNet的创建者从WordNet借用了名词-尽管其中一些是定义明确的口头术语，但其中的一些名词很难翻译成视觉词典。例如，描述一个人的宗教信仰或地理起源的术语只能提取出最突出的图像搜索结果，从而可能导致算法增强刻板印象。

最近一个名为ImageNet Roulette的艺术项目引起了人们对这些问题的关注。该项目于2019年9月发布，是致力于图像识别系统的艺术展览的一部分，该项目使用了来自ImageNet的人物图像来训练一种人工智能模型，该人工智能模型根据所呈现的图像对单词进行分类。用户可以上传他们的图像并获得基于此模型的标签。许多分类都是令人反感或根本没有根据的。

使ImageNet创建者积累如此大的带标签图像数据库的主要创新是众包的使用，特别是Amazon Mechanical Turk（MTurk）平台，在该平台中，员工获得了报酬来验证候选图像。尽管这种方法是革命性的，但它还是不完善的，这导致了一些有偏见和不适当的类别。

“当您要求人们通过从各种各样的候选人中进行选择来检查图像时，人们会感到选择的压力，并且这些图像往往具有鲜明或刻板的特征，”计算机科学专业的研究生Kayu Young说。。

在研究过程中，Jan和他的同事首先从ImageNet过滤掉了潜在的辱骂或敏感类别的人。他们认为令人反感的类别包括亵渎，种族或性别侮辱；敏感类别包括，例如，根据性取向或宗教信仰对人进行分类。为了注释类别，他们招募了来自各行各业的12名研究生，指示他们如果不确定则将类别标记为敏感。因此，他们排除了1593个类别，约占ImageNet上2932个类别的54％。

然后，研究人员向MTurk员工寻求帮助，以便他们以1-5的等级对其余可接受类别的“图像”进行评级。选择图像等级为4或更高的类别导致只有158个类别被归类为可接受且非常富于想象力的事实。即使是经过精心筛选的一组类别，也包含超过133,000张图像-用于计算机视觉算法教学的大量示例。

在这158个类别中，研究人员研究了图像中人物的人口统计学表征，以评估ImageNet中的偏见程度，并开发出一种方法来创建更合适的数据集。 ImageNet内容主要来自以图像为目标的搜索引擎，例如Flickr。总体而言，搜索引擎趋向于返回更大程度地代表男性，皮肤白皙的人以及18至40岁成年人的结果。

“人们发现图像搜索结果在人口分布方面存在很大偏差，因此ImageNet也具有偏差分布，” Young说。 “在本文中，我们试图评估偏差的程度，并提出一种平衡分配的方法。”

研究人员已经确定并审查了受美国反歧视法律保护的三个属性：肤色，性别和年龄。 MTurk的工作人员被要求注释图像中每个人的每个属性。他们将肤色分类为浅色，中度或深色。并按儿童（18岁以下），18至40岁的成年人，40至65岁的成年人或65岁以上的成年人的年龄分类。
性别分类包括男人，女人和不确定的性别，这是一种将具有不同性别表达方式的人包括在内的方法，以及注释无法通过视觉标志感知性别的图像（例如，许多孩子或潜水员的图像）。

对注释的分析表明，与搜索结果一样，ImageNet内容反映出明显的偏差。在大多数类别中，标记为黑人，女性和40岁以上成年人的人数均不足。

尽管注释过程包括质量控制并要求注释者达成共识，但由于担心不正确注释的潜在危害，研究人员选择不对单个图像发布人口统计学注释。相反，他们开发了一个基于Web的工具，该工具允许用户检索以用户指定的方式进行人口统计学平衡的一组图像。例如，程序员类别中的图像的完整集合可以包括大约90％的男性和10％的女性，而在美国，大约20％的程序员是女性。研究人员可以使用新工具来获取一组代表80％的男性和20％的女性的程序员图像-甚至可以单独获得，这取决于研究者的目标。

Young表示：“我们不想谈论如何平衡人口统计信息，因为这不是一个非常简单的问题。” “分布在世界不同地区可能有所不同-例如，美国的肤色分布与亚洲国家的分布不同。因此，我们将这个问题留给用户，只提供一种提取图像的平衡子集的工具。“

ImageNet团队目前正在研究其设备和数据库本身的技术更新，此外还实现了面部过滤和本研究中开发的重新平衡工具。 ImageNet将很快随这些更新一起重新发布，并要求计算机视觉研究人员社区提供反馈。

Princeton博士Clint Kinami和计算机科学副教授Jia Dang与Young，Lee和Russakovskaya合着。该研究得到了美国国家科学基金会的支持。

资料来源：普林斯顿大学工程系提供的

材料。原文由莫莉·夏拉赫（Molly Charlach）撰写。P 注意：内容可以根据样式和长度进行修改。链接： 杨开宇，克林特·奇南，李飞飞，贾登，奥尔加·鲁萨科夫斯基。迈向更公平的数据集：过滤和平衡ImageNet层次结构中人员子树的分布。2020年公正性，问责制和透明度会议的论文集，2020年DOI：10.1145 / 3351095.3375709

了解有关该课程的更多信息

研究人员正在开发一种减少计算机视觉数据集中偏差的方法

More articles: