为什么AI要求只会使情况更糟

通过创建更透明的神经网络,我们可以开始对它们过度信任。可能需要改变他们解释工作的方法。




曾在审判中的阿波·埃桑(Apol Esan)乘坐Uber的自动驾驶汽车。无需担心驾驶员座位空着,而是要求乘客观看“平静”屏幕,该屏幕显示了汽车的行驶方式:危险被标记为橙色和红色,安全区域为深蓝色。

对于在亚特兰大的乔治亚理工学院研究人与人工智能的交互作用的埃桑来说,他们试图传达给他的信息是可以理解的:“别担心,这就是机器以这种方式工作的原因。”但是,街道上外星人形象中的某些东西并不能让人放心,而是强调正在发生的事情的陌生感。埃桑纳闷:机器人能真正解释吗?

深度学习的成功取决于代码中的不确定性:最佳的神经网络会进行调整和适应以进一步改进它们,而实际结果将超过其理论理解。总之,通常不知道训练模型如何工作的细节。我们已经习惯于将AI视为黑匣子。

在大多数情况下,它都适合我们-当涉及播放go,翻译文本或选择Netflix的下一个系列等任务时。但是,如果使用人工智能来帮助在执法,医疗诊断和机器人车辆等领域做出决策,那么我们需要了解它是如何做出决策的,并知道何时发现它们是错误的。马萨诸塞州威廉姆斯威廉姆斯学院的IT专家Iris Hawley

人们需要有机会不同意或拒绝自动解决方案。没有它,人们将抵制这项技术。她说:“现在,您已经可以以人们对面部识别系统的反应的形式观察到这种情况的发生。”

埃桑(Esan)是一小组但不断壮大的研究人员的一部分,他们致力于提高AI的解释能力,并帮助我们凝视黑盒子。创建所谓的目的AI(III)的解释或解释是为了帮助人们了解神经网络实际上正在学习哪些数据符号,并确定结果模型是否准确无偏。

一种解决方案是创建机器学习(MO)系统,以展示其工作的内幕-所谓的水族馆AI,而不是黑匣子中的AI。水族馆模型通常是NS的根本简化版本,在其中,更容易跟踪单个数据如何影响模型。

“该社区中有人敦促在任何高风险情况下使用水族馆模型,”他说。微软研究院IT专家Jennifer Worthman Vaughn。 “总的来说,我同意。”在某些类型的结构化数据(例如表格或统计数据)上,简单的水族馆模型可以与更复杂的NS一样工作。在某些情况下,这就足够了。

但是,这一切都取决于工作领域。如果我们想从图像或文本等模糊数据中学习,我们别无选择,只能使用深层神经网络(因此是不透明的)。这种NS在大量不同功能之间找到有意义的联系的能力与其复杂性有关。

即使在这里,MO水族馆也可以提供帮助。一种解决方案是遍历两次数据,将不完善的水族馆模型训练为调试步骤,以捕获要修复的潜在错误。清理数据后,您还可以在黑匣子中训练更准确的AI模型。

但是,这样的平衡很难维持。透明度过高会导致信息过载。在2018 年的一项研究中,未经培训的用户与MO工具的互动进行了调查,沃恩发现透明模型实际上会使模型错误的搜索和纠正变得复杂。

另一种方法是包括显示模型和基础数据的几个关键属性的可视化。这个想法是通过肉眼识别严重问题。例如,模型可能过于依赖某些属性,这可能是偏差的信号。

这些可视化工具在短时间内变得非常流行。但是它们有什么用吗?在此类的第一个研究中,沃恩及其团队试图回答这个问题,并最终发现了几个严重的问题。

团队采用了两种流行的解释工具,它们借助图形和图表对模型进行了概述,并指出了模型在培训期间主要关注哪些数据。从Microsoft招聘了11名具​​有不同背景,背景和背景的AI专业人员。他们参加了与MO模型互动的模拟,并根据1994年美国人口普查的国民收入数据进行了培训。该实验是专门设计用来模拟数据科学家如何使用口译工具执行其日常任务的。

团队发现了一些惊人的发现。是的,有时工具可以帮助人们在数据中发现缺失的价值。但是,与对可视化工具过度信任的趋势以及对可视化工具的理解上的错误相比,所有这些用处都已消失。有时,用户甚至无法描述可视化演示的确切内容。这导致对数据集,模型和解释工具本身的错误假设。它也激发了人们对工具的错误信心,并激起了将这些模型付诸实践的热情,尽管有时参与者似乎有些地方出了问题。令人不愉快的是,即使对输出进行了特殊调整,它也仍然有效,因此对工作的解释毫无意义。

为了证实这一发现,研究人员对莫斯科领域的200名专业人员进行了在线调查,并通过邮件列表和社交网络吸引了他们。他们发现了类似的困惑和毫无根据的信心。

更糟的是,尽管许多调查参与者意识到他们不了解基本的数学原理,但他们还是愿意使用可视化来做出有关模型实现的决策。这项研究的合著者,密歇根大学的Harmanpreet Kaur说:“看到人们通过提出解释来证明数据中的奇异之处是令人惊讶的。” “自动化的失真是我们尚未考虑的非常重要的因素。”

哦,这是自动化的一种扭曲。换句话说,人们倾向于信任计算机。这不是一个新现象。根据研究,从飞机自动驾驶仪到拼写检查系统,无处不在,人们常常倾向于相信系统解决方案,即使他们显然错了。但是,如果使用专门为纠正这种现象而设计的工具来实现此目的,我们将面临更大的问题。

关于这个还能做什么?一些人认为,第三阶段第一波的部分问题与国防部的研究人员占主导地位有关,其中大多数是使用人工智能系统的专家。墨尔本大学的蒂姆·米勒(Tim Miller)研究了人们对人工智能系统的使用情况:“这是一家在心理控制下的精神病医院。”

这就是Esan在没有驾驶员的情况下在Uber汽车后座上实现的。如果以人的方式解释其动作,则更容易理解自动化系统的功能-并查看错误之处。 Esan和他的同事Mark Riddle正在开发一种MO系统,该系统会自动以自然语言生成类似的解释。在早期的原型中,这对夫妇采用了一个神经网络,经过训练可以玩1980年代的经典游戏Frogger,并经过训练可以在每次动作前给出解释。


在汽车之间...我无法通过...我会等待差距...

为此,他们向系统展示了许多有关人们如何玩游戏的示例,并大声地评论了动作。然后,他们采用了从一种语言转换为另一种语言的神经网络,并对其进行了调整,以将游戏动作转换为自然语言的解释。而现在,当国民议会看到游戏中有一个动作时,它将“翻译”成一个解释。结果就是AI玩了Frogger,上面写着“每走一步,就向左移动到蓝色卡车后面”。

Esan和Riddle的工作仅仅是开始。首先,尚不清楚MO系统是否始终能够以自然语言解释其动作。以DeepMind的AlphaZero玩棋盘游戏。该程序最令人惊奇的功能之一是,它可以做出人类玩家甚至在游戏的那个特定时刻都无法想到的制胜法宝。如果AlphaZero可以解释其举动,那是否有意义?

不管我们是否理解,原因都可以提供帮助,Esan说:``以人为本的III的目标不仅是让用户接受AI的说法-还引起一些思考。''里德尔回忆起观看DeepMind AI与韩国冠军李·塞多尔(Lee Sedol)比赛的广播。评论员讨论了AlphaZero的看法和想法。 “但是AlphaZero不能那样工作,” Riddle说。 “但是,在我看来,这些评论对于理解正在发生的事情是必要的。”

而且,尽管新一轮的III研究人员同意,如果更多的人使用AI系统,那么这些人应该从一开始就参与设计-不同的人需要不同的解释。霍利及其同事的一项新研究证实了这一点,他们在研究中表明人们理解交互式或静态可视化的能力取决于他们的教育程度。想象一下,人工智能正在诊断癌症。我希望他给肿瘤科医生的解释与对患者的解释有所不同。

最终,我们希望AI不仅能够向使用数据和医生的科学家解释,还可以向使用图像识别系统的警察,在学校使用分析程序的老师,试图理解社交网络上磁带工作的学生进行解释-以及之前机器人后座上的任何人。“我们一直都知道人们倾向于过分信任技术,这对于AI系统尤其如此,” Riddle说。“您越频繁地将系统称为智能系统,就越有更多的人相信它比人们更智能。”

每个人都可以理解的解释可能会破坏这种幻想。

All Articles