如何评估智力?谷歌方法

我本人:

2019年11月,由Google撰写的程序化文章, Francois Schollet(Keras的创建者)Francois Schollet撰写。
64页专着介绍了现代对AI的理解是如何出现的,为什么机器学习离它如此遥远以及为什么我们仍然不能充分地衡量“智能”。


为了使选择公平,所有人的任务是一个:爬树

考虑到BERT等通用变压器的最新趋势,我们的团队致力于NLP和AI测试的通用方法,并通过逻辑和常识测试对它们进行了评估。因此,NLP承担了与再现日益复杂的动作有关的所有新任务,并且实际上反映了思维机制。事实证明,ML的其他领域都朝这个方向努力。例如,CV-“ 动物AI挑战 ”。

很明显,现在,如果可能的话,使ML模型更具可解释性是“更好”的,不是使用10个小的分类器,而是训练一个模型,依此类推,但与真正的“智能”相距多远?

扰流板:
.

该计划文章对现代AI技术评估领域的研究进行了详细而具有破坏性的分析。

在文章的最后,作者为此提供了自己的测试和数据集:与抽象思维相关的抽象和推理语料库(ARC)。

但是更多的东西。

“关于智力测度”的概要


为了有意识地创建更智能和更像人类的人造系统,我们需要对智能及其定义能力有一个清晰的定义。为了正确比较两个系统或一个人的系统,这是必需的。在过去的一个世纪中,在心理学领域和AI领域都进行了许多尝试来确定和衡量智力。

现代的机器学习社区仍然喜欢比较AI和人们展示的技能-在玩桌上游戏和电脑游戏时,在解决问题时。但是,要评估智力,仅衡量解决任务的能力还不够。为什么?因为这种能力在很大程度上不是由智力决定的,而是由先前的知识和经验决定的。您可以“购买”它们。通过向系统提供无限数量的培训数据或初步信息,实验人员不仅可以将机器提高到任意水平,而且还可以隐藏系统本身在智能化方面的能力。

该文章提出1)基于技能获取有效性的新的正式智力定义;2)形成抽象和逻辑结论的能力的新测试(抽象和推理语料库,ARC)。ARC可用于测量人类强大的移动智能形式,这使您可以在数值上比较AI和人类系统的相对强大的智能。

需要对情报及其度量有一个实用的定义。


人工智能开发的目标是创建具有与人的智能相当的智能的机器。 (因此,自20世纪50年代初人工智能诞生以来就制定了这一目标,此后一直保留了这一表述)。

但是,尽管我们可以创建可以完成特定任务的系统。这些系统是不完善的:它们非常脆弱,需要越来越多的数据,无法理解稍微偏离训练集的示例,并且在没有人工帮助的情况下也无法重新配置以解决新问题。

原因是我们仍然不能明确回答什么是智力问题。现有的测试(例如,图灵测试[11]和勒布纳奖[10])不能作为进步的驱动力,因为它们完全排除了客观地确定和衡量智力的能力,而是依靠主观评估。

我们的目标是指出行业中的隐性偏见,并为实用的定义和标准提供实用的定义,以评估像人一样的强智。

智力的定义:两种相互矛盾的方法


AI的基本定义是:“智能衡量代理在广泛环境中实现目标的能力。” 什么都没解释

现代科学中的整个冲突归结为自然智能的起点:

  • 思维是静态的一组特殊目的机制,这些机制是通过进化形成的,显然可以完成某些特定任务。达尔文主义,进化心理学和神经生理学家的这种观点支持意识的生物模块性概念
    Marvin Minsky还开发了将思维理解为范围广泛的垂直的,相对静态的程序,这些程序共同构成了“智能”,最终使人们将AI理解为模拟给定测试任务列表上的人类结果。
  • 禁忌表:头脑是不确定目的的“干净表”,能够将任意经验转化为知识和技能以解决任何问题。这是艾伦·图灵和联系主义者的观点在这种理解下,智能是通过超级计算机的隐喻来表示的,其低级的机制使“从头开始”,“根据数据”获得无限的技能成为可能。

这两个概念目前都被认为是无效的。¯\ _(ツ)_ /¯

人工智能评估:从技能评估到广泛能力评估


给定数据集的测试已成为AI领域进步的主要驱动力,因为它们具有可重复性(测试集是固定的),公平(测试集对于每个人都是相同的),可扩展的(重复重复测试不会导致高成本)。许多流行的测试-DARPA大挑战[3],Netflix奖-为ML模型新算法的开发做出了贡献。

有了积极的成果,即使是通过最短路线获得的成果(过度拟合和拐杖),预期的质量水平也在不断提高。麦考达克称其为“人工智能效应”:“每次有人想出一种新的方法来使计算机做一些新的事情(播放检查器),批评者说:“这并不是在“必然出现” [7]。当我们确切地知道机器如何“智能”地做某事时,我们就不再认为它是智能的。

之所以会出现“ AI效应”,是因为使用智能的过程(例如,学习神经网络下棋的过程)和由该过程创建的工件(结果模型)是混乱的。混淆的原因很简单-在一个人中,这两件事是密不可分的。

为了摆脱仅评估工件的能力以及学习和获得新技能的能力,他们引入了“概化范围”的概念,在该范围中,系统采用渐进值。

  • 缺乏概括没有不确定性和新颖性的AI系统并没有表现出概括的能力,例如:玩井字游戏的程序,它通过详尽地搜索选项而获胜。
  • 局部概括或“可靠性”是系统针对单个任务处理来自已知分布的新点的能力。例如,图像分类器执行了局部分类,在训练了许多相似的猫和狗图像之后,该分类器可以将以前看不见的猫的图像与狗的相似格式图片区分开。
  • , «» — : , , « ». , , « » ( ) [16], .
  • . , , — « ». ( , , ).

AI的历史是缓慢发展的历史,始于没有证明泛化能力的系统(符号AI),最后是能够进行局部泛化的可靠系统(机器学习)。

我们目前正处于一个新阶段,我们正在努力创建灵活的系统-人们越来越关注使用各种测试任务来评估开发灵活性的系统:

  1. 自然语言处理参考标准GLUE [13]和SuperGLUE [12]
  2. 强化学习代理的街机学习环境[1],
  3. 人工智能“马尔摩计划”的实验研究平台,
  4. 行为套件实验集[8]

除了这种多任务测试之外,最近还提出了两组测试来评估泛化能力,而不是解决特定问题的能力:

  1. 动物AI奥林匹克奥林匹克运动会[2](animalaiolympics.com
  2. 和GVG-AI竞赛[9](gvgai.net)。

两种测试均基于这样的假设:应该通过解决AI代理较早地未知的一组任务或游戏来评估其学习或规划(而非特殊技能)。



新概念


如果不同人的认知能力水平不同,如何将人工智能与人进行比较?

不同能力者的智力测验结果可能会吻合-这是认知心理学的一个众所周知的事实。他表明认知是一个多维对象,具有金字塔形的层次结构,具有广泛和狭窄的技能,最重要的是一般智力。但是,“强大的智力”真的是认知金字塔的顶端吗?

定理“ 没有免费的饭菜”” [14,15]告诉我们,当对每个可能任务的平均性能进行平均时,任何两种优化算法(包括人类智能)都是等效的。也就是说,为了获得高于随机的性能,必须针对目标任务对算法进行优化。但是,在这种情况下,“任何可能的任务”是指在主题区域上均匀分布。与我们的宇宙特别相关的任务分配不符合这样的定义。因此,我们可以提出以下问题:人类智力因素是否普遍存在?

实际上,到目前为止,人们收集到的有关其周围因素的认知能力的信息太少了-其他人(在不同的文化中,“智力”的评估方式不同)和动物,例如章鱼或鲸鱼。

显然,人类智能还远未普及:它不适合我们先天知识无法适应的大量任务。

例如,人们在思维上与诸如导航之类的进化上熟悉的任务相交时,可以非常有效地解决多项式复杂性的一些小问题。因此,一个点数少的旅行商问题可以由一个人使用感知策略在几乎线性的最佳时间内几乎最优地解决[6]。但是,如果不是“寻找最短路径”而不是让他找到最长路径[5],那么一个人会比最简单的启发式算法之一-“远邻”算法差很多。



作者认为,人类认知的发展与人的身体能力的发展相同:两者都是在进化过程中发展的,目的是解决特定环境中的特定问题(这些任务称为“ 四个F”“-四个基本本能:战斗,逃跑,进食和私通:殴打,奔跑,进食和繁殖。

这项工作的主要信息是“强大的情报”是无法确定为二进制的系统属性:“无论是不是”。不,这是一个范围,取决于:

  1. 范围可能更大或更小;
  2. 系统将先验知识和经验转化为给定领域的新技能的效率;
  3. 所考虑区域中各个点所代表的概括的复杂程度。

一个智能应用领域与另一个智能领域相比,其“价值”绝对是主观的-我们对系统的应用领域不会与我们重叠的系统不感兴趣。而且他们甚至不会考虑这种系统的知识分子。

?


  • , .
  • ( ).
  • :
    ◦ , – , ,
    ◦ , – (), () ( )
  • 他必须控制培训期间系统使用的经验量。通过选择无限的培训数据来“购买”基准测试的有效性应该是不可能的。
  • 它应该对所使用的初始知识提供清晰,全面的描述。
  • 他必须使用人们使用的相同知识为人和机器公正地工作。

下面介绍进行这种测试的第一次尝试。

建议的测试:ARC数据集


ARC可被视为强大人工智能的基准测试,软件综合的基准测试或智能的心理测验。它针对旨在模拟类似于人类智能的强大移动智能的人类和人工智能系统。这种格式有点让人联想到Raven的渐进矩阵[4],这是一项可以追溯到1930年代的经典IQ测试。

ARC包括两个数据集:培训和评估。训练集中有400个,评估集中有600个。

此外,评估集还分为两个:打开(400个任务)和关闭(200个任务)。所有建议的任务都是唯一的,并且评估任务集与培训者集不相交。

任务数据可以在存储库中找到

每个任务都包含少量的演示和测试用例。演示平均每个任务3.3个,测试从1个到3个,最常见的是一个。每个示例依次由一个输入网格和一个输出网格组成。

这样的“栅格”是由某些符号组成的矩阵(通常每个栅格都以某种颜色突出显示):



总共有10个唯一的符号(或颜色)。“栅格”可以是任意高度或宽度-从1x1到30x30(包括平均值)高度-9,平均宽度-10)。

解决评估问题时,测试参与者可以访问培训示例(“输入”和“输出网格”)以及完成测试任务的初始条件-相应测试(评估)示例的“输入网格”。接下来,测试参与者必须为每个测试用例的“输入网格”建立自己的“输出网格”。

“输出网格”的构建完全是从头开始的,也就是说,测试参与者必须自己决定该“网格”的高度和宽度是什么,应该在其中放置什么符号以及在哪里放置。可以相信,如果测试参与者可以为其中包含的所有测试用例提供准确且正确的答案(一个由两部分组成的成功指标),则可以成功解决该问题。

封闭评估集的存在使我们能够在公开比赛中严格监控评估的纯度。 ARC作业示例:



一项隐式目标是完成对称电路的任务。此任务的性质由三个输入/输出示例确定。测试参与者必须绘制一个与输入网格相对应的输出网格(请参阅右下角)。



消除“噪音”的任务。



红色物体向蓝色“移动”直到与蓝色物体接触。



一项隐性目标是继续(外推)与红色障碍物接触时“反弹”的对角线的任务。



需要立即完成许多动作的任务:“继续前进”,“绕过障碍”和“有效实现最终目标”(在实际任务中,会提供更多的示范对)。

ARC并不是作为完美而完整的测试提供的,但是它具有重要的特性:

  • 每个测试任务都是新的,并且依赖于所有测试参与者共有的一组清晰的初始知识。
  • 它可以完全由人们解决,但是不能借助任何现有的机器学习技术(包括深度学习)来完成。
  • 对于有兴趣开发能够像人类一样广泛推广的算法的AI研究人员而言,该测试可能是一个非常有趣的“游乐场”。此外,ARC还为我们提供了比较人机智能的机会,因为我们为他们提供了相同的初始知识。

作者计划进一步改进ARC-作为研究平台以及机器和人类智能的联合基准。

您怎么看?如果我们设法分散强大的AI社区的注意力,使其在特定任务中超越人们,也许主要想法会更成功?

文献


  • [1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
  • [2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
  • [3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
  • [4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
  • [5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
  • [6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
  • [7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
  • [8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
  • [9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
  • [10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
  • [11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
  • [12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
  • [13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
  • [14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
  • [15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
  • [16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

All Articles