Comment évaluer l'intelligence? Approche Google

De moi-même:

en novembre 2019, un article programmatique de Google «On Assessing Intelligence» de François Schollet (créateur de Keras) a été publié.
64 pages sont consacrées à la façon dont la compréhension moderne de l'IA est apparue, pourquoi l'apprentissage automatique en est si loin et pourquoi nous ne pouvons toujours pas mesurer adéquatement «l'intelligence».


Pour que la sélection soit équitable, la tâche pour tous est une: grimper dans un arbre

Notre équipe est engagée dans la PNL et la méthodologie générale des tests d'IA, en tenant compte des dernières tendances des transformateurs universels tels que le BERT, qui sont évalués par des tests de logique et de bon sens. Ainsi, la PNL assume toutes les nouvelles tâches associées à la reproduction d'actions de plus en plus complexes et, en fait, reflétant les mécanismes de la pensée. Il s'est avéré que d'autres zones de ML ont saisi leur part du gâteau dans cette direction. Par exemple, CV - " Animal AI Challenge ".

Il est clair que maintenant il est "mieux" si possible de rendre les modèles ML plus interprétables, non pas d'utiliser 10 petits classificateurs, mais de former un modèle, etc., mais à quelle distance est-il de la véritable "intelligence"?

Divulgacher:
.

L'article du programme fournit une analyse détaillée et dévastatrice de la recherche dans le domaine de l'évaluation technique de l'IA moderne.

À la fin de l'article, l'auteur propose son propre test et son propre ensemble de données: Abstraction and Reasoning Corpus (ARC), lié à la pensée abstraite.

Mais plus sur tout.

Synopsis de «Sur la mesure de l'intelligence»


Afin de créer consciemment des systèmes artificiels plus intelligents et plus humains, nous avons besoin d'une définition claire de l'intelligence et de la capacité de l'évaluer. Ceci est nécessaire pour comparer correctement deux systèmes ou un système avec une personne. Au cours du siècle dernier, de nombreuses tentatives ont été faites pour déterminer et mesurer l'intelligence à la fois dans le domaine de la psychologie et dans le domaine de l'IA.

La communauté ML moderne aime toujours comparer les compétences que l'IA et les gens démontrent - lorsqu'ils jouent à des jeux de table et informatiques, lorsqu'ils résolvent des problèmes. Mais pour évaluer l'intelligence, il ne suffit pas de mesurer uniquement la capacité à résoudre une tâche. Pourquoi? Parce que cette capacité est en grande partie formée non pas par l'intellect, mais par les connaissances et l'expérience antérieures. Et vous pouvez les "acheter". En alimentant le système une quantité illimitée de données de formation ou d'informations préliminaires, les expérimentateurs peuvent non seulement amener la machine à un niveau arbitraire de compétences, mais également masquer la capacité du système lui-même à la généralisation intellectuelle.

L'article propose 1) une nouvelle définition officielle de l'intelligence basée sur l'efficacité de l'acquisition des compétences; 2) un nouveau test pour la capacité de former des abstractions et des conclusions logiques (Abstraction and Reasoning Corpus, ARC). L'ARC peut être utilisé pour mesurer la forme humaine d'une forte intelligence mobile, cela vous permet de comparer numériquement l'intelligence relativement forte de l'IA et des systèmes humains.

Une définition pratiquement utile de l'intelligence et de ses paramètres est nécessaire.


L'objectif du développement de l'IA est de créer des machines avec une intelligence comparable à l'intelligence des personnes. (Donc, l'objectif a été formulé depuis le début de l'intelligence artificielle au début des années 50 du XXe siècle, et depuis lors, cette formulation a été préservée).

Mais alors que nous pouvons créer des systèmes qui fonctionnent bien avec des tâches spécifiques. Ces systèmes sont imparfaits: ils sont fragiles, nécessitent de plus en plus de données, sont incapables de comprendre des exemples qui s'écartent légèrement de l'ensemble de formation et ne peuvent pas être reconfigurés pour résoudre de nouveaux problèmes sans l'aide de personnes.

La raison en est que nous ne pouvons toujours pas répondre sans ambiguïté à la question de savoir ce qu'est l'intelligence. Les tests existants, par exemple le test de Turing [11] et le prix Loebner [10], ne peuvent pas servir de moteurs de progrès, car ils excluent complètement la capacité de déterminer et de mesurer objectivement l'intelligence, mais reposent sur une évaluation subjective.

Notre objectif est de mettre en évidence les préjugés implicites dans l'industrie, et également d'offrir une définition pratique de la définition pratique et des critères pour évaluer un intellect fort, comme l'intelligence humaine.

Définition de l'intelligence: deux approches conflictuelles


La définition de base totale de l'IA est: "L'intelligence mesure la capacité de l'agent à atteindre des objectifs dans un large éventail d'environnements." N'explique rien?

Tout le conflit dans la science moderne se résume à ce qui est considéré comme le point de départ de l'intelligence naturelle:

  • l'esprit est un ensemble statique de mécanismes spéciaux qui sont formés par l'évolution pour évidemment certaines tâches. Ce point de vue sur le darwinisme, la psychologie évolutionniste et les neurophysiologistes soutenant le concept de modularité biologique de la conscience .
    Marvin Minsky a également développé la compréhension de l'esprit comme un large éventail de programmes verticaux relativement statiques qui forment ensemble l '«intelligence», ce qui a finalement conduit à la compréhension de l'IA comme une émulation des résultats humains sur une liste donnée de tâches de test.
  • tabula rasa: l'esprit est une «feuille blanche» d'un but indéfini, capable de transformer une expérience arbitraire en connaissances et compétences pour résoudre tout problème. C'est le point de vue d'Alan Turing et des connexionnistes . Dans cette compréhension, l'intelligence est représentée par la métaphore d'un super-ordinateur, et sa mécanique de bas niveau permet d'acquérir un ensemble illimité de compétences «à partir de zéro», «selon les données».

Les deux concepts sont actuellement considérés comme invalides. ¯ \ _ (ツ) _ / ¯

Évaluation de l'IA: de l'évaluation des compétences à l'évaluation des capacités générales


Les tests sur des ensembles de données donnés sont devenus le principal moteur de progrès dans le domaine de l'IA, car ils sont reproductibles (l'ensemble de tests est fixe), équitables (l'ensemble de tests est le même pour tout le monde), évolutifs (la répétition répétée du test n'entraîne pas de coûts élevés). De nombreux tests populaires - DARPA Grand Challenge [3], prix Netflix - ont contribué au développement de nouveaux algorithmes pour les modèles ML.

Avec des résultats positifs, même ceux obtenus par le chemin le plus court (avec sur-ajustement et béquilles), le niveau de qualité attendu est en constante augmentation. McCordack a appelé cela «l'effet AI»: «Chaque fois que quelqu'un a trouvé une nouvelle façon d'amener l'ordinateur à faire quelque chose de nouveau (jouer aux dames), des critiques qui ont dit:« Ce n'est pas penser »sont nécessairement apparus» [7]. Lorsque nous savons exactement comment une machine fait quelque chose de «intelligent», nous cessons de penser qu'elle est intelligente.

L '«effet AI» apparaît parce que le processus d'utilisation de l'intelligence est confus (par exemple, le processus d'apprentissage d'un réseau de neurones pour jouer aux échecs) et l'artefact créé par un tel processus (le modèle résultant). La raison de la confusion est simple - chez une personne, ces deux choses sont inséparables.

Pour s'éloigner de l'évaluation des seuls artefacts et de la capacité même d'apprendre et d'acquérir de nouvelles compétences, ils introduisent le concept de «gamme de généralisation», dans lequel le système prend des valeurs graduelles.

  • Manque de généralisation . Les systèmes d'IA, dans lesquels il n'y a pas d'incertitude et de nouveauté, ne démontrent pas la capacité de généraliser, par exemple: un programme pour jouer au tic-tac-toe, qui gagne en énumérant les options.
  • La généralisation locale, ou «fiabilité», est la capacité d'un système à traiter de nouveaux points d'une distribution connue pour une seule tâche. Par exemple, une classification locale a été effectuée par un classificateur d'images, qui peut distinguer des images de chats avec des chats auparavant inconnues de photos de chiens de format similaire après une formation sur de nombreuses images similaires de chats et de chiens.
  • , «» — : , , « ». , , « » ( ) [16], .
  • . , , — « ». ( , , ).

L'histoire de l'IA est une histoire de développement lent, partant de systèmes qui ne démontrent pas la capacité de généraliser (IA symbolique) et se terminant par des systèmes fiables (machine learning) capables de généralisation locale.

Nous sommes actuellement à une nouvelle étape dans laquelle nous nous efforçons de créer des systèmes flexibles - il y a un intérêt croissant à utiliser un large éventail de tâches de test pour évaluer les systèmes qui développent la flexibilité:

  1. critères de référence GLUE [13] et SuperGLUE [12] pour le traitement du langage naturel
  2. Environnement d'apprentissage d'arcade pour les agents d'apprentissage par renforcement [1],
  3. plate-forme d'expérimentation et de recherche sur l'IA "Malmo Project",
  4. Ensemble d'expériences Behavior Suite [8]

En plus de ces tests multitâches, deux séries de tests ont récemment été proposées pour évaluer la capacité de généraliser, plutôt que la capacité de résoudre des problèmes spécifiques:

  1. Olympiade des Jeux Olympiques Animal-AI [2] ( animalaiolympics.com )
  2. et la compétition GVG-AI [9] ( gvgai.net ).

Les deux tests sont basés sur l'hypothèse que les agents d'IA devraient être évalués pour l'apprentissage ou la planification (plutôt que des compétences spéciales) en résolvant un ensemble de tâches ou de jeux qui leur étaient inconnus plus tôt.



Nouveau concept


Comment comparer l'intelligence artificielle avec l'homme, si le niveau des différentes capacités cognitives varie selon les personnes?

Les résultats des tests d'intelligence chez les personnes ayant des capacités différentes peuvent coïncider - c'est un fait bien connu de la psychologie cognitive. Il montre que la cognition est un objet multidimensionnel, structuré hiérarchiquement à l'image d'une pyramide aux compétences larges et étroites, au sommet duquel est un facteur d'intelligence générale. Mais «l'intelligence forte» est-elle vraiment le sommet de la pyramide cognitive?

Le théorème « pas de repas gratuits»[14, 15] nous dit que deux algorithmes d'optimisation (dont l'intelligence humaine) sont équivalents lorsque leurs performances sont moyennées pour chaque tâche possible. Autrement dit, afin d'obtenir des performances supérieures à celles aléatoires, les algorithmes doivent être affinés pour leur tâche cible. Cependant, dans ce contexte, «toute tâche possible» signifie une répartition uniforme sur le sujet. La répartition des tâches qui serait pertinente spécifiquement pour notre Univers ne correspondrait pas à une telle définition. Ainsi, nous pouvons poser la question suivante: le facteur d'intelligence humaine est-il universel?

En fait, les gens ont jusqu'à présent collecté trop peu d'informations sur les capacités cognitives des agents qui les entourent - d'autres personnes (dans différentes cultures, «l'intelligence» est évaluée différemment) et les animaux, par exemple les poulpes ou les baleines.

Apparemment, l'intelligence humaine est loin d'être universelle: elle ne convient pas à un grand nombre de tâches pour lesquelles nos connaissances a priori innées ne sont pas adaptées.

Par exemple, les gens peuvent résoudre très efficacement certains petits problèmes de complexité polynomiale s'ils se croisent mentalement avec des tâches évolutives familières comme la navigation. Ainsi, le problème du voyageur de commerce avec un petit nombre de points peut être résolu par une personne de manière presque optimale dans un temps optimal presque linéaire [6], en utilisant une stratégie de perception. Cependant, si au lieu de «trouver le chemin le plus court», demandez-lui de trouver le chemin le plus long [5], une personne s'en sortira bien pire que l'un des algorithmes heuristiques les plus simples: l'algorithme du «voisin éloigné».



Les auteurs soutiennent que la cognition humaine se développe de la même manière que les capacités physiques d'une personne: toutes deux développées au cours du processus d'évolution pour résoudre des problèmes spécifiques dans des environnements spécifiques (ces tâches sont appelées « quatre F"- quatre instincts de base: se battre, fuir, se nourrir et forniquer: battre, courir, se nourrir et se reproduire).

Le message principal de ce travail est que «l'intelligence forte» est une propriété du système qui ne peut pas être déterminée binaire: «que ce soit ou non». Non, c'est une gamme qui dépend de:

  1. portée, qui peut être plus ou moins large;
  2. le degré d'efficacité avec lequel le système transforme les connaissances et l'expérience a priori en nouvelles compétences dans un domaine donné;
  3. le degré de complexité de la généralisation représentée par divers points du domaine considéré.

La «valeur» d'un domaine d'application de l'intelligence par rapport à un autre est absolument subjective - nous ne serions pas intéressés par un système dont le domaine d'application ne chevaucherait pas le nôtre. Et ils ne considéreraient même pas un tel système intellectuel.

?


  • , .
  • ( ).
  • :
    ◦ , – , ,
    ◦ , – (), () ( )
  • Il doit contrôler la quantité d'expérience utilisée par les systèmes pendant la formation. «Acheter» l'efficacité d'une référence en sélectionnant un nombre illimité de données de formation devrait être impossible.
  • Il doit fournir une description claire et complète de l'ensemble des connaissances initiales utilisées.
  • Il doit travailler de manière impartiale pour les personnes et les machines, en utilisant les mêmes connaissances que les gens utilisent.

La première tentative de faire un tel test est décrite ci-dessous.

Test suggéré: ARC Dataset


L'ARC peut être considéré comme un test de référence de l'intelligence artificielle forte, comme un test de référence de la synthèse logicielle ou comme un test psychométrique de l'intelligence. Il cible à la fois les humains et les systèmes d'intelligence artificielle conçus pour simuler une forte intelligence mobile similaire à l'intelligence humaine. Le format rappelle quelque peu les matrices progressives de Raven [4], un test de QI classique datant des années 1930.

L'ARC comprend deux ensembles de données: formation et évaluation. Il y en a 400 dans l'ensemble de formation et 600 dans l'ensemble d'évaluation.

De plus, l'ensemble d'évaluation est également divisé en deux: ouvert (400 tâches) et fermé (200 tâches). Toutes les tâches proposées sont uniques et l'ensemble des tâches d'évaluation ne recoupe pas l'ensemble des formateurs.

Les données de tâche se trouvent dans le référentiel .

Chaque tâche consiste en un petit nombre de démos et de cas de test. Les démonstrations étaient en moyenne de 3,3 par tâche, les tests de un à trois, le plus souvent un. Chaque exemple, à son tour, se compose d'une grille d'entrée et d'une grille de sortie.

Une telle "grille" est une matrice de certains symboles (dont chacun, en règle générale, est mis en évidence dans une certaine couleur):



Il y a 10 symboles (ou couleurs) uniques au total. Une "grille" peut être de n'importe quelle hauteur ou largeur - de 1x1 à 30x30 inclus (moyenne hauteur - 9, largeur moyenne - 10).

Lors de la résolution du problème d'évaluation, le participant au test a accès à des exemples de formation (à la fois «entrée» et «grille de sortie»), ainsi qu'aux conditions initiales pour terminer la tâche de test - «grille d'entrée» des exemples de test (évaluation) correspondants. Ensuite, le participant au test doit construire sa propre «grille de sortie» pour la «grille d'entrée» de chaque cas de test.

La construction de la "grille de sortie" est effectuée exclusivement à partir de zéro, c'est-à-dire que le participant au test doit décider lui-même quelle doit être la hauteur et la largeur de cette "grille", quels symboles doivent y être placés et où. On pense que le problème est résolu avec succès si le participant au test peut donner une réponse précise et correcte pour tous les cas de test qui y sont inclus (un indicateur de réussite en deux parties).

La présence d'un ensemble d'évaluation fermé nous permet de contrôler strictement la pureté de l'évaluation dans un concours ouvert. Exemples de travaux ARC:



une tâche dont l'objectif implicite est de terminer un circuit symétrique. La nature de cette tâche est déterminée par trois exemples d'entrée / sortie. Le participant au test doit établir une grille de sortie correspondant à la grille d'entrée (voir en bas à droite).



La tâche d'éliminer le "bruit".



L'objet rouge "se déplace" vers le bleu jusqu'à ce qu'il entre en contact avec lui.



Une tâche dont le but implicite est de continuer (extrapoler) une ligne diagonale qui "rebondit" lorsqu'elle entre en contact avec un obstacle rouge.



Une tâche où il est nécessaire de réaliser un certain nombre d'actions à la fois: «continuer la ligne», «contourner les obstacles» et «atteindre efficacement le but final» (dans une tâche réelle, plus de paires de démonstration sont données).

L'ARC n'est pas fourni comme un test parfait et complet, cependant, il a des propriétés importantes:

  • Chaque tâche de test est nouvelle et repose sur un ensemble clair de connaissances initiales communes à tous les participants au test.
  • il peut être complètement résolu par des personnes, mais il ne peut pas être accompli à l'aide des techniques d'apprentissage automatique existantes (y compris l'apprentissage en profondeur).
  • le test peut être un «terrain de jeu» très intéressant pour les chercheurs en IA qui souhaitent développer des algorithmes capables d'une large généralisation qui agissent comme un humain. De plus, ARC nous donne la possibilité de comparer l'intelligence humaine et l'intelligence machine, car nous leur fournissons les mêmes connaissances initiales.

L'auteur prévoit d'améliorer encore l'ARC - à la fois comme plate-forme de recherche et comme référence commune pour l'intelligence artificielle et humaine.

Que pensez-vous - peut-être que l'idée principale aura plus de succès si nous parvenons à détourner l'attention de la forte communauté de l'IA d'essayer de surpasser les gens dans des tâches spécifiques?

Littérature


  • [1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
  • [2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
  • [3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
  • [4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
  • [5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
  • [6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
  • [7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
  • [8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
  • [9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
  • [10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
  • [11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
  • [12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
  • [13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
  • [14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
  • [15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
  • [16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

All Articles