Wie bewertet man Intelligenz? Google-Ansatz

Von mir selbst:

Im November 2019 wurde ein programmatischer Artikel von Francois Schollet (Schöpfer von Keras) aus Google „On Assessing Intelligence“ veröffentlicht.
64 Seiten widmen sich der Frage, wie ein modernes Verständnis der KI entstanden ist, warum maschinelles Lernen so weit davon entfernt ist und warum wir „Intelligenz“ immer noch nicht angemessen messen können.


Damit die Auswahl fair ist, ist die Aufgabe für alle eine: auf einen Baum klettern

Unser Team beschäftigt sich mit NLP und der allgemeinen Methodik von KI-Tests unter Berücksichtigung der neuesten Trends bei Universaltransformatoren wie BERT, die durch Tests auf Logik und gesunden Menschenverstand bewertet werden. NLP übernimmt also neue Aufgaben im Zusammenhang mit der Reproduktion immer komplexer werdender Handlungen und spiegelt tatsächlich Denkmechanismen wider. Es stellte sich heraus, dass andere Bereiche von ML ihr Stück vom Kuchen in diese Richtung packten. Zum Beispiel CV - " Animal AI Challenge ".

Es ist klar, dass es jetzt "besser" ist, wenn möglich, ML-Modelle interpretierbarer zu machen, nicht 10 kleine Klassifikatoren zu verwenden, sondern ein Modell zu trainieren und so weiter, aber wie weit ist es von echter "Intelligenz" entfernt?

Spoiler:
.

Der Programmartikel bietet eine detaillierte und verheerende Analyse der Forschung auf dem Gebiet der technischen Bewertung der modernen KI.

Am Ende des Artikels bietet der Autor seinen eigenen Test und Datensatz dafür an: Abstraction and Reasoning Corpus (ARC), gebunden an abstraktes Denken.

Aber mehr über alles.

Synopsis von „Über das Maß der Intelligenz“


Um bewusst intelligentere und menschlichere künstliche Systeme zu schaffen, brauchen wir eine klare Definition der Intelligenz und die Fähigkeit, sie zu bewerten. Dies ist erforderlich, um zwei Systeme oder ein System mit einer Person korrekt zu vergleichen. Im letzten Jahrhundert wurden viele Versuche unternommen, die Intelligenz sowohl auf dem Gebiet der Psychologie als auch auf dem Gebiet der KI zu bestimmen und zu messen.

Die moderne ML-Community liebt es immer noch, die Fähigkeiten zu vergleichen, die KI und Menschen demonstrieren - beim Spielen von Tisch- und Computerspielen, beim Lösen von Problemen. Um die Intelligenz zu beurteilen, reicht es jedoch nicht aus, nur die Fähigkeit zur Lösung einer Aufgabe zu messen. Warum? Denn diese Fähigkeit wird größtenteils nicht vom Intellekt, sondern von Vorkenntnissen und Erfahrungen gebildet. Und Sie können sie "kaufen". Durch die unbegrenzte Menge an Trainingsdaten oder vorläufigen Informationen können Experimentatoren die Maschine nicht nur auf ein beliebiges Niveau bringen, sondern auch verbergen, wie fähig das System selbst zur intellektuellen Verallgemeinerung ist.

Der Artikel schlägt 1) eine neue offizielle Definition von Intelligenz vor, die auf der Wirksamkeit des Erwerbs von Fähigkeiten basiert; 2) ein neuer Test für die Fähigkeit, Abstraktionen und logische Schlussfolgerungen zu bilden (Abstraction and Reasoning Corpus, ARC). ARC kann verwendet werden, um die menschliche Form starker bewegter Intelligenz zu messen. Auf diese Weise können Sie die relativ starke Intelligenz von KI und menschlichen Systemen numerisch vergleichen.

Eine praktisch nützliche Definition der Intelligenz und ihrer Metriken ist erforderlich.


Das Ziel der KI-Entwicklung ist es, Maschinen mit einer Intelligenz zu schaffen, die mit der Intelligenz von Menschen vergleichbar ist. (So ​​wurde das Ziel seit dem Beginn der künstlichen Intelligenz in den frühen 50er Jahren des 20. Jahrhunderts formuliert, und seitdem ist diese Formulierung erhalten geblieben).

Aber während wir Systeme erstellen können, die für bestimmte Aufgaben gut geeignet sind. Diese Systeme sind unvollkommen: Sie sind zerbrechlich, erfordern immer mehr Daten, können keine Beispiele verstehen, die geringfügig vom Trainingssatz abweichen, und können nicht ohne die Hilfe von Menschen neu konfiguriert werden, um neue Probleme zu lösen.

Der Grund dafür ist, dass wir die Frage, was Intelligenz ist, immer noch nicht eindeutig beantworten können. Bestehende Tests, beispielsweise der Turing-Test [11] und der Loebner-Preis [10], können nicht als Treiber des Fortschritts dienen, da sie die Fähigkeit zur objektiven Bestimmung und Messung von Intelligenz vollständig ausschließen, sondern sich auf eine subjektive Bewertung stützen.

Unser Ziel ist es, auf implizite Vorurteile in der Branche hinzuweisen und eine praktische Definition der praktischen Definition und Kriterien für die Bewertung eines starken Intellekts wie eines menschlichen Intellekts anzubieten.

Definition von Intelligenz: zwei widersprüchliche Ansätze


Die grundlegende Definition von KI lautet: "Intelligenz misst die Fähigkeit des Agenten, Ziele in einer Vielzahl von Umgebungen zu erreichen." Erklärt nichts?

Der gesamte Konflikt in der modernen Wissenschaft läuft auf den Ausgangspunkt der natürlichen Intelligenz hinaus:

  • Der Geist ist eine statische Reihe von Spezialmechanismen, die von der Evolution für offensichtlich bestimmte Aufgaben gebildet werden. Diese Sichtweise des Darwinismus, der Evolutionspsychologie und der Neurophysiologen unterstützt das Konzept der biologischen Modularität des Bewusstseins .
    Marvin Minsky entwickelte auch das Verständnis des Geistes als eine breite Palette vertikaler, relativ statischer Programme, die zusammen „Intelligenz“ bilden. Dies führte letztendlich zum Verständnis der KI als Nachahmung menschlicher Ergebnisse auf einer bestimmten Liste von Testaufgaben.
  • tabula rasa: Der Geist ist ein „sauberes Blatt“ mit unbestimmter Absicht, das willkürliche Erfahrungen in Wissen und Fähigkeiten umwandeln kann, um jedes Problem zu lösen. Dies ist der Standpunkt von Alan Turing und den Konnektionisten . In diesem Verständnis wird Intelligenz durch die Metapher eines Supercomputers dargestellt, und seine Mechanik auf niedriger Ebene ermöglicht es, eine unbegrenzte Anzahl von Fähigkeiten „von Grund auf“, „nach Daten“, zu erwerben.

Beide Konzepte gelten derzeit als ungültig. ¯ \ _ (ツ) _ / ¯

AI-Bewertung: Von der Bewertung der Fähigkeiten zur Bewertung der allgemeinen Fähigkeiten


Tests an bestimmten Datensätzen sind zum Haupttreiber des Fortschritts auf dem Gebiet der KI geworden, da sie reproduzierbar (der Testsatz ist fest), fair (der Testsatz ist für alle gleich) und skalierbar (wiederholte Wiederholung des Tests führt nicht zu hohen Kosten) sind. Viele beliebte Tests - DARPA Grand Challenge [3], Netflix-Preis - trugen zur Entwicklung neuer Algorithmen für ML-Modelle bei.

Mit positiven Ergebnissen, auch auf kürzestem Weg (mit Überanpassung und Krücken), steigt das erwartete Qualitätsniveau ständig an. McCordack nannte es den „KI-Effekt“: „Jedes Mal, wenn jemand einen neuen Weg fand, um den Computer dazu zu bringen, etwas Neues zu tun (Spielprüfer), erschienen Kritiker, die sagten:„ Das denkt nicht “, unbedingt“ [7]. Wenn wir genau wissen, wie eine Maschine etwas „Kluges“ macht, denken wir nicht mehr, dass es klug ist.

Der „KI-Effekt“ tritt auf, weil der Prozess der Verwendung von Intelligenz (z. B. der Prozess des Lernens eines neuronalen Netzwerks zum Schachspielen) und das durch einen solchen Prozess erzeugte Artefakt (das resultierende Modell) verwirrt sind. Der Grund für die Verwirrung ist einfach - bei einer Person sind diese beiden Dinge untrennbar miteinander verbunden.

Um nicht nur Artefakte zu bewerten und neue Fähigkeiten zu erlernen und zu erwerben, führen sie das Konzept eines „Generalisierungsbereichs“ ein, in dem das System schrittweise Werte annimmt.

  • Fehlende Verallgemeinerung . KI-Systeme, bei denen es keine Unsicherheit und Neuheit gibt, zeigen nicht die Fähigkeit zur Verallgemeinerung, zum Beispiel: ein Programm zum Spielen von Tic-Tac-Toe, das durch umfassende Suche nach Optionen gewinnt.
  • Lokale Verallgemeinerung oder „Zuverlässigkeit“ ist die Fähigkeit eines Systems, neue Punkte aus einer bekannten Verteilung für eine einzelne Aufgabe zu verarbeiten. Beispielsweise wurde eine lokale Klassifizierung durch einen Bildklassifizierer durchgeführt, der zuvor nicht sichtbare Bilder von Katzen mit Katzen von ähnlich formatierten Bildern von Hunden nach dem Training an vielen ähnlichen Bildern von Katzen und Hunden unterscheiden kann.
  • , «» — : , , « ». , , « » ( ) [16], .
  • . , , — « ». ( , , ).

Die Geschichte der KI ist eine Geschichte langsamer Entwicklung, angefangen bei Systemen, die nicht die Fähigkeit zur Verallgemeinerung aufweisen (symbolische KI), bis hin zu zuverlässigen Systemen (maschinelles Lernen), die zur lokalen Verallgemeinerung fähig sind.

Wir befinden uns derzeit in einer neuen Phase, in der wir uns um die Schaffung flexibler Systeme bemühen. Das Interesse an der Verwendung einer Vielzahl von Testaufgaben zur Bewertung von Systemen, die Flexibilität entwickeln, wächst:

  1. Referenzkriterien GLUE [13] und SuperGLUE [12] für die Verarbeitung natürlicher Sprache
  2. Arcade-Lernumgebung für Verstärkungslernmittel [1],
  3. Plattform für Experimente und Forschung der KI "Malmö-Projekt",
  4. Behavior Suite Experiment Set [8]

Zusätzlich zu solchen Multitasking-Tests wurden kürzlich zwei Testreihen vorgeschlagen, um die Fähigkeit zur Verallgemeinerung und nicht die Fähigkeit zur Lösung spezifischer Probleme zu bewerten:

  1. Olympiade der Tier-KI-Olympischen Spiele [2] ( animalaiolympics.com )
  2. und der GVG-AI-Wettbewerb [9] ( gvgai.net ).

Beide Tests basieren auf der Annahme, dass KI-Agenten für das Lernen oder Planen (und nicht für spezielle Fähigkeiten) bewertet werden sollten, indem eine Reihe von Aufgaben oder Spielen gelöst werden, die ihnen zuvor unbekannt waren.



Neues Konzept


Wie kann man künstliche Intelligenz mit der menschlichen vergleichen, wenn das Niveau der unterschiedlichen kognitiven Fähigkeiten für verschiedene Menschen unterschiedlich ist?

Die Ergebnisse von Intelligenztests bei Menschen mit unterschiedlichen Fähigkeiten können zusammenfallen - dies ist eine bekannte Tatsache in der kognitiven Psychologie. Er zeigt, dass Erkenntnis ein mehrdimensionales Objekt ist, das hierarchisch nach dem Bild einer Pyramide mit breiten und engen Fähigkeiten strukturiert ist, an deren Spitze ein Faktor der allgemeinen Intelligenz steht. Aber ist „starke Intelligenz“ wirklich die Spitze der kognitiven Pyramide?

Der Satz „ keine kostenlosen Mahlzeiten”[14, 15] sagt uns, dass zwei beliebige Optimierungsalgorithmen (einschließlich menschlicher Intelligenz) gleichwertig sind, wenn ihre Leistung für jede mögliche Aufgabe gemittelt wird. Das heißt, um eine höhere Leistung als zufällig zu erzielen, müssen die Algorithmen für ihre Zielaufgabe geschärft werden. In diesem Zusammenhang bedeutet „jede mögliche Aufgabe“ jedoch eine gleichmäßige Verteilung über den Themenbereich. Die Verteilung von Aufgaben, die speziell für unser Universum relevant wären, würde einer solchen Definition nicht entsprechen. Daher können wir die folgende Frage stellen: Ist der Faktor der menschlichen Intelligenz universell?

Tatsächlich haben die Menschen bisher zu wenig Informationen über die kognitiven Fähigkeiten der sie umgebenden Agenten gesammelt - andere Menschen (in verschiedenen Kulturen wird „Intelligenz“ unterschiedlich bewertet) und Tiere, zum Beispiel Tintenfische oder Wale.

Offensichtlich ist die menschliche Intelligenz alles andere als universell: Sie ist für eine Vielzahl von Aufgaben ungeeignet, für die unser angeborenes A-priori-Wissen nicht angepasst ist.

Zum Beispiel können Menschen einige kleine Probleme von Polynomkomplexität sehr effektiv lösen, wenn sie sich mental mit evolutionär vertrauten Aufgaben wie der Navigation überschneiden. So kann das Problem des Handlungsreisenden mit einer kleinen Anzahl von Punkten von einer Person mit einer Wahrnehmungsstrategie nahezu optimal in einer nahezu linearen optimalen Zeit gelöst werden [6]. Wenn er jedoch nicht „den kürzesten Weg finden“ muss, um den längsten Weg zu finden [5], wird eine Person viel schlechter zurechtkommen als einer der einfachsten heuristischen Algorithmen: der Algorithmus „entfernter Nachbar“.



Die Autoren argumentieren, dass sich die menschliche Wahrnehmung auf die gleiche Weise entwickelt wie die körperlichen Fähigkeiten eines Menschen: Beide wurden im Verlauf der Evolution entwickelt, um bestimmte Probleme in bestimmten Umgebungen zu lösen (diese Aufgaben werden als „ vier F“ bezeichnet"- vier Grundinstinkte: kämpfen, fliehen, füttern und fornizieren: schlagen, rennen, füttern und züchten).

Die Hauptbotschaft dieser Arbeit ist, dass „starke Intelligenz“ eine Eigenschaft des Systems ist, die nicht binär bestimmt werden kann: „entweder ist es oder nicht“. Nein, dies ist ein Bereich, der abhängt von:

  1. Umfang, der mehr oder weniger breit sein kann;
  2. den Grad der Effizienz, mit dem das System a priori Wissen und Erfahrung in neue Fähigkeiten in einem bestimmten Bereich umwandelt;
  3. den Grad der Komplexität der Verallgemeinerung, der durch verschiedene Punkte in dem betrachteten Bereich dargestellt wird.

Der "Wert" eines Anwendungsbereichs der Intelligenz im Vergleich zu einem anderen ist absolut subjektiv - wir wären nicht an einem System interessiert, dessen Anwendungsbereich sich nicht mit unserem überschneiden würde. Und sie würden ein solches System nicht einmal als intellektuell betrachten.

?


  • , .
  • ( ).
  • :
    ◦ , – , ,
    ◦ , – (), () ( )
  • Er muss die Menge an Erfahrung kontrollieren, die Systeme während des Trainings verwenden. Es sollte unmöglich sein, die Effektivität eines Benchmarks durch Auswahl unbegrenzter Trainingsdaten zu „kaufen“.
  • Es sollte eine klare und umfassende Beschreibung der verwendeten Grundkenntnisse enthalten.
  • Er muss sowohl für Menschen als auch für Maschinen unparteiisch arbeiten und dabei das gleiche Wissen verwenden, das Menschen nutzen.

Der erste Versuch, einen solchen Test durchzuführen, wird unten beschrieben.

Vorgeschlagener Test: ARC-Datensatz


ARC kann als Benchmark-Test für starke künstliche Intelligenz, als Benchmark-Test für die Softwaresynthese oder als psychometrischer Test für die Intelligenz betrachtet werden. Es zielt sowohl auf Menschen als auch auf Systeme der künstlichen Intelligenz ab, die entwickelt wurden, um starke bewegte Intelligenz ähnlich der menschlichen Intelligenz zu simulieren. Das Format erinnert etwas an Raven's progressive Matrizen [4], einen klassischen IQ-Test aus den 1930er Jahren.

ARC enthält zwei Datensätze: Schulung und Bewertung. Es gibt 400 im Trainingssatz und 600 im Bewertungssatz.

Darüber hinaus ist der Bewertungssatz in zwei Bereiche unterteilt: offen (400 Aufgaben) und geschlossen (200 Aufgaben). Alle vorgeschlagenen Aufgaben sind eindeutig, und die Bewertungsaufgaben überschneiden sich nicht mit den Trainern.

Aufgabendaten finden Sie im Repository .

Jede Aufgabe besteht aus einer kleinen Anzahl von Demos und Testfällen. Die Demonstrationen betrugen durchschnittlich 3,3 pro Aufgabe, die von eins bis drei, meistens eins. Jedes Beispiel besteht wiederum aus einem Eingangsraster und einem Ausgangsraster.

Ein solches „Gitter“ ist eine Matrix aus bestimmten Symbolen (von denen jedes in der Regel in einer bestimmten Farbe hervorgehoben ist):



Insgesamt gibt es 10 eindeutige Symbole (oder Farben). Ein „Gitter“ kann eine beliebige Höhe oder Breite haben - von 1x1 bis einschließlich 30x30 (Durchschnitt) Höhe - 9, durchschnittliche Breite - 10).

Bei der Lösung des Bewertungsproblems erhält der Testteilnehmer Zugriff auf Schulungsbeispiele (sowohl „Eingabe“ als auch „Ausgaberaster“) sowie auf die Anfangsbedingungen für die Ausführung der Testaufgabe - „Eingabegitter“ der entsprechenden Testbeispiele (Bewertung). Als nächstes muss der Testteilnehmer ein eigenes „Ausgangsraster“ für das „Eingangsraster“ jedes Testfalls erstellen.

Der Aufbau des "Ausgangsgitters" erfolgt ausschließlich von Grund auf neu, dh der Testteilnehmer muss selbst entscheiden, wie hoch und breit dieses "Gitter" sein soll, welche Symbole wo platziert werden sollen. Es wird angenommen, dass das Problem erfolgreich gelöst wird, wenn der Testteilnehmer eine genaue und korrekte Antwort auf alle darin enthaltenen Testfälle geben kann (ein zweiteiliger Erfolgsindikator).

Das Vorhandensein eines geschlossenen Bewertungssatzes ermöglicht es uns, die Reinheit der Bewertung in einem offenen Wettbewerb streng zu überwachen. Beispiele für ARC-Jobs:



Eine Aufgabe, deren implizites Ziel darin besteht, eine symmetrische Schaltung zu vervollständigen. Die Art dieser Aufgabe wird durch drei Eingabe- / Ausgabebeispiele bestimmt. Der Testteilnehmer muss ein Ausgaberaster erstellen, das dem Eingaberaster entspricht (siehe unten rechts).



Die Aufgabe, das "Rauschen" zu beseitigen.



Das rote Objekt "bewegt" sich in Richtung Blau, bis es damit in Kontakt kommt.



Eine Aufgabe, deren implizites Ziel darin besteht, die diagonale Linie fortzusetzen (zu extrapolieren), die beim Kontakt mit einem roten Hindernis „abprallt“.



Eine Aufgabe, bei der mehrere Aktionen gleichzeitig ausgeführt werden müssen: „Fortsetzung der Linie“, „Umgehung von Hindernissen“ und „Effektives Erreichen des Endziels“ (bei einer realen Aufgabe werden mehr Demonstrationspaare angegeben).

ARC wird nicht als perfekter und vollständiger Test bereitgestellt, hat jedoch wichtige Eigenschaften:

  • Jede Testaufgabe ist neu und basiert auf einem klaren Grundwissen, das allen Testteilnehmern gemeinsam ist.
  • Es kann vollständig von Menschen gelöst werden, aber es kann nicht mit Hilfe vorhandener Techniken des maschinellen Lernens (einschließlich Tiefenlernen) erreicht werden.
  • Der Test kann ein sehr interessanter „Spielplatz“ für KI-Forscher sein, die daran interessiert sind, Algorithmen zu entwickeln, die eine breite Verallgemeinerung ermöglichen und sich wie ein Mensch verhalten. Darüber hinaus bietet uns ARC die Möglichkeit, die Intelligenz von Mensch und Maschine zu vergleichen, da wir ihnen das gleiche Anfangswissen vermitteln.

Der Autor plant, ARC weiter zu verbessern - sowohl als Plattform für Forschung als auch als gemeinsamer Maßstab für maschinelle und menschliche Intelligenz.

Was denkst du - vielleicht wird die Hauptidee erfolgreicher, wenn es uns gelingt, die Aufmerksamkeit der starken KI-Community davon abzulenken, Menschen bei bestimmten Aufgaben zu übertreffen?

Literatur


  • [1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
  • [2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
  • [3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
  • [4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
  • [5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
  • [6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
  • [7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
  • [8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
  • [9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
  • [10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
  • [11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
  • [12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
  • [13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
  • [14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
  • [15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
  • [16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

All Articles