¿Cómo evaluar la inteligencia? Enfoque de Google

De mí mismo:

en noviembre de 2019, se publicó un artículo programático de Google "Sobre la evaluación de la inteligencia" de Francois Schollet (creador de Keras).
64 páginas están dedicadas a cómo apareció la comprensión moderna de la IA, por qué el aprendizaje automático está tan lejos de eso y por qué todavía no podemos medir adecuadamente la "inteligencia".


Para que la selección sea justa, la tarea para todos es una: trepar a un árbol

Nuestro equipo está comprometido con la PNL y la metodología general de las pruebas de IA, teniendo en cuenta las últimas tendencias en transformadores universales como BERT, que se evalúan mediante pruebas de lógica y sentido común. Entonces, PNL asume todas las nuevas tareas asociadas con la reproducción de acciones cada vez más complejas y, de hecho, refleja los mecanismos del pensamiento. Resultó que otras áreas de ML agarraron su pedazo de pastel en esta dirección. Por ejemplo, CV - " Animal AI Challenge ".

Está claro que ahora es "mejor" si es posible hacer que los modelos ML sean más interpretables, no usar 10 clasificadores pequeños, sino entrenar un modelo, etc., pero ¿a qué distancia está de la "inteligencia" real?

Revelación:
.

El artículo del programa proporciona un análisis detallado y devastador de la investigación en el campo de la evaluación técnica de la IA moderna.

Al final del artículo, el autor ofrece su propia prueba y conjunto de datos para ello: Abstraction and Reasoning Corpus (ARC), vinculado al pensamiento abstracto.

Pero más sobre todo.

Sinopsis de "Sobre la medida de la inteligencia"


Para crear conscientemente sistemas artificiales más inteligentes y más humanos, necesitamos una definición clara de inteligencia y la capacidad de evaluarla. Esto es necesario para comparar correctamente dos sistemas o un sistema con una persona. Durante el siglo pasado, se han hecho muchos intentos para determinar y medir la inteligencia tanto en el campo de la psicología como en el campo de la IA.

A la comunidad moderna de ML aún le encanta comparar las habilidades que la IA y las personas demuestran, cuando juegan juegos de mesa y de computadora, cuando resuelven problemas. Pero para evaluar la inteligencia, no es suficiente medir solo la capacidad de resolver una tarea. ¿Por qué? Porque esta habilidad está formada en gran medida no por el intelecto, sino por el conocimiento y la experiencia previos. Y puedes "comprarlos". Alimentando al sistema con una cantidad ilimitada de datos de entrenamiento o información preliminar, los experimentadores no solo pueden llevar la máquina a un nivel arbitrario de habilidades, sino también ocultar cuán capaz es el sistema en sí mismo para la generalización intelectual.

El artículo propone 1) una nueva definición oficial de inteligencia basada en la efectividad de la adquisición de habilidades; 2) una nueva prueba para la capacidad de formar abstracciones y conclusiones lógicas (Abstraction and Reasoning Corpus, ARC). ARC se puede usar para medir la forma humana de una inteligencia móvil fuerte, esto le permite comparar numéricamente la inteligencia relativamente fuerte de la IA y los sistemas humanos.

Se necesita una definición prácticamente útil de inteligencia y sus métricas.


El objetivo del desarrollo de IA es crear máquinas con inteligencia que sea comparable a la inteligencia de las personas. (Por lo tanto, el objetivo se formuló desde el inicio de la inteligencia artificial a principios de los años 50 del siglo XX, y desde entonces esta formulación se ha conservado).

Pero si bien podemos crear sistemas que funcionen bien con tareas específicas. Estos sistemas son imperfectos: son frágiles, requieren cada vez más datos, no pueden entender ejemplos que se desvían ligeramente del conjunto de capacitación y no pueden reconfigurarse para resolver nuevos problemas sin la ayuda de las personas.

La razón de esto es que todavía no podemos responder inequívocamente a la pregunta de qué es la inteligencia. Las pruebas existentes, por ejemplo, la prueba de Turing [11] y el premio Loebner [10], no pueden servir como impulsores del progreso, ya que excluyen por completo la capacidad de determinar y medir objetivamente la inteligencia, sino que se basan en una evaluación subjetiva.

Nuestro objetivo es señalar los prejuicios implícitos en la industria y también ofrecer una definición práctica de definición práctica y criterios para evaluar un intelecto fuerte como el intelecto humano.

Definición de inteligencia: dos enfoques conflictivos


La definición básica total de IA es: "La inteligencia mide la capacidad del agente para lograr objetivos en una amplia gama de entornos". ¿No explica nada?

Todo el conflicto en la ciencia moderna se reduce a lo que se considera el punto de partida de la inteligencia natural:

  • La mente es un conjunto estático de mecanismos de propósito especial que están formados por la evolución para ciertas tareas obviamente. Este punto de vista del darwinismo, la psicología evolutiva y los neurofisiólogos apoya el concepto de modularidad biológica de la conciencia .
    Marvin Minsky también desarrolló la comprensión de la mente como una amplia gama de programas verticales y relativamente estáticos que juntos forman "inteligencia", lo que finalmente llevó a la comprensión de la IA como una emulación de resultados humanos en una lista dada de tareas de prueba.
  • tabula rasa: la mente es una "hoja limpia" de propósito indefinido, capaz de convertir la experiencia arbitraria en conocimiento y habilidades para resolver cualquier problema. Este es el punto de vista de Alan Turing y los conexionistas . En este entendimiento, la inteligencia se representa a través de la metáfora de una supercomputadora, y su mecánica de bajo nivel permite adquirir un conjunto ilimitado de habilidades "desde cero", "según los datos".

Ambos conceptos se consideran actualmente inválidos. ¯ \ _ (ツ) _ / ¯

Evaluación de IA: de la evaluación de habilidades a la evaluación de habilidades amplias


Las pruebas en conjuntos de datos dados se han convertido en el principal impulsor del progreso en el campo de la IA, porque son reproducibles (el conjunto de pruebas es fijo), justas (el conjunto de pruebas es el mismo para todos), escalables (la repetición repetida de la prueba no conlleva altos costos). Muchas pruebas populares, DARPA Grand Challenge [3], Premio Netflix, contribuyeron al desarrollo de nuevos algoritmos para modelos ML.

Con resultados positivos, incluso los obtenidos por la ruta más corta (con sobreajuste y muletas), el nivel de calidad esperado aumenta constantemente. McCordack lo llamó el "efecto AI": "Cada vez que a alguien se le ocurrió una nueva forma de hacer que la computadora haga algo nuevo (jugar a las damas), los críticos que dijeron:" Esto no está pensando "necesariamente aparecieron" [7]. Cuando sabemos exactamente cómo una máquina hace algo "inteligente", dejamos de pensar que es inteligente.

El "efecto AI" aparece porque el proceso de usar la inteligencia es confuso (por ejemplo, el proceso de aprender una red neuronal para jugar al ajedrez) y el artefacto creado por dicho proceso (el modelo resultante). La razón de la confusión es simple: en una persona, estas dos cosas son inseparables.

Para dejar de evaluar solo los artefactos y la capacidad misma de aprender y adquirir nuevas habilidades, introducen el concepto de un "rango de generalización", en el que el sistema asume valores graduales.

  • Falta de generalización . Los sistemas de inteligencia artificial, en los que no hay incertidumbre ni novedad, no demuestran la capacidad de generalizar, por ejemplo: un programa para jugar tic-tac-toe, que gana mediante una búsqueda exhaustiva de opciones.
  • La generalización local, o "confiabilidad", es la capacidad de un sistema para procesar nuevos puntos de una distribución conocida para una sola tarea. Por ejemplo, se realizó una clasificación local mediante un clasificador de imágenes, que puede distinguir imágenes de gatos con gatos que no se habían visto anteriormente de imágenes con formato similar de perros después de entrenar en muchas imágenes similares de gatos y perros.
  • , «» — : , , « ». , , « » ( ) [16], .
  • . , , — « ». ( , , ).

La historia de la IA es una historia de desarrollo lento, que comienza con sistemas que no demuestran la capacidad de generalizar (IA simbólica) y termina con sistemas confiables (aprendizaje automático) capaces de generalización local.

Actualmente estamos en una nueva etapa en la que nos esforzamos por crear sistemas flexibles: existe un creciente interés en utilizar una amplia gama de tareas de prueba para evaluar los sistemas que desarrollan flexibilidad:

  1. criterios de referencia GLUE [13] y SuperGLUE [12] para el procesamiento del lenguaje natural
  2. Entorno de aprendizaje arcade para agentes de aprendizaje de refuerzo [1],
  3. plataforma para experimentos e investigación de AI "Malmo Project",
  4. Conjunto de experimentos de Behavior Suite [8]

Además de tales pruebas multitarea, recientemente se han propuesto dos conjuntos de pruebas para evaluar la capacidad de generalizar, en lugar de la capacidad de resolver problemas específicos:

  1. Olimpiada de los Juegos Olímpicos de Animales de IA [2] ( animalaiolympics.com )
  2. y la competencia GVG-AI [9] ( gvgai.net ).

Ambas pruebas se basan en el supuesto de que los agentes de IA deben ser evaluados para el aprendizaje o la planificación (en lugar de las habilidades especiales) mediante la resolución de un conjunto de tareas o juegos que antes desconocían.



Nuevo concepto


¿Cómo comparar la inteligencia artificial con la humana, si el nivel de diferentes habilidades cognitivas varía para diferentes personas?

Los resultados de las pruebas de inteligencia en personas con diferentes habilidades pueden coincidir; este es un hecho bien conocido de la psicología cognitiva. Él muestra que la cognición es un objeto multidimensional, estructurado jerárquicamente en la imagen de una pirámide con habilidades amplias y estrechas, en la parte superior de las cuales hay un factor de inteligencia general. Pero, ¿es la "inteligencia fuerte" realmente la cima de la pirámide cognitiva?

El teorema " no hay comidas gratis”[14, 15] nos dice que dos algoritmos de optimización (incluida la inteligencia humana) son equivalentes cuando se promedia su rendimiento para cada tarea posible. Es decir, para lograr un rendimiento más alto que el aleatorio, los algoritmos deben ser más precisos para su tarea objetivo. Sin embargo, en este contexto, "cualquier tarea posible" significa una distribución uniforme sobre el área temática. La distribución de tareas que serían relevantes específicamente para nuestro Universo no correspondería a dicha definición. Por lo tanto, podemos hacer la siguiente pregunta: ¿es universal el factor de inteligencia humana?

De hecho, hasta ahora las personas han recopilado muy poca información sobre las capacidades cognitivas de los agentes que los rodean: otras personas (en diferentes culturas, la "inteligencia" se evalúa de manera diferente) y los animales, por ejemplo, pulpos o ballenas.

Aparentemente, la inteligencia humana está lejos de ser universal: no es adecuada para una gran cantidad de tareas para las cuales nuestro conocimiento innato a priori no está adaptado.

Por ejemplo, las personas pueden resolver de manera muy efectiva algunos pequeños problemas de complejidad polinómica si se cruzan mentalmente con tareas evolutivamente familiares como la navegación. Entonces, el problema del vendedor ambulante con un pequeño número de puntos puede ser resuelto por una persona de manera casi óptima en un tiempo óptimo casi lineal [6], utilizando una estrategia de percepción. Sin embargo, si en lugar de "encontrar el camino más corto", pídale que encuentre el camino más largo [5], entonces una persona enfrentará mucho peor que uno de los algoritmos heurísticos más simples: el algoritmo de "vecino distante".



Los autores sostienen que la cognición humana se desarrolla de la misma manera que las habilidades físicas de una persona: ambas desarrolladas en el proceso de evolución para resolver problemas específicos en entornos específicos (estas tareas se conocen como " cuatro F"- cuatro instintos básicos: pelear, huir, alimentarse y fornicar: golpear, correr, alimentar y criar).

El mensaje principal de este trabajo es que la "inteligencia fuerte" es una propiedad del sistema que no se puede determinar en binario: "lo es o no". No, este es un rango que depende de:

  1. alcance, que puede ser más o menos amplio;
  2. el grado de eficiencia con el que el sistema transforma el conocimiento y la experiencia a priori en nuevas habilidades en un área determinada;
  3. El grado de complejidad de la generalización representada por varios puntos en el área bajo consideración.

El "valor" de una esfera de aplicación de la inteligencia en comparación con otra es absolutamente subjetivo: no estaríamos interesados ​​en un sistema cuya esfera de aplicación no se superponga con la nuestra. Y ni siquiera considerarían tal sistema intelectual.

?


  • , .
  • ( ).
  • :
    ◦ , – , ,
    ◦ , – (), () ( )
  • Debe controlar la cantidad de experiencia utilizada por los sistemas durante el entrenamiento. "Comprar" la efectividad de un punto de referencia seleccionando datos de entrenamiento ilimitados debería ser imposible.
  • Debe proporcionar una descripción clara y completa del conjunto de conocimientos iniciales utilizados.
  • Debe trabajar de manera imparcial tanto para las personas como para las máquinas, utilizando el mismo conocimiento que utilizan las personas.

El primer intento de hacer tal prueba se describe a continuación.

Prueba sugerida: conjunto de datos ARC


El ARC puede considerarse como una prueba de referencia de inteligencia artificial fuerte, como una prueba de referencia de síntesis de software o como una prueba psicométrica de inteligencia. Está dirigido tanto a humanos como a sistemas de inteligencia artificial diseñados para simular una fuerte inteligencia móvil similar a la inteligencia humana. El formato recuerda un poco a las matrices progresivas de Raven [4], una prueba de coeficiente intelectual clásica que data de la década de 1930.

ARC incluye dos conjuntos de datos: capacitación y evaluación. Hay 400 en el conjunto de entrenamiento y 600 en el conjunto de evaluación.

Además, el conjunto de evaluación también se divide en dos: abierto (400 tareas) y cerrado (200 tareas). Todas las tareas propuestas son únicas, y el conjunto de tareas de evaluación no se cruza con el conjunto de formadores.

Los datos de la tarea se pueden encontrar en el repositorio .

Cada tarea consta de una pequeña cantidad de demostraciones y casos de prueba. Las demostraciones promediaron 3.3 por tarea, las pruebas de uno a tres, con mayor frecuencia una. Cada ejemplo, a su vez, consiste en una cuadrícula de entrada y una cuadrícula de salida.

Tal "cuadrícula" es una matriz de ciertos caracteres (cada uno de los cuales, por regla general, está resaltado por un determinado color):



hay 10 caracteres únicos (o colores) en total. Una "cuadrícula" puede ser de cualquier altura o anchura, desde 1x1 hasta 30x30 inclusive (promedio altura - 9, ancho promedio - 10).

Al resolver el problema de evaluación, el participante de la prueba obtiene acceso a ejemplos de capacitación (tanto “entrada” como “cuadrícula de salida”), así como a las condiciones iniciales para completar la tarea de prueba: “cuadrícula de entrada” de los ejemplos de prueba (evaluación) correspondientes. Luego, el participante de la prueba debe construir su propia "cuadrícula de salida" para la "cuadrícula de entrada" de cada caso de prueba.

La construcción de la "cuadrícula de salida" se lleva a cabo exclusivamente desde cero, es decir, el participante de la prueba debe decidir por sí mismo cuál debe ser la altura y el ancho de esta "cuadrícula", qué símbolos deben colocarse y dónde. Se cree que el problema se resuelve con éxito si el participante de la prueba puede dar una respuesta precisa y correcta para todos los casos de prueba incluidos en él (un indicador de éxito de dos partes).

La presencia de un conjunto de evaluación cerrado nos permite controlar estrictamente la pureza de la evaluación en una competencia abierta. Ejemplos de trabajos ARC:



una tarea cuyo objetivo implícito es completar un circuito simétrico. La naturaleza de esta tarea está determinada por tres ejemplos de entrada / salida. El participante de la prueba debe trazar una cuadrícula de salida correspondiente a la cuadrícula de entrada (ver abajo a la derecha).



La tarea de eliminar el "ruido".



El objeto rojo "se mueve" hacia el azul hasta que entra en contacto con él.



Una tarea cuyo objetivo implícito es continuar (extrapolar) una línea diagonal que "rebota" cuando entra en contacto con un obstáculo rojo.



Una tarea en la que es necesario completar una serie de acciones a la vez: "continuar la línea", "evitar obstáculos" y "lograr efectivamente el objetivo final" (en una tarea real, se dan más pares de demostración).

ARC no se proporciona como una prueba perfecta y completa, sin embargo, tiene propiedades importantes:

  • Cada tarea de prueba es nueva y se basa en un conjunto claro de conocimiento inicial común a todos los participantes de la prueba.
  • las personas pueden resolverlo por completo, pero no se puede lograr con la ayuda de ninguna técnica de aprendizaje automático existente (incluido el aprendizaje profundo).
  • La prueba puede ser un "patio de recreo" muy interesante para los investigadores de IA que estén interesados ​​en desarrollar algoritmos que sean capaces de una amplia generalización que actúe como un humano. Además, ARC nos brinda la oportunidad de comparar la inteligencia humana y la máquina, ya que les brindamos el mismo conocimiento inicial.

El autor planea mejorar aún más el ARC, tanto como una plataforma para la investigación, como un punto de referencia conjunto para la inteligencia humana y la máquina.

¿Qué opinas? ¿Tal vez la idea principal será más exitosa si logramos distraer la atención de la fuerte comunidad de inteligencia artificial de tratar de superar a las personas en tareas específicas?

Literatura


  • [1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
  • [2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
  • [3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
  • [4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
  • [5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
  • [6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
  • [7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
  • [8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
  • [9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
  • [10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
  • [11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
  • [12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
  • [13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
  • [14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
  • [15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
  • [16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

All Articles