🚝 🧗🏽 🔚 Como avaliar a inteligência? Abordagem do Google 🔗 👟 🤸🏽

Por mim mesmo:

em novembro de 2019, foi lançado um artigo programático do Google “On Assessing Intelligence” de Francois Schollet (criador de Keras).
64 páginas são dedicadas a como a compreensão moderna da IA apareceu, por que o aprendizado de máquina está tão longe disso e por que ainda não podemos medir adequadamente a "inteligência".

Para que a seleção seja justa, a tarefa de todos é uma: subir em uma árvore

Nossa equipe está envolvida na PNL e na metodologia geral de testes de IA, levando em consideração as últimas tendências em transformadores universais como o BERT, que são avaliados por testes de lógica e senso comum. Assim, a PNL assume todas as novas tarefas associadas à reprodução de ações cada vez mais complexas e, de fato, refletindo os mecanismos do pensamento. Descobriu-se que outras áreas da ML agarraram seu pedaço de torta nessa direção. Por exemplo, CV - " Animal AI Challenge ".

Está claro que agora é "melhor", se possível, tornar os modelos ML mais interpretáveis, não usar 10 classificadores pequenos, mas treinar um modelo e assim por diante, mas a que distância está da "inteligência" real?

Spoiler:

O artigo do programa fornece uma análise detalhada e devastadora da pesquisa no campo da avaliação técnica da IA moderna.

No final do artigo, o autor oferece seu próprio teste e conjunto de dados para ele: Corpus de Abstração e Raciocínio (ARC), vinculado ao pensamento abstrato.

Mas mais sobre tudo.

Sinopse de "Sobre a Medida da Inteligência"

Para criar conscientemente sistemas artificiais mais inteligentes e mais semelhantes aos humanos, precisamos de uma definição clara de inteligência e da capacidade de avaliá-la. Isso é necessário para comparar corretamente dois sistemas ou um sistema com uma pessoa. Ao longo do século passado, foram feitas muitas tentativas para determinar e medir a inteligência, tanto no campo da psicologia quanto no da IA.

A moderna comunidade ML ainda gosta de comparar as habilidades que a IA e as pessoas demonstram - ao jogar jogos de mesa e computador, ao resolver problemas. Mas para avaliar a inteligência, não basta medir apenas a capacidade de resolver uma tarefa. Por quê? Porque essa capacidade é formada em grande parte não pelo intelecto, mas pelo conhecimento e experiência anteriores. E você pode "comprá-los". Alimentando o sistema com uma quantidade ilimitada de dados de treinamento ou informações preliminares, os experimentadores podem não apenas levar a máquina a um nível arbitrário de habilidades, mas também ocultar a capacidade do sistema em si para generalização intelectual.

O artigo propõe 1) uma nova definição oficial de inteligência baseada na eficácia da aquisição de habilidades; 2) um novo teste para a capacidade de formar abstrações e conclusões lógicas (Abstraction and Reasoning Corpus, ARC). O ARC pode ser usado para medir a forma humana de inteligência em movimento forte; isso permite comparar numericamente a inteligência relativamente forte da IA e dos sistemas humanos.

É necessária uma definição praticamente útil de inteligência e suas métricas.

O objetivo do desenvolvimento da IA é criar máquinas com inteligência comparável à inteligência das pessoas. (Portanto, o objetivo foi formulado desde o início da inteligência artificial no início dos anos 50 do século XX e, desde então, essa formulação foi preservada).

Mas enquanto podemos criar sistemas que se saem bem com tarefas específicas. Esses sistemas são imperfeitos: são frágeis, exigem mais e mais dados, são incapazes de entender exemplos que se desviam um pouco do conjunto de treinamento e não podem ser reconfigurados para resolver novos problemas sem a ajuda de pessoas.

A razão para isso é que ainda não podemos responder inequivocamente à pergunta sobre o que é inteligência. Os testes existentes, por exemplo, o teste de Turing [11] e o prêmio Loebner [10], não podem servir como impulsionadores do progresso, pois excluem completamente a capacidade de determinar e medir objetivamente a inteligência, mas contam com uma avaliação subjetiva.

Nosso objetivo é apontar preconceitos implícitos na indústria e também oferecer uma definição prática de definição prática e critérios para avaliar um intelecto forte como o intelecto humano.

Definição de inteligência: duas abordagens conflitantes

A definição básica total de IA é: "A inteligência mede a capacidade do agente de atingir objetivos em uma ampla variedade de ambientes". Não explica nada?

Todo o conflito na ciência moderna se resume ao que é considerado o ponto de partida da inteligência natural:

A mente é um conjunto estático de mecanismos para fins especiais, formados pela evolução para obviamente certas tarefas. Este ponto de vista do darwinismo, da psicologia evolucionária e dos neurofisiologistas apóia o conceito de modularidade biológica da consciência .
A compreensão da mente como uma ampla gama de programas verticais relativamente estáticos que juntos formam "inteligência" também foi desenvolvida por Marvin Minsky, o que acabou levando à compreensão da IA como uma emulação de resultados humanos em uma determinada lista de tarefas de teste.
tabula rasa: a mente é uma “folha limpa” de propósito indefinido, capaz de transformar experiências arbitrárias em conhecimentos e habilidades para resolver qualquer problema. Este é o ponto de vista de Alan Turing e dos conexionistas . Nesse entendimento, a inteligência é representada através da metáfora de um supercomputador, e sua mecânica de baixo nível torna possível adquirir um conjunto ilimitado de habilidades "do zero", "de acordo com os dados".

Atualmente, ambos os conceitos são considerados inválidos. ¯ \ _ (ツ) _ / ¯

Avaliação da IA: da avaliação de habilidades à avaliação de amplas habilidades

Os testes em determinados conjuntos de dados tornaram-se o principal fator de progresso no campo da IA, porque são reproduzíveis (o conjunto de testes é fixo), justo (o conjunto de testes é o mesmo para todos), escalonável (repetição repetida do teste não leva a altos custos). Muitos testes populares - DARPA Grand Challenge [3], Prêmio Netflix - contribuíram para o desenvolvimento de novos algoritmos para modelos ML.

Com resultados positivos, mesmo os obtidos pela rota mais curta (com sobreajuste e muletas), o nível esperado de qualidade está constantemente subindo. McCordack chamou isso de “efeito AI”: “Toda vez que alguém criava uma nova maneira de fazer o computador fazer algo novo (jogo de damas), críticos que diziam:“ Isso não está pensando ”necessariamente apareciam” [7]. Quando sabemos exatamente como uma máquina faz algo "inteligente", deixamos de pensar que é inteligente.

O "efeito AI" aparece porque o processo de usar a inteligência é confuso (por exemplo, o processo de aprender uma rede neural para jogar xadrez) e o artefato criado por esse processo (o modelo resultante). O motivo da confusão é simples - em uma pessoa, essas duas coisas são inseparáveis.

Para deixar de avaliar apenas artefatos e a própria capacidade de aprender e adquirir novas habilidades, eles introduzem o conceito de um "intervalo de generalização", no qual o sistema assume valores graduais.

Falta de generalização . Os sistemas de IA, nos quais não há incerteza e novidade, não demonstram a capacidade de generalizar, por exemplo: um programa para jogar jogo da velha, que vence por exaustiva busca de opções.
Generalização local, ou "confiabilidade", é a capacidade de um sistema processar novos pontos a partir de uma distribuição conhecida para uma única tarefa. Por exemplo, uma classificação local foi realizada por um classificador de imagens, que pode distinguir imagens de gatos previamente invisíveis de gatos de imagens de cães com formato semelhante após o treinamento em muitas imagens semelhantes de gatos e cães.
, «» — : , , « ». , , « » ( ) [16], .
. , , — « ». ( , , ).

A história da IA é uma história de desenvolvimento lento, começando por sistemas que não demonstram a capacidade de generalizar (AI simbólica) e terminando com sistemas confiáveis (aprendizado de máquina) capazes de generalização local.

Atualmente, estamos em um novo estágio em que estamos nos esforçando para criar sistemas flexíveis - há um interesse crescente em usar uma ampla gama de tarefas de teste para avaliar sistemas que desenvolvem flexibilidade:

critérios de referência GLUE [13] e SuperGLUE [12] para processamento de linguagem natural
Ambiente de aprendizado em arcade para agentes de aprendizado por reforço [1],
plataforma para experimentos e pesquisas de AI "Malmo Project",
Conjunto de experimentos do Behavior Suite [8]

Além desses testes de multitarefa, recentemente foram propostos dois conjuntos de testes para avaliar a capacidade de generalização, em vez da capacidade de resolver problemas específicos:

Olimpíada das Olimpíadas com IA de animais [2] ( animalaiolympics.com )
e a competição GVG-AI [9] ( gvgai.net ).

Ambos os testes são baseados no pressuposto de que os agentes de IA devem ser avaliados quanto a aprendizado ou planejamento (em vez de habilidades especiais), resolvendo um conjunto de tarefas ou jogos desconhecidos antes.

Novo conceito

Como comparar a inteligência artificial com a humana, se o nível de diferentes habilidades cognitivas varia para pessoas diferentes?

Os resultados dos testes de inteligência em pessoas com habilidades diferentes podem coincidir - esse é um fato bem conhecido da psicologia cognitiva. Ele mostra que a cognição é um objeto multidimensional, estruturado hierarquicamente à imagem de uma pirâmide com habilidades amplas e estreitas, no topo da qual é um fator de inteligência geral. Mas a "inteligência forte" é realmente o topo da pirâmide cognitiva?

O teorema “ sem refeições grátis”[14, 15] nos diz que quaisquer dois algoritmos de otimização (incluindo inteligência humana) são equivalentes quando a média de desempenho é calculada para cada tarefa possível. Ou seja, para obter um desempenho superior ao aleatório, os algoritmos devem ser aprimorados para a tarefa de destino. No entanto, neste contexto, "qualquer tarefa possível" significa distribuição uniforme na área de assunto. A distribuição de tarefas que seriam relevantes especificamente para o nosso universo não corresponderia a essa definição. Assim, podemos fazer a seguinte pergunta: o fator de inteligência humana é universal?

De fato, até agora as pessoas coletaram muito pouca informação sobre as habilidades cognitivas dos agentes que os cercavam - outras pessoas (em diferentes culturas, a “inteligência” é avaliada de maneira diferente) e os animais, por exemplo, polvos ou baleias.

Aparentemente, a inteligência humana está longe de ser universal: não é adequada para um grande número de tarefas para as quais nosso conhecimento inato a priori não está adaptado.

Por exemplo, as pessoas podem efetivamente resolver alguns pequenos problemas de complexidade polinomial se cruzarem mentalmente com tarefas evolutivamente familiares, como a navegação. Portanto, o problema do vendedor ambulante com um pequeno número de pontos pode ser resolvido por uma pessoa quase idealmente em um horário ótimo quase linear [6], usando uma estratégia de percepção. No entanto, se em vez de "encontrar o caminho mais curto" pedir que ele encontre o caminho mais longo [5], uma pessoa enfrentará muito pior do que um dos algoritmos heurísticos mais simples: o algoritmo "vizinho distante".

Os autores argumentam que a cognição humana se desenvolve da mesma maneira que as habilidades físicas de uma pessoa: ambas desenvolvidas no processo de evolução para resolver problemas específicos em ambientes específicos (essas tarefas são conhecidas como " quatro"- quatro instintos básicos: lutar, fugir, alimentar e fornicar: bater, correr, alimentar e procriar).

A principal mensagem deste trabalho é que "inteligência forte" é uma propriedade do sistema que não pode ser determinada como binária: "é ou não". Não, este é um intervalo, dependendo de:

escopo, que pode ser mais ou menos amplo;
o grau de eficiência com o qual o sistema transforma conhecimentos e experiências a priori em novas habilidades em uma determinada área;
o grau de complexidade da generalização representada por vários pontos na área em consideração.

O "valor" de uma esfera de aplicação da inteligência em comparação com outra é absolutamente subjetivo - não estaríamos interessados em um sistema cuja esfera de aplicação não se sobrepusesse à nossa. E eles nem considerariam esse sistema intelectual.

?

, .
( ).
:
◦ , – , ,
◦ , – (), () ( )
Ele deve controlar a quantidade de experiência usada pelos sistemas durante o treinamento. "Comprar" a eficácia de um benchmark selecionando dados de treinamento ilimitados deve ser impossível.
Deve fornecer uma descrição clara e abrangente do conjunto de conhecimentos iniciais utilizados.
Ele deve trabalhar de forma imparcial para pessoas e máquinas, usando o mesmo conhecimento que as pessoas usam.

A primeira tentativa de fazer esse teste é descrita abaixo.

Teste sugerido: conjunto de dados ARC

O ARC pode ser considerado como um teste de referência de forte inteligência artificial, como um teste de síntese de software ou como um teste psicométrico de inteligência. Ele tem como alvo humanos e sistemas de inteligência artificial projetados para simular uma forte inteligência em movimento semelhante à inteligência humana. O formato lembra um pouco as matrizes progressivas de Raven [4], um teste de QI clássico que remonta à década de 1930.

O ARC inclui dois conjuntos de dados: treinamento e avaliação. Existem 400 no conjunto de treinamento e 600 no conjunto de avaliação.

Além disso, o conjunto de avaliações também é dividido em dois: aberto (400 tarefas) e fechado (200 tarefas). Todas as tarefas propostas são únicas e o conjunto de tarefas de avaliação não se cruza com o conjunto de treinadores.

Os dados da tarefa podem ser encontrados no repositório .

Cada tarefa consiste em um pequeno número de demos e casos de teste. As manifestações tiveram uma média de 3,3 por tarefa, as de um a três, na maioria das vezes uma. Cada exemplo, por sua vez, consiste em uma grade de entrada e uma grade de saída.

Essa “grade” é uma matriz de certos símbolos (cada um dos quais, em regra, é destacado em uma determinada cor):

Existem 10 símbolos (ou cores) exclusivos no total. Uma “grade” pode ter qualquer altura ou largura - de 1x1 a 30x30, inclusive (média altura - 9, largura média - 10).

Ao resolver o problema de avaliação, o participante do teste obtém acesso a exemplos de treinamento (“entrada” e “grade de saída”), bem como às condições iniciais para concluir a tarefa de teste - “grade de entrada” dos exemplos correspondentes de teste (avaliação). Em seguida, o participante do teste deve criar sua própria “grade de saída” para a “grade de entrada” de cada caso de teste.

A construção da "grade de saída" é realizada exclusivamente do zero, ou seja, o participante do teste deve decidir por si mesmo qual deve ser a altura e a largura dessa "grade", quais símbolos devem ser colocados nela e onde. Acredita-se que o problema seja resolvido com sucesso se o participante do teste puder fornecer uma resposta precisa e correta para todos os casos de teste incluídos nele (um indicador de sucesso em duas partes).

A presença de um conjunto fechado de avaliações nos permite monitorar rigorosamente a pureza da avaliação em uma competição aberta. Exemplos de tarefas do ARC:

uma tarefa cujo objetivo implícito é concluir um circuito simétrico. A natureza desta tarefa é determinada por três exemplos de entrada / saída. O participante do teste deve elaborar uma grade de saída correspondente à grade de entrada (consulte o canto inferior direito).

A tarefa de eliminar o "ruído".

O objeto vermelho "se move" em direção ao azul até entrar em contato com ele.

Uma tarefa cujo objetivo implícito é continuar (extrapolar) uma linha diagonal que “salta” quando entra em contato com um obstáculo vermelho.

Uma tarefa em que é necessário concluir várias ações ao mesmo tempo: “continue a linha”, “contorne obstáculos” e “atinja efetivamente o objetivo final” (em uma tarefa real, são apresentados mais pares de demonstração).

O ARC não é fornecido como um teste perfeito e completo, no entanto, possui propriedades importantes:

Cada tarefa de teste é nova e conta com um conjunto claro de conhecimento inicial comum a todos os participantes do teste.
Ele pode ser completamente resolvido por pessoas, mas não pode ser realizado com a ajuda de nenhuma técnica de aprendizado de máquina existente (incluindo aprendizado profundo).
o teste pode ser um "playground" muito interessante para pesquisadores de IA interessados em desenvolver algoritmos capazes de generalizar amplamente que age como um ser humano. Além disso, o ARC nos dá a oportunidade de comparar a inteligência humana e da máquina, pois fornecemos o mesmo conhecimento inicial.

O autor planeja melhorar ainda mais o ARC - como plataforma de pesquisa e como referência conjunta de inteligência humana e de máquinas.

O que você acha - talvez a idéia principal seja mais bem-sucedida se conseguirmos distrair a atenção da forte comunidade de IA de tentar ultrapassar as pessoas em tarefas específicas?

Literatura

[1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
[2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
[3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
[4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
[5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
[6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
[7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
[8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
[9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
[10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
[11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
[12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
[13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
[14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
[15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
[16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

Como avaliar a inteligência? Abordagem do Google