Bagaimana cara mengevaluasi kecerdasan? Pendekatan Google

Dari saya sendiri:

Pada November 2019, sebuah artikel terprogram dari Google "Tentang Menilai Inteligensi" oleh Francois Schollet (pencipta Keras) dirilis.
64 halaman dikhususkan untuk bagaimana pemahaman modern tentang AI muncul, mengapa pembelajaran mesin sangat jauh dari itu, dan mengapa kita masih belum bisa mengukur "kecerdasan" secara memadai.


Agar seleksi adil, tugas untuk semua adalah satu: memanjat pohon

Tim kami terlibat dalam NLP dan metodologi umum tes AI, dengan mempertimbangkan tren terbaru dalam transformer universal seperti BERT, yang dievaluasi dengan tes logika dan akal sehat. Jadi, NLP mengambil semua tugas baru yang terkait dengan reproduksi tindakan yang semakin kompleks dan, pada kenyataannya, mencerminkan mekanisme berpikir. Ternyata area lain dari ML meraih pai mereka ke arah ini. Misalnya, CV - " Animal AI Challenge ".

Jelas bahwa sekarang "lebih baik" jika memungkinkan untuk membuat model-ML lebih dapat ditafsirkan, bukan untuk menggunakan 10 pengklasifikasi kecil, tetapi untuk melatih satu model, dan sebagainya, tetapi seberapa jauh jaraknya dari "kecerdasan" nyata?

Spoiler:
.

Artikel program memberikan analisis penelitian yang terperinci dan menghancurkan di bidang penilaian teknis AI modern.

Di akhir artikel, penulis menawarkan tes dan dataset sendiri untuknya: Abstraction and Reasoning Corpus (ARC), terkait dengan pemikiran abstrak.

Tetapi lebih banyak tentang segalanya.

Sinopsis "Tentang Ukuran Kecerdasan"


Untuk secara sadar menciptakan sistem buatan yang lebih cerdas dan lebih mirip manusia, kita membutuhkan definisi kecerdasan yang jelas dan kemampuan untuk mengevaluasinya. Ini diperlukan untuk membandingkan dua sistem dengan benar, atau sistem dengan seseorang. Selama abad yang lalu, banyak upaya telah dilakukan untuk menentukan dan mengukur kecerdasan baik di bidang psikologi dan di bidang AI.

Komunitas ML modern masih suka membandingkan keterampilan yang diperlihatkan AI dan orang-orang - saat bermain meja dan permainan komputer, saat memecahkan masalah. Tetapi untuk menilai kecerdasan, tidak cukup hanya mengukur kemampuan untuk menyelesaikan suatu tugas. Mengapa? Karena kemampuan ini sebagian besar dibentuk bukan oleh intelek, tetapi oleh pengetahuan dan pengalaman sebelumnya. Dan Anda bisa "membelinya". Memberi makan sistem jumlah data pelatihan atau informasi awal yang tidak terbatas, para eksperimen tidak hanya dapat membawa mesin ke tingkat keterampilan yang sewenang-wenang, tetapi juga menyembunyikan kemampuan sistem itu sendiri untuk generalisasi intelektual.

Artikel ini mengusulkan 1) definisi resmi intelijen yang baru berdasarkan efektivitas perolehan keterampilan; 2) tes baru untuk kemampuan untuk membentuk abstraksi dan kesimpulan logis (Abstraction and Reasoning Corpus, ARC). ARC dapat digunakan untuk mengukur bentuk manusia dari kecerdasan bergerak yang kuat, ini memungkinkan Anda untuk membandingkan kecerdasan AI dan sistem manusia secara numerik yang relatif kuat.

Definisi praktis yang berguna tentang kecerdasan dan metriknya diperlukan.


Tujuan pengembangan AI adalah untuk menciptakan mesin dengan kecerdasan yang sebanding dengan kecerdasan manusia. (Jadi tujuannya dirumuskan sejak awal kecerdasan buatan pada awal 50-an abad kedua puluh, dan sejak itu formulasi ini telah dipertahankan).

Tetapi sementara kita dapat membuat sistem yang melakukan dengan baik dengan tugas-tugas tertentu. Sistem ini tidak sempurna: mereka rapuh, membutuhkan lebih banyak data, tidak dapat memahami contoh-contoh yang sedikit menyimpang dari perangkat pelatihan, dan tidak dapat dikonfigurasi ulang untuk memecahkan masalah baru tanpa bantuan orang.

Alasan untuk ini adalah bahwa kita masih tidak dapat dengan jelas menjawab pertanyaan tentang apakah kecerdasan itu. Tes yang ada, misalnya, tes Turing [11] dan hadiah Loebner [10], tidak dapat berfungsi sebagai pendorong kemajuan, karena tes tersebut sepenuhnya mengecualikan kemampuan untuk secara objektif menentukan dan mengukur kecerdasan, tetapi mengandalkan penilaian subyektif.

Tujuan kami adalah untuk menunjukkan prasangka implisit dalam industri, dan juga untuk menawarkan definisi praktis dari definisi praktis dan kriteria untuk mengevaluasi kecerdasan yang kuat seperti kecerdasan manusia.

Definisi kecerdasan: dua pendekatan yang saling bertentangan


Definisi dasar total AI adalah: "Kecerdasan mengukur kemampuan agen untuk mencapai tujuan di berbagai lingkungan." Tidak menjelaskan apa pun?

Seluruh konflik dalam sains modern bermuara pada apa yang dianggap sebagai titik awal kecerdasan alami:

  • pikiran adalah seperangkat mekanisme tujuan khusus statis yang dibentuk oleh evolusi untuk tugas-tugas tertentu yang jelas. Sudut pandang Darwinisme ini, psikologi evolusioner dan ahli neurofisiologi mendukung konsep modularitas kesadaran biologis .
    Pemahaman pikiran sebagai berbagai program vertikal, relatif statis yang bersama-sama membentuk "kecerdasan" juga dikembangkan oleh Marvin Minsky, yang pada akhirnya mengarah pada pemahaman AI sebagai emulasi hasil manusia pada daftar tugas tes yang diberikan.
  • tabula rasa: pikiran adalah "lembaran bersih" dari tujuan yang tidak terbatas, mampu mengubah pengalaman sewenang-wenang menjadi pengetahuan dan keterampilan untuk memecahkan masalah apa pun. Ini adalah sudut pandang Alan Turing dan connectionists . Dalam pemahaman ini, kecerdasan diwakili melalui metafora komputer super, dan mekanika tingkat rendahnya memungkinkan untuk memperoleh seperangkat keterampilan tanpa batas "dari awal", "menurut data".

Kedua konsep saat ini dianggap tidak valid. ¯ \ _ (ツ) _ / ¯

Penilaian AI: Dari Penilaian Keterampilan hingga Penilaian Kemampuan Luas


Tes pada set data yang diberikan telah menjadi pendorong utama kemajuan di bidang AI, karena mereka dapat direproduksi (set tes tetap), adil (set tes sama untuk semua orang), terukur (pengulangan tes berulang tidak menyebabkan biaya tinggi). Banyak tes populer - DARPA Grand Challenge [3], Hadiah Netflix - berkontribusi pada pengembangan algoritma baru untuk model-ML.

Dengan hasil positif, bahkan yang diperoleh dengan rute terpendek (dengan overfitting dan kruk), tingkat kualitas yang diharapkan terus meningkat. McCordack menyebutnya "efek AI": "Setiap kali seseorang datang dengan cara baru untuk membuat komputer melakukan sesuatu yang baru (bermain catur), kritikus yang mengatakan," Ini tidak berpikir "harus muncul" [7]. Ketika kita tahu persis bagaimana mesin melakukan sesuatu yang "pintar," kita berhenti berpikir itu pintar.

"Efek AI" muncul karena proses menggunakan kecerdasan bingung (misalnya, proses belajar jaringan saraf untuk bermain catur) dan artefak yang diciptakan oleh proses semacam itu (model yang dihasilkan). Alasan kebingungannya sederhana - dalam diri seseorang, kedua hal ini tidak dapat dipisahkan.

Untuk menjauh dari hanya mengevaluasi artefak, dan kemampuan untuk mempelajari dan memperoleh keterampilan baru, mereka memperkenalkan konsep "rentang generalisasi", di mana sistem mengasumsikan nilai bertahap.

  • Kurangnya generalisasi . Sistem AI, di mana tidak ada ketidakpastian dan kebaruan, tidak menunjukkan kemampuan untuk menggeneralisasi, misalnya: program untuk bermain tic-tac-toe, yang menang dengan pencarian opsi yang lengkap.
  • Generalisasi lokal, atau "keandalan", adalah kemampuan suatu sistem untuk memproses poin baru dari distribusi yang diketahui untuk satu tugas. Misalnya, klasifikasi lokal dilakukan oleh penggolong gambar, yang dapat membedakan gambar kucing yang sebelumnya tidak terlihat dengan kucing dari gambar anjing yang diformat serupa setelah pelatihan pada banyak gambar kucing dan anjing yang serupa.
  • , «» — : , , « ». , , « » ( ) [16], .
  • . , , — « ». ( , , ).

Sejarah AI adalah sejarah perkembangan yang lambat, mulai dari sistem yang tidak menunjukkan kemampuan untuk menggeneralisasi (AI simbolik), dan berakhir dengan sistem yang andal (pembelajaran mesin) yang mampu melakukan generalisasi lokal.

Kami saat ini berada pada tahap baru di mana kami berusaha untuk menciptakan sistem yang fleksibel - ada minat yang meningkat dalam menggunakan berbagai tugas uji untuk mengevaluasi sistem yang mengembangkan fleksibilitas:

  1. kriteria referensi GLUE [13] dan SuperGLUE [12] untuk pemrosesan bahasa alami
  2. Lingkungan pembelajaran arcade untuk agen pembelajaran penguatan [1],
  3. platform untuk percobaan dan penelitian AI "Proyek Malmo",
  4. Kumpulan percobaan Behavior Suite [8]

Selain tes multitasking tersebut, dua set tes baru-baru ini telah diusulkan untuk menilai kemampuan untuk menggeneralisasi, daripada kemampuan untuk memecahkan masalah tertentu:

  1. Olimpiade Olimpiade Satwa-AI [2] ( animalaiolympics.com )
  2. dan kompetisi GVG-AI [9] ( gvgai.net ).

Kedua tes didasarkan pada asumsi bahwa agen AI harus dinilai untuk pembelajaran atau perencanaan (daripada keterampilan khusus) dengan menyelesaikan serangkaian tugas atau permainan yang tidak diketahui sebelumnya.



Konsep baru


Bagaimana membandingkan kecerdasan buatan dengan manusia, jika tingkat kemampuan kognitif yang berbeda bervariasi untuk orang yang berbeda?

Hasil tes untuk kecerdasan pada orang dengan kemampuan yang berbeda mungkin bersamaan - ini adalah fakta psikologi kognitif yang terkenal. Dia menunjukkan bahwa kognisi adalah objek multidimensi, terstruktur secara hierarkis dalam citra piramida dengan keterampilan yang luas dan sempit, di atasnya adalah faktor kecerdasan umum. Tetapi apakah "kecerdasan kuat" benar-benar puncak piramida kognitif?

Teorema “ tidak ada makanan gratis”[14, 15] memberi tahu kita bahwa dua algoritme pengoptimalan (termasuk kecerdasan manusia) setara jika kinerjanya dirata-rata untuk setiap tugas yang mungkin. Artinya, untuk mencapai kinerja lebih tinggi daripada acak, algoritma harus dipertajam untuk tugas target mereka. Namun, dalam konteks ini, "tugas apa pun yang memungkinkan" berarti distribusi seragam di atas area subjek. Distribusi tugas yang relevan secara spesifik untuk Alam Semesta kita tidak akan sesuai dengan definisi seperti itu. Dengan demikian, kita dapat mengajukan pertanyaan berikut: apakah faktor kecerdasan manusia itu universal?

Faktanya, orang sejauh ini mengumpulkan terlalu sedikit informasi tentang kemampuan kognitif para agen yang mengelilinginya - orang lain (dalam budaya yang berbeda, "kecerdasan" dievaluasi secara berbeda) dan hewan, misalnya, gurita atau paus.

Rupanya, kecerdasan manusia jauh dari universal: tidak cocok untuk sejumlah besar tugas yang bawaan ilmu apriori bawaan kita tidak diadaptasi.

Misalnya, orang dapat dengan sangat efektif memecahkan beberapa masalah kecil kompleksitas polinomial jika mereka secara mental bersinggungan dengan tugas-tugas yang sudah dikenal secara evolusioner seperti navigasi. Jadi, masalah salesman keliling dengan sejumlah kecil poin dapat diselesaikan oleh seseorang yang hampir secara optimal dalam waktu yang optimal hampir linier [6], menggunakan strategi persepsi. Namun, jika alih-alih "menemukan jalur terpendek" minta dia untuk menemukan jalur terpanjang [5], maka seseorang akan mengatasi jauh lebih buruk daripada salah satu algoritma heuristik yang paling sederhana: algoritma "tetangga jauh".



Para penulis berpendapat bahwa kognisi manusia berkembang dengan cara yang sama dengan kemampuan fisik seseorang: keduanya dikembangkan dalam proses evolusi untuk memecahkan masalah spesifik di lingkungan tertentu (tugas-tugas ini dikenal sebagai " empat F")."- empat naluri dasar: berkelahi, melarikan diri, memberi makan dan berzina: memukul, berlari, memberi makan dan berkembang biak).

Pesan utama dari karya ini adalah bahwa "kecerdasan yang kuat" adalah properti dari sistem yang tidak dapat ditentukan biner: "apakah itu atau tidak". Tidak, ini kisaran tergantung pada:

  1. ruang lingkup, yang mungkin kurang lebih luas;
  2. tingkat efisiensi yang dengannya sistem mengubah pengetahuan dan pengalaman apriori menjadi keterampilan baru di bidang tertentu;
  3. tingkat kompleksitas generalisasi yang diwakili oleh berbagai titik di area yang dipertimbangkan.

"Nilai" dari satu bidang aplikasi intelijen dibandingkan dengan yang lain benar-benar subyektif - kita tidak akan tertarik pada sistem yang bidang aplikasinya tidak akan tumpang tindih dengan kita. Dan mereka bahkan tidak akan mempertimbangkan sistem intelektual semacam itu.

?


  • , .
  • ( ).
  • :
    ◦ , – , ,
    ◦ , – (), () ( )
  • Dia harus mengontrol jumlah pengalaman yang digunakan oleh sistem selama pelatihan. “Membeli” keefektifan tolok ukur dengan memilih data pelatihan tidak terbatas seharusnya tidak mungkin.
  • Ini harus memberikan deskripsi yang jelas dan komprehensif dari set pengetahuan awal yang digunakan.
  • Dia harus bekerja tanpa memihak untuk orang dan mesin, menggunakan pengetahuan yang sama yang digunakan orang.

Upaya pertama untuk melakukan tes tersebut dijelaskan di bawah ini.

Tes yang Disarankan: Dataset ARC


ARC dapat dianggap sebagai tes tolok ukur kecerdasan buatan yang kuat, sebagai tes tolok ukur sintesis perangkat lunak, atau sebagai tes psikometri kecerdasan. Ini menargetkan manusia dan sistem kecerdasan buatan yang dirancang untuk mensimulasikan kecerdasan bergerak yang kuat mirip dengan kecerdasan manusia. Formatnya agak mengingatkan pada matriks progresif Raven [4], tes IQ klasik sejak tahun 1930-an.

ARC mencakup dua set data: pelatihan dan penilaian. Ada 400 di set pelatihan, dan 600 di set evaluasi.

Selain itu, set penilaian juga dibagi menjadi dua: terbuka (400 tugas) dan tertutup (200 tugas). Semua tugas yang diusulkan unik, dan serangkaian tugas penilaian tidak bersinggungan dengan perangkat pelatih.

Data tugas dapat ditemukan di repositori .

Setiap tugas terdiri dari sejumlah kecil demo dan uji kasus. Demonstrasi rata-rata 3,3 per tugas, uji satu hingga tiga, paling sering satu. Setiap contoh, pada gilirannya, terdiri dari kisi masukan dan kisi keluaran.

"Kisi-kisi" semacam itu adalah matriks simbol-simbol tertentu (yang masing-masing, sebagai suatu peraturan, disorot dalam warna tertentu):



Ada total 10 simbol (atau warna) total. "Kisi" dapat memiliki ketinggian atau lebar apa pun - mulai dari 1x1 hingga 30x30 inklusif (rata-rata tinggi - 9, lebar rata-rata - 10).

Ketika memecahkan masalah penilaian, peserta tes mendapatkan akses ke contoh pelatihan (baik "input" dan "grid output"), serta kondisi awal untuk menyelesaikan tugas tes - "grid input" dari contoh tes (evaluasi) yang sesuai. Selanjutnya, peserta tes harus membangun "grid keluaran" sendiri untuk "grid input" dari setiap test case.

Konstruksi "grid output" dilakukan secara eksklusif dari awal, yaitu, peserta tes harus memutuskan sendiri berapa tinggi dan lebar "grid" ini, simbol apa yang harus ditempatkan di dalamnya dan di mana. Dipercayai bahwa masalah akan berhasil diselesaikan jika peserta tes dapat memberikan jawaban yang akurat dan benar untuk semua kasus uji yang termasuk di dalamnya (indikator keberhasilan dua bagian).

Kehadiran set penilaian tertutup memungkinkan kita untuk secara ketat memonitor kemurnian penilaian dalam kompetisi terbuka. Contoh pekerjaan ARC:



Tugas yang tujuan implisitnya adalah menyelesaikan sirkuit simetris. Sifat tugas ini ditentukan oleh tiga contoh input / output. Peserta tes harus menyusun kisi keluaran yang sesuai dengan kisi masukan (lihat kanan bawah).



Tugas menghilangkan "noise".



Objek merah "bergerak" ke arah biru sampai bersentuhan dengannya.



Tugas yang tujuan implisitnya adalah untuk melanjutkan (memperkirakan) garis diagonal yang "memantul" ketika bersentuhan dengan rintangan merah.



Sebuah tugas di mana diperlukan untuk menyelesaikan sejumlah tindakan sekaligus: "lanjutkan garis", "melewati rintangan" dan "secara efektif mencapai tujuan akhir" (dalam tugas nyata, lebih banyak pasangan demonstrasi diberikan).

ARC tidak disediakan sebagai tes yang sempurna dan lengkap, namun memiliki properti penting:

  • Setiap tugas tes adalah baru dan bergantung pada seperangkat pengetahuan awal yang jelas yang umum untuk semua peserta tes.
  • itu dapat sepenuhnya diselesaikan oleh orang-orang, tetapi tidak dapat dicapai dengan bantuan teknik pembelajaran mesin yang ada (termasuk pembelajaran yang mendalam).
  • tes bisa menjadi "taman bermain" yang sangat menarik bagi para peneliti AI yang tertarik mengembangkan algoritma yang mampu generalisasi luas yang bertindak seperti manusia. Selain itu, ARC memberi kami kesempatan untuk membandingkan kecerdasan manusia dan mesin, karena kami memberikan mereka pengetahuan awal yang sama.

Penulis berencana untuk lebih meningkatkan ARC - baik sebagai platform untuk penelitian, dan sebagai patokan bersama untuk mesin dan kecerdasan manusia.

Bagaimana menurut Anda - mungkin gagasan utama akan lebih berhasil jika kita berhasil mengalihkan perhatian komunitas AI yang kuat agar tidak melampaui orang dalam tugas tertentu?

literatur


  • [1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
  • [2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
  • [3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
  • [4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
  • [5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
  • [6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
  • [7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
  • [8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
  • [9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
  • [10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
  • [11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
  • [12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
  • [13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
  • [14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
  • [15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
  • [16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

All Articles