كيف تقيم الذكاء؟ نهج جوجل

من نفسي:

في تشرين الثاني (نوفمبر) 2019 ، تم إصدار مقالة برمجية من Google "On Evaluationing Intelligence" بقلم فرانسوا شوليه (منشئ Keras).
تم تخصيص 64 صفحة لكيفية ظهور الفهم الحديث للذكاء الاصطناعي ، ولماذا لا يزال التعلم الآلي بعيدًا عنه ، ولماذا ما زلنا لا نستطيع قياس "الذكاء" بشكل مناسب.


لكي يكون الاختيار عادلاً ، تكون المهمة للجميع واحدة: تسلق شجرة

يشارك فريقنا في البرمجة اللغوية العصبية والمنهجية العامة لاختبارات الذكاء الاصطناعي ، مع مراعاة أحدث الاتجاهات في المحولات العالمية مثل BERT ، والتي يتم تقييمها عن طريق اختبارات للمنطق والمنطق. لذا ، تتولى البرمجة اللغوية العصبية جميع المهام الجديدة المرتبطة باستنساخ الإجراءات المعقدة بشكل متزايد ، وفي الواقع ، تعكس آليات التفكير. اتضح أن مناطق أخرى من ML استولت على قطعة الفطيرة في هذا الاتجاه. على سبيل المثال ، السيرة الذاتية - " تحدي الذكاء الاصطناعي ".

من الواضح أنه أصبح من "الأفضل" الآن جعل نماذج ML أكثر قابلية للتفسير ، وليس استخدام 10 مصنفات صغيرة ، ولكن لتدريب نموذج واحد ، وما إلى ذلك ، ولكن إلى أي مدى هو بعيد عن "الذكاء" الحقيقي؟

المفسد:
.

تقدم مقالة البرنامج تحليلاً مفصلاً ومدمرًا للبحث في مجال التقييم الفني للذكاء الاصطناعي الحديث.

في نهاية المقال ، يقدم المؤلف اختباره ومجموعة بياناته الخاصة به: مجردة وجسم الاستدلال (ARC) ، المرتبط بالتفكير المجرد.

ولكن المزيد عن كل شيء.

نبذة عن "مقياس الذكاء"


من أجل إنشاء أنظمة اصطناعية أكثر ذكاءً وشبهًا للإنسان بوعي ، نحتاج إلى تعريف واضح للذكاء والقدرة على تقييمه. يعد ذلك ضروريًا لمقارنة نظامين أو نظامًا مع شخص بشكل صحيح. على مدار القرن الماضي ، تم إجراء العديد من المحاولات لتحديد وقياس الذكاء في مجال علم النفس وفي مجال الذكاء الاصطناعي.

لا يزال مجتمع ML الحديث يحب مقارنة المهارات التي يظهرها الذكاء الاصطناعي والناس - عند لعب الطاولة وألعاب الكمبيوتر ، عند حل المشكلات. ولكن لتقييم الذكاء ، لا يكفي فقط قياس القدرة على حل المهمة. لماذا ا؟ لأن هذه القدرة لا تتكون إلى حد كبير من العقل ، ولكن من خلال المعرفة والخبرة السابقة. ويمكنك "شرائها". من خلال تغذية النظام بكمية غير محدودة من بيانات التدريب أو المعلومات الأولية ، لا يستطيع المجربون فقط جلب الجهاز إلى مستوى تعسفي من المهارات ، ولكن أيضًا إخفاء مدى قدرة النظام نفسه على التعميم الفكري.

يقترح المقال 1) تعريف رسمي جديد للذكاء يعتمد على فعالية اكتساب المهارات. 2) اختبار جديد للقدرة على تشكيل التجريد والاستنتاجات المنطقية (مجردة التجميع والمنطق ، ARC). يمكن استخدام ARC لقياس الشكل البشري للذكاء المتحرك القوي ، وهذا يسمح لك بمقارنة الذكاء القوي نسبيًا للذكاء الاصطناعي والأنظمة البشرية.

هناك حاجة إلى تعريف مفيد عمليا للذكاء ومقاييسه.


الهدف من تطوير الذكاء الاصطناعي هو إنشاء آلات بذكاء يمكن مقارنتها بذكاء الناس. (لذلك تم صياغة الهدف منذ بداية الذكاء الاصطناعي في أوائل الخمسينات من القرن العشرين ، ومنذ ذلك الحين تم الحفاظ على هذه الصيغة).

ولكن بينما يمكننا إنشاء أنظمة تعمل بشكل جيد مع مهام محددة. هذه الأنظمة غير كاملة: فهي هشة ، وتتطلب المزيد والمزيد من البيانات ، وغير قادرة على فهم الأمثلة التي تنحرف قليلاً عن مجموعة التدريب ، ولا يمكن إعادة تكوينها لحل المشكلات الجديدة دون مساعدة الناس.

والسبب في ذلك أننا ما زلنا لا نستطيع الإجابة بشكل لا لبس فيه على السؤال عن ماهية الذكاء. الاختبارات الحالية ، على سبيل المثال ، اختبار تورينج [11] وجائزة لوبنر [10] ، لا يمكن أن تكون بمثابة محركات للتقدم ، لأنها تستبعد تمامًا القدرة على تحديد وقياس الذكاء بشكل موضوعي ، ولكنها تعتمد على تقييم ذاتي.

هدفنا هو الإشارة إلى التحيزات الضمنية في الصناعة ، وأيضًا تقديم تعريف عملي للتعريف والمعايير العملية لتقييم العقل القوي مثل العقل البشري.

تعريف الذكاء: نهجان متضاربان


التعريف الأساسي الكلي للذكاء الاصطناعي هو: "الذكاء يقيس قدرة الوكيل على تحقيق الأهداف في مجموعة واسعة من البيئات". لا يفسر شيئا؟

يعود الصراع بأكمله في العلم الحديث إلى ما يعتبر نقطة البداية للذكاء الطبيعي:

  • العقل هو مجموعة ثابتة من الآليات ذات الأغراض الخاصة التي يتم تشكيلها من قبل التطور لمهام معينة بشكل واضح. وجهة النظر هذه عن الداروينية وعلم النفس التطوري وعلماء الأعصاب يدعمون مفهوم الوحدة البيولوجية للوعي .
    تم تطوير فهم العقل كمجموعة واسعة من البرامج الرأسية الثابتة نسبيًا التي تشكل معًا "الذكاء" أيضًا بواسطة Marvin Minsky ، مما أدى في نهاية المطاف إلى فهم الذكاء الاصطناعي كمحاكاة للنتائج البشرية في قائمة معينة من مهام الاختبار.
  • tabula rasa: العقل عبارة عن "ورقة نظيفة" ذات غرض غير محدد ، قادر على تحويل الخبرة التعسفية إلى معرفة ومهارات لحل أي مشكلة. هذا هو وجهة نظر آلان تورينج و connectionists . في هذا الفهم ، يتم تمثيل الذكاء من خلال استعارة حاسوب خارق ، وميكانيكيته المنخفضة المستوى تجعل من الممكن اكتساب مجموعة غير محدودة من المهارات "من الصفر" ، "وفقًا للبيانات".

يعتبر كلا المفهومين غير صالحين حاليًا. ¯ \ _ (ツ) _ / ¯

تقييم الذكاء الاصطناعي: من تقييم المهارات إلى تقييم القدرات الواسعة


أصبحت الاختبارات على مجموعات بيانات معينة هي المحرك الرئيسي للتقدم في مجال الذكاء الاصطناعي ، لأنها قابلة للتكرار (مجموعة الاختبار ثابتة) ، عادلة (مجموعة الاختبار هي نفسها للجميع) ، قابلة للتطوير (التكرار المتكرر للاختبار لا يؤدي إلى ارتفاع التكاليف). ساهمت العديد من الاختبارات الشائعة - DARPA Grand Challenge [3] ، جائزة Netflix - في تطوير خوارزميات جديدة لنماذج ML.

مع النتائج الإيجابية ، حتى تلك التي تم الحصول عليها عن طريق أقصر الطرق (مع التركيب الزائد والعكازات) ، فإن المستوى المتوقع للجودة يرتفع باستمرار. وصفه مكوردك بأنه "تأثير منظمة العفو الدولية": "في كل مرة يأتي فيها شخص بطريقة جديدة لجعل الكمبيوتر يقوم بشيء جديد (لعبة الداما) ، النقاد الذين قالوا ،" هذا ليس تفكيرًا "ظهر بالضرورة" [7]. عندما نعرف بالضبط كيف تقوم الآلة بشيء "ذكي" ، نتوقف عن الاعتقاد بأنها ذكية.

يظهر "تأثير الذكاء الاصطناعي" لأنه يتم الخلط بين عملية استخدام الذكاء (على سبيل المثال ، عملية تعلم شبكة عصبية للعب الشطرنج) والقطع الأثرية التي تم إنشاؤها بواسطة هذه العملية (النموذج الناتج). سبب الخلط بسيط - في الشخص ، هذين الأمرين لا ينفصلان.

للابتعاد عن تقييم الآثار فقط ، والقدرة على التعلم واكتساب مهارات جديدة ، يقدمون مفهوم "نطاق التعميم" ، الذي يفترض فيه النظام القيم التدريجية.

  • عدم التعميم . أنظمة الذكاء الاصطناعي ، التي لا يوجد فيها عدم اليقين والجدة ، لا تثبت القدرة على التعميم ، على سبيل المثال: برنامج للعب tic-tac-toe ، والذي يفوز من خلال البحث الشامل للخيارات.
  • التعميم المحلي ، أو "الموثوقية" ، هي قدرة النظام على معالجة نقاط جديدة من توزيع معروف لمهمة واحدة. على سبيل المثال ، تم إجراء تصنيف محلي من قبل مصنف الصور ، والذي يمكن أن يميز الصور التي لم تكن مرئية من قبل للقطط مع القطط من الصور المنسقة للكلاب بعد التدريب على العديد من الصور المماثلة للقطط والكلاب.
  • , «» — : , , « ». , , « » ( ) [16], .
  • . , , — « ». ( , , ).

إن تاريخ الذكاء الاصطناعي هو تاريخ التطور البطيء ، بدءًا من الأنظمة التي لا تثبت القدرة على التعميم (الذكاء الاصطناعي الرمزي) ، وتنتهي بأنظمة موثوقة (التعلم الآلي) قادرة على التعميم المحلي.

نحن حاليًا في مرحلة جديدة نسعى فيها إلى إنشاء أنظمة مرنة - هناك اهتمام متزايد باستخدام مجموعة واسعة من مهام الاختبار لتقييم الأنظمة التي تطور المرونة:

  1. المعيار المرجعي GLUE [13] و SuperGLUE [12] لمعالجة اللغات الطبيعية
  2. بيئة التعلم الممرات لوكلاء التعلم المعزز [1] ،
  3. منصة للتجارب والبحوث لمنظمة العفو الدولية "مشروع مالمو" ،
  4. مجموعة تجربة Behavior Suite [8]

بالإضافة إلى اختبارات تعدد المهام هذه ، تم اقتراح مجموعتين من الاختبارات مؤخرًا لتقييم القدرة على التعميم ، بدلاً من القدرة على حل مشكلات محددة:

  1. أولمبياد الحيوان- AI [2] ( animalaiolympics.com )
  2. ومسابقة GVG-AI [9] ( gvgai.net ).

يعتمد كلا الاختبارين على افتراض أنه يجب تقييم وكلاء الذكاء الاصطناعي للتعلم أو التخطيط (بدلاً من المهارات الخاصة) من خلال حل مجموعة من المهام أو الألعاب غير المعروفة لهم في وقت سابق.



مفهوم جديد


كيف تقارن الذكاء الاصطناعي مع الإنسان ، إذا كان مستوى القدرات المعرفية المختلفة يختلف باختلاف الناس؟

قد تتطابق نتائج اختبارات الذكاء لدى الأشخاص ذوي القدرات المختلفة - وهذه حقيقة معروفة في علم النفس المعرفي. ويوضح أن الإدراك هو كائن متعدد الأبعاد ، منظم بشكل هرمي في صورة هرم بمهارات واسعة وضيقة ، وفي مقدمتها عامل الذكاء العام. لكن هل "الذكاء القوي" هو بالفعل أعلى الهرم المعرفي؟

النظرية " لا وجبات مجانية"[14 ، 15] يخبرنا أن أي خوارزميتي تحسين (بما في ذلك الذكاء البشري) متكافئين عندما يتم حساب متوسط ​​أدائهم لكل مهمة محتملة. أي أنه من أجل تحقيق أداء أعلى من العشوائي ، يجب أن يتم صقل الخوارزميات للمهمة المستهدفة. ومع ذلك ، في هذا السياق ، تعني "أي مهمة ممكنة" توزيعًا موحدًا على نطاق الموضوع. إن توزيع المهام التي ستكون ذات صلة على وجه التحديد بكوننا لن يتوافق مع هذا التعريف. وهكذا يمكننا طرح السؤال التالي: هل عامل الذكاء البشري عالمي؟

في الواقع ، جمع الناس حتى الآن القليل جدًا من المعلومات حول القدرات المعرفية للعناصر المحيطة بهم - أشخاص آخرون (في الثقافات المختلفة ، يتم تقييم "الذكاء" بشكل مختلف) والحيوانات ، على سبيل المثال ، الأخطبوطات أو الحيتان.

يبدو أن الذكاء البشري بعيد عن كونه عالميًا: فهو غير مناسب لعدد كبير من المهام التي لم يتم تكييف معرفتنا الفطرية المسبقة بها.

على سبيل المثال ، يمكن للناس أن يحلوا بشكل فعال للغاية بعض المشاكل الصغيرة من التعقيد متعدد الحدود إذا تقاطعوا عقليًا مع المهام المألوفة تطوريًا مثل التنقل. لذا ، يمكن حل مشكلة البائع المتنقل بعدد صغير من النقاط من قبل شخص على النحو الأمثل تقريبًا في وقت مثالي تقريبًا [6] ، باستخدام استراتيجية الإدراك. ومع ذلك ، إذا طلب منه البحث عن المسار الأطول [5] بدلاً من "العثور على أقصر مسار" ، فسيتعامل الشخص بشكل أسوأ بكثير من أبسط خوارزميات الكشف عن مجريات الأمور: خوارزمية "الجوار البعيد".



يجادل المؤلفان بأن الإدراك البشري يتطور بنفس الطريقة التي تتطور بها القدرات الجسدية للشخص: كلاهما تم تطويرهما في عملية التطور لحل مشاكل محددة في بيئات محددة (تُعرف هذه المهام باسم " أربعة واو"- أربع غرائز أساسية: القتال والفرار والتغذية والزنا: الضرب والركض والأعلاف والتكاثر).

الرسالة الرئيسية لهذا العمل هي أن "الذكاء القوي" هو خاصية للنظام لا يمكن تحديده ثنائيًا: "سواء كان ذلك أم لا". لا ، هذا النطاق يعتمد على:

  1. النطاق ، الذي قد يكون أكثر أو أقل عرضًا ؛
  2. درجة الكفاءة التي يحول بها النظام المعرفة والخبرة المسبقة إلى مهارات جديدة في مجال معين ؛
  3. درجة تعقيد التعميم الذي تمثله نقاط مختلفة في المنطقة قيد النظر.

إن "قيمة" مجال تطبيق الذكاء بالمقارنة مع مجال آخر هي ذاتية بشكل مطلق - لن نكون مهتمين بنظام لا يتداخل مجال تطبيقه مع مجالنا. ولن يفكروا حتى في مثل هذا النظام الفكري.

?


  • , .
  • ( ).
  • :
    ◦ , – , ,
    ◦ , – (), () ( )
  • يجب أن يتحكم في كمية الخبرة التي تستخدمها الأنظمة أثناء التدريب. ينبغي أن يكون من المستحيل "شراء" فعالية المعيار من خلال اختيار بيانات تدريب غير محدودة.
  • وينبغي أن يقدم وصفا واضحا وشاملا لمجموعة المعارف الأولية المستخدمة.
  • يجب أن يعمل بشكل محايد لكل من الأشخاص والآلات ، باستخدام نفس المعرفة التي يستخدمها الناس.

يوصف أدناه المحاولة الأولى لإجراء مثل هذا الاختبار.

الاختبار المقترح: مجموعة بيانات ARC


يمكن اعتبار ARC بمثابة اختبار معياري للذكاء الاصطناعي القوي ، أو اختبارًا مرجعيًا لتوليف البرمجيات ، أو اختبارًا نفسيًا للذكاء. ويستهدف كلا من أنظمة الذكاء الاصطناعي والبشرية المصممة لمحاكاة الذكاء المتحرك القوي المماثل للذكاء البشري. يذكرنا الشكل إلى حد ما بمصفوفات Raven التقدمية [4] ، وهو اختبار ذكاء كلاسيكي يعود تاريخه إلى الثلاثينيات.

يتضمن ARC مجموعتين من البيانات: التدريب والتقييم. هناك 400 في مجموعة التدريب ، و 600 في مجموعة التقييم.

علاوة على ذلك ، تنقسم مجموعة التقييم أيضًا إلى قسمين: مفتوح (400 مهمة) ومغلق (200 مهمة). جميع المهام المقترحة فريدة من نوعها ، ولا تتقاطع مجموعة مهام التقييم مع مجموعة المدربين.

يمكن العثور على بيانات المهمة في المستودع .

تتكون كل مهمة من عدد صغير من العروض التوضيحية وحالات الاختبار. بلغ متوسط ​​المظاهرات 3.3 لكل مهمة ، واختبر منها من واحد إلى ثلاثة ، وغالبا ما تكون واحدة. يتكون كل مثال ، بدوره ، من شبكة إدخال وشبكة إخراج.

هذه "الشبكة" هي مصفوفة لرموز معينة (يتم تمييز كل منها ، كقاعدة عامة ، بلون معين):



هناك 10 رموز فريدة (أو ألوان) في المجموع. يمكن أن تكون "الشبكة" بأي ارتفاع أو عرض - من 1x1 إلى 30x30 شاملًا (متوسط الارتفاع - 9 ، متوسط ​​العرض - 10).

عند حل مشكلة التقييم ، يمكن للمشارك في الاختبار الوصول إلى أمثلة التدريب ("المدخلات" و "شبكة المخرجات") ، بالإضافة إلى الشروط الأولية لإكمال مهمة الاختبار - "شبكة المدخلات" لأمثلة الاختبار (التقييم) المقابلة. بعد ذلك ، يجب على المشارك في الاختبار بناء "شبكة الإخراج" الخاصة به لـ "شبكة الإدخال" لكل حالة اختبار.

يتم بناء "شبكة الإخراج" حصريًا من الصفر ، أي أنه يجب على المشارك في الاختبار أن يقرر بنفسه ما يجب أن يكون ارتفاع وعرض "الشبكة" ، وما هي الرموز التي يجب وضعها فيها وأين. من المعتقد أن المشكلة قد تم حلها بنجاح إذا تمكن المشارك في الاختبار من إعطاء إجابة دقيقة وصحيحة لجميع حالات الاختبار المدرجة فيه (مؤشر نجاح من جزأين).

يسمح لنا وجود مجموعة تقييم مغلقة بمراقبة نقاء التقييم بدقة في منافسة مفتوحة. أمثلة على وظائف ARC:



مهمة هدفها الضمني إكمال دائرة متناظرة. يتم تحديد طبيعة هذه المهمة من خلال ثلاثة أمثلة الإدخال / الإخراج. يجب على المشارك في الاختبار رسم شبكة مخرجات مقابلة لشبكة الإدخال (انظر أسفل اليمين).



مهمة إزالة "الضجيج".



الجسم الأحمر "يتحرك" باتجاه الأزرق حتى يتلامس معه.



مهمة هدفها الضمني هو مواصلة (استقراء) خط قطري "يرتد" عندما يتلامس مع عقبة حمراء.



مهمة حيث يكون من الضروري إكمال عدد من الإجراءات في وقت واحد: "استمر في الخط" ، "تجاوز العقبات" و "تحقيق الهدف النهائي بشكل فعال" (في مهمة حقيقية ، يتم إعطاء المزيد من أزواج العرض).

لا يتم تقديم ARC كاختبار مثالي وكامل ، إلا أنه يتميز بخصائص مهمة:

  • كل مهمة اختبار جديدة وتعتمد على مجموعة واضحة من المعرفة الأولية المشتركة بين جميع المشاركين في الاختبار.
  • يمكن حلها تمامًا بواسطة الأشخاص ، ولكن لا يمكن تحقيقها بمساعدة أي تقنيات تعلُم آلي حالية (بما في ذلك التعلم العميق).
  • يمكن أن يكون الاختبار "ملعبًا" مثيرًا للاهتمام للغاية لباحثي الذكاء الاصطناعي المهتمين بتطوير خوارزميات قادرة على التعميم الواسع الذي يعمل مثل الإنسان. بالإضافة إلى ذلك ، يمنحنا ARC الفرصة لمقارنة الذكاء البشري والآلي ، حيث نوفر لهم نفس المعرفة الأولية.

يخطط المؤلف لزيادة تحسين ARC - كمنصة للبحث ، وكمعيار مشترك للذكاء الآلي والبشري.

ما رأيك - ربما ستكون الفكرة الرئيسية أكثر نجاحًا إذا تمكنا من صرف انتباه مجتمع الذكاء الاصطناعي القوي عن محاولة تجاوز الأشخاص في مهام محددة؟

المؤلفات


  • [1] . , , (Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling). : (The arcade learning environment: An evaluation platform for general agents). . (J. Artif). Int. Res., (1):253–279, 2013.
  • [2] , -, , , (Benjamin Beyret, Jos Hernndez-Orallo, Lucy Cheke, Marta Halina, Murray Shanahan, and Matthew Crosby). «-»: (The animal-AI environment: Training and testing animal — like artificial cognition), 2019.
  • [3] , (Martin Buehler, Karl Iagnemma, and Sanjiv Singh). 2005 .: (The 2005 DARPA Grand Challenge: The Great Robot Race). Springer Publishing Company, Incorporated, 1- , 2007.
  • [4] . (Raven J. John). (Raven Progressive Matrices). Springer, , M, 2003.
  • [5] (James Macgregor and Yun Chu). : (Human performance on the traveling salesman and related problems: A review). The Journal of Problem Solving, 3, 02 2011.
  • [6] (James Macgregor and Thomas Ormerod). (Human performance on the traveling salesman problem). Perception & psychophysics, 58:527–39, 06 1996.
  • [7] (Pamela McCorduck). , : (Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence). AK Peters Ltd, 2004.
  • [8] , , , , , , , , , . (Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, et al). (Behaviour suite for reinforcement learning), arXiv, arXiv:1908.03568, 2019.
  • [9] -, , , , . (Diego Perez-Liebana, Jialin Liu, Ahmed Khalifa, Raluca D Gaina, Julian Togelius, and Simon M Lucas). : , (General video game AI: a multi-track framework for evaluating agents, games and content generation algorithms). arXiv arXiv: 1802.10363, 2018.
  • [10] . . (David M. W. Powers). (The total Turing test and the loebner prize). , 1998.
  • [11] A.. (A.M. Turing). (Computing machinery and intelligence). 1950.
  • [12] , , , , , , . (Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). SuperGLUE: (Superglue: A stickier benchmark for general-purpose language understanding systems.) 2019.
  • [13] , , , , . (Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman). Glue: (Glue: A multi-task benchmark and analysis platform for natural language understanding). 2018.
  • [14] . (David H Wolpert). « »; (What the no free lunch theorems really mean; how to improve search algorithms).
  • [15] .. .. (D.H. Wolpert and W.G. Macready). « » (No free lunch theorems for optimization). (IEEE Transactions on Evolutionary Computation), . 67–82, 1997.
  • [16] . (Stephen G. Wozniak). (Three minutes with steve wozniak). PC World, 2007.

All Articles