يقوم الباحثون بتطوير نهج لتقليل التحيز في مجموعات بيانات رؤية الكمبيوتر

تم إعداد ترجمة للمقال خصيصًا لطلاب دورة رؤية الكمبيوتر .

14 فبراير 2020
جامعة برينستون ، قسم الهندسة.





:
, . ImageNet — 14 , .

تعمل ImageNet ، التي تتضمن صورًا للأشياء والمناظر الطبيعية ، ولا سيما الأشخاص ، كمصدر لبيانات التدريب للباحثين الذين ينشئون خوارزميات التعلم الآلي التي تصنف الصور أو تتعرف على العناصر الفردية عليها. يتطلب مقياس ImageNet غير المسبوق جمع الصور والتعليق الآلي باستخدام التعهيد الجماعي. في حين أن نادراً ما تم استخدام فئة صور الأشخاص من قاعدة البيانات من قبل مجتمع البحث ، عمل فريق ImageNet على القضاء على التحيز وعدد من المشاكل الأخرى المرتبطة بصور الأشخاص ، والتي هي عواقب غير مقصودة لتصميم ImageNet.

وقالت المؤلفة المشاركة أولغا روساكوفسكايا ، الأستاذة المشاركة في علوم الكمبيوتر في برينستون: "اليوم ، تعمل رؤية الكمبيوتر بشكل جيد بما يكفي ليتم تنفيذها في كل مكان في سياقات متنوعة". "هذا يعني أن الوقت قد حان للحديث عن كيفية تأثيره على العالم والتفكير في قضايا المصداقية".

في مقال جديد ، حدد فريق ImageNet بشكل منهجي المفاهيم غير المرئية والفئات المسيئة ، مثل الخصائص العرقية والجنسية ، لفئات الصور البشرية لـ ImageNet واقترح إزالتها من قاعدة البيانات. طور الباحثون أيضًا أداة تتيح للمستخدمين تحديد مجموعات صور الأشخاص المتوازنة حسب العمر والجنس ولون البشرة والحصول عليها ، من أجل تسهيل الخوارزميات المناسبة لتصنيف وجوه الأشخاص وتصرفاتهم على الصور بشكل أكثر موثوقية. قدم الباحثون عملهم في 30 يناير في مؤتمر حول صحة وموثوقية وشفافية جمعية تكنولوجيا الحوسبة في برشلونة ، إسبانيا.

ويتابع روساكوفسكايا: "من المهم للغاية أن نلفت انتباه المختبرات والباحثين ذوي الخبرة التقنية الأساسية إلى المناقشة". "نظرًا لحقيقة أننا بحاجة إلى جمع البيانات على نطاق هائل ، وحقيقة أن ذلك سيتم تحقيقه من خلال الاستعانة بمصادر خارجية (لأنه خط الأنابيب الأكثر كفاءة وثباتًا) ، يبرز السؤال - كيف نفعل ذلك لضمان أكبر قدر من الموثوقية دون دس أشعل النار مألوفة؟ تركز هذه المقالة بشكل أساسي على حلول التصميم ".

أطلقت مجموعة من علماء الكمبيوتر في برينستون وستانفورد ImageNet في عام 2009 كمورد للباحثين والمعلمين. قاد المبادرة خريج جامعة برنستون والمعلم فاي فاي لي ، وهو الآن أستاذ علوم الكمبيوتر في ستانفورد. لتشجيع الباحثين على إنشاء خوارزميات رؤية أفضل للكمبيوتر باستخدام ImageNet ، أطلق الفريق أيضًا تحدي التعرف البصري على نطاق واسع ImageNet. ركزت المنافسة بشكل أساسي على التعرف على الأشياء باستخدام 1000 فئة من الصور ، ثلاث منها فقط ظهرت أشخاص.

تنبع بعض مشكلات الوثوقية في ImageNet من خط الأنابيب المستخدم لإنشاء قاعدة البيانات. يتم أخذ فئات صورها من WordNet ، وهي قاعدة بيانات قديمة للكلمات الإنجليزية المستخدمة في أبحاث معالجة اللغة الطبيعية. استعار مبدعو ImageNet الأسماء من WordNet - بعضها ، على الرغم من أنها مصطلحات لفظية محددة جيدًا ، إلا أنها تُترجم بشكل سيئ إلى قاموس مرئي. على سبيل المثال ، لا يمكن للمصطلحات التي تصف ديانة الشخص أو أصله الجغرافي سوى استخراج نتائج البحث عن الصور الأكثر بروزًا ، والتي يمكن أن تؤدي إلى خوارزميات تعزز الصور النمطية.

لفت مشروع فني حديث يسمى ImageNet Roulette الانتباه إلى هذه القضايا. استخدم المشروع ، الذي صدر في سبتمبر 2019 كجزء من معرض فني مخصص لأنظمة التعرف على الصور ، صور الأشخاص من ImageNet لتدريب نموذج ذكاء اصطناعي يصنف الأشخاص بالكلمات بناءً على الصورة المقدمة. يمكن للمستخدمين تحميل صورتهم والحصول على علامة تستند إلى هذا النموذج. كانت العديد من التصنيفات مسيئة أو ببساطة لا أساس لها.

كان الابتكار الرئيسي الذي سمح لمنشئي ImageNet بتجميع قاعدة بيانات كبيرة من الصور التي تم وضع علامات عليها هو استخدام التعهيد الجماعي ، ولا سيما منصة Amazon Mechanical Turk (MTurk) ، حيث تم الدفع للموظفين للتحقق من الصور المرشحة. هذا النهج ، على الرغم من أنه كان ثوريًا ، إلا أنه كان غير كامل ، مما أدى إلى بعض الفئات المتحيزة وغير المناسبة.

يقول المؤلف الرئيسي كايو يونغ ، خريج علوم الكمبيوتر ، "عندما تطلب من الأشخاص التحقق من الصور عن طريق الاختيار من بين مجموعة واسعة من المرشحين ، يشعر الناس بالضغط لاختيار شيء ما ، وتميل هذه الصور إلى امتلاك ميزات مميزة أو نمطية". .

في سياق الدراسة ، قام جان وزملاؤه أولاً بتصفية الفئات التي يحتمل أن تكون مسيئة أو حساسة من الأشخاص من ImageNet. اعتبروا مسيئة الفئات التي تحتوي على الألفاظ النابية أو العرق أو الجنس ؛ وشملت الفئات الحساسة ، على سبيل المثال ، تصنيف الأشخاص على أساس التوجه الجنسي أو الدين. للتعليق على الفئات ، قاموا بتجنيد 12 طالبًا من الخريجين من مختلف مناحي الحياة ، وأمرهم بتمييز الفئة بأنها حساسة إذا لم يكونوا متأكدين. لذلك استبعدوا 1593 فئة - حوالي 54 ٪ من 2932 فئة من الأشخاص على ImageNet.

بعد ذلك ، لجأ الباحثون إلى موظفي MTurk للحصول على المساعدة ، بحيث قاموا بتصنيف "الصور" للفئات المقبولة المتبقية على مقياس من 1 إلى 5. أدى اختيار الفئات بتصنيف صور من 4 أو أعلى إلى حقيقة أنه تم تصنيف 158 فئة فقط على أنها مقبولة ورقمية بشكل كافٍ. حتى هذه المجموعة من الفئات التي تم تصفيتها بعناية تحتوي على أكثر من 133000 صورة - عدد ضخم من الأمثلة لتدريس خوارزميات رؤية الكمبيوتر.

ضمن هذه الفئات البالغ عددها 158 فئة ، درس الباحثون التمثيل الديموغرافي للأشخاص في الصور لتقييم مستوى التحيز في ImageNet وتطوير نهج لإنشاء مجموعات بيانات أكثر ملاءمة. يأتي محتوى ImageNet في المقام الأول من محركات البحث التي تستهدف الصور مثل Flickr. تميل محركات البحث ، بشكل عام ، إلى إرجاع النتائج التي تمثل الرجال والأشخاص ذوي البشرة الفاتحة والبالغين الذين تتراوح أعمارهم بين 18 إلى 40 إلى حد أكبر.

يقول يونغ: "اكتشف الناس أن نتائج البحث عن الصور متحيزة بشكل كبير من حيث التوزيع الديموغرافي ، لذا تتمتع ImageNet بتوزيع متحيز أيضًا". "في هذه المقالة ، حاولنا تقييم مستوى التحيز ، واقتراح أيضًا طريقة توازن بين التوزيع".

حدد الباحثون وراجعوا ثلاث سمات محمية بموجب قوانين مناهضة التمييز الأمريكية: لون البشرة والجنس والعمر. طُلب من عمال MTurk أن يشرحوا كل خاصية لكل شخص في الصورة. صنفوا لون البشرة على أنها فاتحة أو متوسطة أو داكنة ؛ وبعمر الأطفال (دون 18 سنة) ، البالغين 18-40 سنة ، البالغين 40-65 سنة أو البالغين فوق 65 سنة.
يشمل تصنيف الجنس الرجال والنساء والجنس غير المحدود - طريقة لتشمل الأشخاص الذين لديهم تعبيرات جنسانية مختلفة ، بالإضافة إلى الصور التوضيحية التي لا يمكن فيها رؤية الجنس من خلال العلامات المرئية (مثل صور العديد من الأطفال أو الغواصين).

أظهر تحليل التعليقات التوضيحية أنه ، كما هو الحال في نتائج البحث ، يعكس محتوى ImageNet انحيازًا كبيرًا. تم تمييز الأشخاص الذين تم تمييزهم على أنهم من السود والنساء والبالغين فوق سن 40 تمثيلًا ناقصًا في معظم الفئات.

على الرغم من أن عملية التعليقات التوضيحية تضمنت مراقبة الجودة وتطلبت من المعلقين التوصل إلى توافق في الآراء ، بسبب المخاوف بشأن الضرر المحتمل للتعليقات التوضيحية غير الصحيحة ، اختار الباحثون عدم إصدار التعليقات التوضيحية الديموغرافية للصور الفردية. بدلاً من ذلك ، قاموا بتطوير أداة قائمة على الويب تسمح للمستخدمين باسترداد مجموعة من الصور المتوازنة ديموغرافيًا بالطريقة التي يحددها المستخدم. على سبيل المثال ، قد تتضمن مجموعة كاملة من الصور في فئة المبرمجين حوالي 90 ٪ من الرجال و 10 ٪ من النساء ، بينما في الولايات المتحدة حوالي 20 ٪ من المبرمجين من النساء. يمكن للباحث استخدام الأداة الجديدة للحصول على مجموعة من صور المبرمجين تمثل 80٪ من الرجال و 20٪ من النساء - أو حتى بشكل فردي ، حسب أهداف الباحث.

يقول يونغ: "لا نريد التحدث عن كيفية الموازنة بين التركيبة السكانية ، لأنها ليست مشكلة بسيطة للغاية". "قد يكون التوزيع مختلفًا في أجزاء مختلفة من العالم - على سبيل المثال ، يختلف توزيع ألوان البشرة في الولايات المتحدة عن التوزيع في البلدان الآسيوية. لذلك ، نترك هذا السؤال

لمستخدمنا ونوفر ببساطة أداة لاستخراج مجموعة فرعية متوازنة من الصور. " يعمل فريق ImageNet حاليًا على التحديثات الفنية لمعداته وقاعدة البيانات نفسها ، بالإضافة إلى تنفيذ تصفية الوجه وأداة إعادة التوازن التي تم تطويرها في هذه الدراسة. ستتم إعادة إصدار ImageNet قريبًا مع هذه التحديثات وطلبًا للتعليقات من مجتمع الباحثين في مجال رؤية الكمبيوتر.


برينستون دكتوراه كلينت كينامي وأستاذ مشارك في علوم الكمبيوتر ، جيا دانغ ، شارك في تأليفه مع يونغ ، لي ، وروساكوفسكايا. تم دعم الدراسة من قبل مؤسسة العلوم الوطنية.


المصدر:

المواد المقدمة من قسم الهندسة ، جامعة برينستون . الأصل كتبه مولي شارلاتش. P ملاحظة: قد يتم تعديل المحتوى عن طريق الأسلوب والطول.


الرابط:

Kaiyu Yang و Klint Qinami و Li Fei-Fei و Jia Deng و Olga Russakovsky. نحو مجموعات بيانات أكثر عدالة: تصفية وموازنة توزيع الشجرة الفرعية للأشخاص في التسلسل الهرمي ImageNet. وقائع مؤتمر 2020 حول الإنصاف والمساءلة والشفافية ، 2020 DOI: 10.1145 / 3351095.3375709



تعلم المزيد عن الدورة



All Articles