فهم نموذج التعلم الآلي الذي يكسر اختبار CAPTCHA

تحية للجميع! هذا الشهر ، تقوم OTUS بتوظيف مجموعة جديدة في دورة التعلم الآلي . وفقًا للتقاليد الراسخة ، عشية بدء الدورة ، نشارك معك ترجمة مواد مثيرة للاهتمام حول هذا الموضوع.



تعد رؤية الكمبيوتر واحدة من أكثر موضوعات الذكاء الاصطناعي صلة وذات صلة بالبحث [1] ، ومع ذلك ، يتم انتقاد الأساليب الحالية لحل المشكلات باستخدام الشبكات العصبية التلافيفية نظرًا لحقيقة أنه من السهل خداع هذه الشبكات. لكي لا يكون لديك أساس من الصحة ، سأخبرك بعدة أسباب: الشبكات من هذا النوع تعطي نتيجة غير صحيحة مع ثقة عالية للصور التي تحدث بشكل طبيعي والتي لا تحتوي على إشارات إحصائية [2] ، والتي تعتمد عليها الشبكات العصبية التلافيفية ، للصور التي تم تصنيفها مسبقًا بشكل صحيح ، ولكن تم تغيير بكسل واحد [3] أو صور بأشياء مادية تم إضافتها إلى المشهد ولكن لم يكن من الضروري تغيير نتيجة التصنيف [4]. في الحقيقة ، إذا أردنا إنشاء آلات ذكية حقًا ،يجب أن يبدو معقولا بالنسبة لنا للاستثمار في دراسة الأفكار الجديدة.

أحد هذه الأفكار الجديدة هو تطبيق Vicarious للشبكة القشرية العودية (RCN) ، والتي تستمد الإلهام من علم الأعصاب. ادعى هذا النموذج أنه فعال للغاية في كسر اختبار CAPTCHA ، مما تسبب في الكثير من الحديث حول نفسه . لذلك ، قررت كتابة عدة مقالات ، يشرح كل منها جانبًا معينًا من هذا النموذج. في هذه المقالة ، سنتحدث عن هيكلها وكيف يتم توليد الصور المقدمة في مواد المقالة الرئيسية على RCN [5].

تفترض هذه المقالة أنك معتاد بالفعل على الشبكات العصبية التلافيفية ، لذلك سأرسم العديد من المقارنات معها.

للاستعداد لوعي RCN ، تحتاج إلى فهم أن RCNs تستند إلى فكرة فصل الشكل (رسم الكائن) عن المظهر (ملمسه) وأنه نموذج تولد وليس نموذجًا تمييزيًا ، حتى نتمكن من إنشاء الصور باستخدامه ، كما هو الحال في شبكات الخصومة. بالإضافة إلى ذلك ، يتم استخدام بنية هرمية موازية ، تشبه بنية الشبكات العصبية التلافيفية ، والتي تبدأ بمرحلة تحديد شكل الكائن الهدف في الطبقات السفلية ، ثم يضاف مظهره على الطبقة العليا. على عكس الشبكات العصبية التلافيفية ، يعتمد النموذج الذي نفكر فيه على قاعدة نظرية غنية للنماذج الرسومية ، بدلاً من المبالغ الموزونة ونسب التدرج. الآن دعونا نتعمق في ميزات هيكل RCN.

طبقات المعالم


يسمى النوع الأول من الطبقة في RCN طبقة المعالم. سننظر في النموذج تدريجيًا ، لذلك دعونا نفترض الآن أن التسلسل الهرمي الكامل للنموذج يتكون فقط من طبقات من هذا النوع مكدسة فوق بعضها البعض. سننتقل من مفاهيم مجردة عالية المستوى إلى ميزات أكثر تحديدًا للطبقات السفلية ، كما هو موضح في الشكل 1 . تتكون طبقة من هذا النوع من عدة عقد تقع في فراغ ثنائي الأبعاد ، على غرار الخرائط المميزة في الشبكات العصبية التلافيفية.


الشكل 1 : العديد من طبقات المعالم تقع واحدة فوق الأخرى مع العقد في الفضاء ثنائي الأبعاد. الانتقال من الطبقة الرابعة إلى الطبقة الأولى يعني الانتقال من العام إلى الخاص.

تتكون كل عقدة من عدة قنوات ، كل منها يمثل ميزة منفصلة. القنوات هي متغيرات ثنائية تأخذ القيمة صواب أو خطأ ، مما يشير إلى ما إذا كان الكائن المقابل لهذه القناة موجودًا في الصورة النهائية التي تم إنشاؤها في إحداثيات العقدة (س ، ص). على أي مستوى ، العقد لها نفس نوع القنوات.

كمثال ، لنأخذ طبقة متوسطة ونتحدث عن قنواتها والطبقات أعلاه لتبسيط التفسير. ستكون قائمة القنوات في هذه الطبقة عبارة عن علامة زائدية ودائرة وقطع مكافئ. عند تشغيل معين عند إنشاء الصورة ، تتطلب حسابات الطبقات المتراكبة دائرة في الإحداثيات (1،1). وبالتالي ، سيكون للعقدة (1 ، 1) قناة مقابلة للكائن "دائرة" في القيمة True. سيؤثر هذا بشكل مباشر على بعض العقد في الطبقة أدناه ، أي أن ميزات المستوى الأدنى المرتبطة بالدائرة في الحي (1،1) سيتم تعيينها على True. يمكن أن تكون هذه الكائنات ذات المستوى الأدنى ، على سبيل المثال ، أربعة أقواس ذات اتجاهات مختلفة. عندما يتم تنشيط ميزات الطبقة السفلية ، فإنها تنشط القنوات على الطبقات حتى أقل حتى يتم الوصول إلى الطبقة الأخيرة ،توليد الصورة. يظهر تصور التنشيط فيالشكل 2 .

قد تسأل ، كيف سيتضح أن تمثيل الدائرة هو 4 أقواس؟ وكيف تعرف RCN أنها بحاجة إلى قناة لتمثيل الدائرة؟ سيتم تشكيل القنوات وربطها بطبقات أخرى في مرحلة تدريب RCN.


الشكل 2: تدفق المعلومات في طبقات المعالم. عقد العلامات هي كبسولات تحتوي على أقراص تمثل قنوات. تم تقديم بعض الطبقات العلوية والسفلية على شكل متوازي البساطة ، ومع ذلك ، في الواقع ، تتكون أيضًا من عُقد مميزة كطبقات وسيطة. يرجى ملاحظة أن الطبقة المتوسطة العليا تتكون من 3 قنوات ، والطبقة الثانية تتكون من 4 قنوات.

قد تشير إلى طريقة صارمة وحتمية جدًا لإنشاء النموذج المعتمد ، ولكن بالنسبة للأشخاص ، لا تزال الاضطرابات الصغيرة في انحناء الدائرة تعتبر دائرة ، كما يمكنك أن ترى في الشكل 3 .


الشكل 3: العديد من الاختلافات في بناء دائرة من أربعة أقواس منحنية من الشكل 2.

سيكون من الصعب اعتبار كل من هذه الاختلافات كقناة جديدة منفصلة في الطبقة. وبالمثل ، فإن تجميع الاختلافات في نفس الكيان سيسهل إلى حد كبير التعميم في اختلافات جديدة عندما نكيف RCN مع التصنيف بدلاً من التوليد بعد ذلك بقليل. ولكن كيف نغير RCN للحصول على هذه الفرصة؟

طبقات فرعية


للقيام بذلك ، تحتاج إلى نوع جديد من الطبقة - طبقة التجميع. وهي تقع بين أي طبقتين من العلامات وتعمل كوسيط بينهما. كما أنها تتكون من قنوات ، ولكن لها قيم صحيحة وليس ثنائية.

لتوضيح كيفية عمل هذه الطبقات ، دعنا نعود إلى مثال الدائرة. بدلاً من طلب 4 أقواس بإحداثيات ثابتة من طبقة المعالم فوقه كعنصر لدائرة ، سيتم إجراء البحث على طبقة العينة الفرعية. بعد ذلك ، ستحدد كل قناة نشطة في طبقة العينة الفرعية عقدة على الطبقة الأساسية في محيطها للسماح بالتشويه الطفيف للعنصر. وبالتالي ، إذا أنشأنا اتصالًا مع 9 عقد مباشرة أسفل عقدة العينة الفرعية ، فإن قناة العينة الفرعية ، كلما تم تنشيطها ، ستختار بالتساوي واحدة من هذه العقد التسعة وتنشيطها ، وسيكون فهرس العقدة المحددة هو حالة قناة العينة الفرعية - عدد صحيح. في الشكل 4يمكنك أن ترى عدة مسارات ، حيث يستخدم كل تشغيل مجموعة مختلفة من العقد ذات المستوى الأدنى ، على التوالي ، مما يسمح لك بإنشاء دائرة بطرق مختلفة.


الشكل 4: تشغيل طبقات العينات الفرعية. كل إطار في صورة GIF هذه هو إطلاق منفصل. يتم تكثيف العقد الثانوية. في هذه الصورة ، تحتوي العقد الفرعية على 4 قنوات تعادل 4 قنوات لطبقة المعالم تحتها. تمت إزالة الطبقتين العلوية والسفلية بالكامل من الصورة.

على الرغم من حقيقة أننا بحاجة إلى تنوع نموذجنا ، فسيكون من الأفضل أن يظل أكثر تقييدًا وتركيزًا. في الشكلين السابقين ، تبدو بعض الدوائر غريبة جدًا بحيث لا يمكن تفسيرها حقًا على أنها دوائر بسبب حقيقة أن الأقواس غير متصلة ببعضها البعض ، كما يمكن رؤيته من الشكل 5. نود تجنب توليدها. وبالتالي ، إذا تمكنا من إضافة آلية لقنوات العينات الفرعية لتنسيق اختيار عقد الميزة والتركيز على النماذج المستمرة ، فسيكون نموذجنا أكثر دقة.


الشكل 5: خيارات عديدة لبناء دائرة. تلك الخيارات التي نريد إسقاطها تتميز بصلبان حمراء.

استخدم مؤلفو RCN الاتصال الجانبي في طبقات العينات الفرعية لهذا الغرض. بشكل أساسي ، سيكون لقنوات العينات الفرعية روابط بقنوات عينات فرعية أخرى من البيئة المباشرة ، ولن تسمح هذه الروابط ببعض الأزواج من الدول بالتعايش في قناتين في وقت واحد. في الواقع ، ستكون مساحة عينة هاتين القناتين محدودة بكل بساطة. في إصدارات مختلفة من الدائرة ، لن تسمح هذه الاتصالات ، على سبيل المثال ، لوجود قوسين متجاورين بالابتعاد عن بعضهما البعض. يتم عرض هذه الآلية في الشكل 6.. مرة أخرى ، يتم إنشاء هذه العلاقات في مرحلة التدريب. وتجدر الإشارة إلى أن الشبكات العصبية الاصطناعية للفانيليا الحديثة ليس لها أي روابط جانبية في طبقاتها ، على الرغم من وجودها في الشبكات العصبية البيولوجية ويفترض أنها تلعب دورًا في تكامل الكفاف في القشرة البصرية (ولكن بصراحة ، القشرة البصرية لديها جهاز أكثر تعقيدًا مما قد يبدو من البيان السابق).


الشكل 6: GIF- RCN . , . , RCN , , . .

حتى الآن ، تحدثنا عن الطبقات المتوسطة من RCN ، لدينا فقط الطبقة العليا والطبقة الدنيا التي تتفاعل مع بكسل الصورة المولدة. الطبقة العليا هي طبقة معالم عادية ، حيث ستكون قنوات كل عقدة فئات من مجموعة البيانات المسماة. عند الإنشاء ، نختار ببساطة الموقع والفئة التي نريد إنشاؤها ، وننتقل إلى العقدة ذات الموقع المحدد ونقول أنها تنشط قناة الفئة التي اخترناها. يؤدي ذلك إلى تنشيط بعض القنوات في طبقة العينة الفرعية تحتها ، ثم طبقة المعالم أدناه ، وما إلى ذلك ، حتى نصل إلى طبقة المعالم الأخيرة. بناءً على معرفتك بالشبكات العصبية التلافيفية ، يجب أن تعتقد أن الطبقة العليا سيكون لها عقدة واحدة ، ولكن هذا ليس كذلك ، وهذه إحدى مزايا RCN ،لكن مناقشة هذا الموضوع خارج نطاق هذه المقالة.

ستكون طبقة المعالم الأخيرة فريدة. تذكر ، لقد تحدثت عن كيفية فصل RCNs عن الشكل؟ هذه الطبقة هي المسؤولة عن الحصول على شكل الكائن المولد. وبالتالي ، يجب أن تعمل هذه الطبقة مع ميزات منخفضة المستوى للغاية ، وهي لبنات البناء الأساسية لأي شكل ، والتي ستساعدنا في إنشاء أي شكل مرغوب فيه. الحدود الصغيرة التي تدور في زوايا مختلفة مناسبة تمامًا ، وهي بالتحديد التي يستخدمها مؤلفو التكنولوجيا.

اختار المؤلفون سمات المستوى الأخير لتمثيل نافذة 3x3 لها حد بزاوية دوران معينة ، والتي يسمونها واصف التصحيح. عدد زوايا التدوير التي اختاروها هو 16. بالإضافة إلى ذلك ، لكي تتمكن من إضافة مظهر لاحقًا ، تحتاج إلى اتجاهين لكل دوران لتتمكن من معرفة ما إذا كانت الخلفية على اليسار أو على الحدود اليمنى ، إذا كانت هذه حدودًا خارجية ، واتجاه إضافي في حالة الحدود الداخلية (أي داخل الكائن). في الشكل 7 يوضح خصائص تجميع الطبقة الأخيرة ، ويوضح الشكل 8 كيف يمكن أن تصف واصفات الرقع شكلاً معينًا.


الشكل 7: . 48 ( ) , 16 3 . – 45 . “IN " , “OUT” — .


8: «i» .

الآن بعد أن وصلنا إلى الطبقة الأخيرة من الإشارات ، لدينا رسم تخطيطي يتم من خلاله تحديد حدود الكائن وفهم ما إذا كانت المنطقة خارج الحدود داخلية أم خارجية. يبقى لإضافة مظهر ، وتعيين كل منطقة متبقية في الصورة كـ IN أو OUT والطلاء فوق المنطقة. قد يساعد حقل عشوائي مشروط هنا. بدون الدخول في تفاصيل رياضية ، نعين ببساطة لكل بكسل في الصورة النهائية توزيع احتمالي حسب اللون والحالة (IN أو OUT). سيعكس هذا التوزيع المعلومات التي تم الحصول عليها من حدود الخريطة. على سبيل المثال ، إذا كان هناك وحدتا بكسل متجاورتان ، أحدهما IN ، والآخر OUT ، فإن احتمال حصولهما على لون مختلف يزداد بشكل كبير. إذا كان هناك بيكسلان متجاوران على جانبي الحدود الداخلية ، فالاحتمالالتي سيكون لها لون مختلف سيزداد أيضًا. إذا كانت البكسلات تقع داخل الحد ولا يتم فصلها بأي شيء ، فإن احتمالية أن يكون لها نفس اللون تزداد ، لكن البكسلات الخارجية قد يكون لها انحراف طفيف عن بعضها البعض وهكذا. للحصول على الصورة النهائية ، ما عليك سوى التحديد من التوزيع الاحتمالي المشترك الذي قمنا بتثبيته للتو. لجعل الصورة التي تم إنشاؤها أكثر إثارة للاهتمام ، يمكننا استبدال الألوان بالنسيج. لن نناقش هذه الطبقة لأن RCN يمكنها إجراء التصنيف دون الاعتماد على المظهر.للحصول على الصورة النهائية ، ما عليك سوى التحديد من التوزيع الاحتمالي المشترك الذي قمنا بتثبيته للتو. لجعل الصورة التي تم إنشاؤها أكثر إثارة للاهتمام ، يمكننا استبدال الألوان بالنسيج. لن نناقش هذه الطبقة لأن RCN يمكنها إجراء التصنيف دون الاعتماد على المظهر.للحصول على الصورة النهائية ، ما عليك سوى التحديد من التوزيع الاحتمالي المشترك الذي قمنا بتثبيته للتو. لجعل الصورة التي تم إنشاؤها أكثر إثارة للاهتمام ، يمكننا استبدال الألوان بالنسيج. لن نناقش هذه الطبقة لأن RCN يمكنها إجراء التصنيف دون الاعتماد على المظهر.

حسنًا ، سننتهي هنا اليوم. إذا كنت تريد أن تعرف المزيد عن RCN، وقراءة هذه المادة [5] والملحق مع مواد إضافية، أو يمكنك أن تقرأ مقالاتي الأخرى على استنتاجات منطقية ، التدريب ونتائج استخدام RCN على مختلف مجموعات البيانات .

مصادر:


  1. [1] R. Perrault، Y. Shoham، E. Brynjolfsson، et al.، مؤشر الذكاء الاصطناعي لعام 2019 التقرير السنوي (2019) ، معهد الذكاء الاصطناعي المتمحور حول الإنسان - جامعة ستانفورد.
  2. [2] د.هيندريكس ، K. Zhao ، S. Basart ، et al. ، أمثلة على الخصومة الطبيعية (2019) ، arXiv: 1907.07174.
  3. [3] J. Su، D. Vasconcellos Vargas، S. Kouichi، One Pixel Attack for Fooling Deep Neural Networks (2017)، arXiv: 1710.08864.
  4. [4] M. Sharif، S. Bhagavatula، L.Bauer، إطار عام لأمثلة الخصومة مع الأهداف (2017) ، arXiv: 1801.00349.
  5. [5] D. George, W. Lehrach, K. Kansky, et al., A Generative Vision Model that Trains with High Data Efficiency and Break Text-based CAPTCHAs (2017), Science Mag (Vol 358 — Issue 6368).
  6. [6] H. Liang, X. Gong, M. Chen, et al., Interactions Between Feedback and Lateral Connections in the Primary Visual Cortex (2017), Proceedings of the National Academy of Sciences of the United States of America.

: « : ».

Source: https://habr.com/ru/post/undefined/


All Articles