تسوية؟ تعامد! تحسين الشبكات المدمجة


بينما تناقش شركات أخرى إدارة الفريق عن بعد ، نحن في Smart Engines نواصل مشاركة مجموعة التكنولوجيا الخاصة بنا معك. اليوم عن تحسين الشبكات العصبية. من الصعب للغاية إنشاء نظام التعرف على أساس الشبكات العصبية التي يمكن أن تعمل بسرعة على الهواتف الذكية والأجهزة المحمولة الأخرى. وللتأكد من أن الجودة عالية هي أكثر صعوبة. في هذه المقالة ، سنتحدث عن طريقة بسيطة لتنظيم الشبكات العصبية التي نستخدمها في المحركات الذكية لتحسين جودة الشبكات "المحمولة" مع عدد قليل من المعلمات. تعتمد فكرة الطريقة على انخفاض تدريجي في الاعتماد الخطي للمرشحات في الطبقات التلافيفية أثناء التدريب ، والذي يعمل من خلاله كل خلية عصبية بشكل أكثر كفاءة ، وبالتالي ، يتم تحسين قدرة التعميم للنموذج.للقيام بذلك ، نقدم مرشحات في شكل ناقلات أحادية البعد ونقوم بتعامد زوج مع أطول طول إسقاط على بعضها البعض.

عند تصميم معظم الشبكات العصبية الحديثة ، من المفهوم أنه سيتم تنفيذها في مكان ما عن بعد على الخادم ، وسوف تأتي البيانات للمعالجة من خلال العميل على جهاز كمبيوتر أو جهاز محمول. ومع ذلك ، فإن هذا النهج غير مقبول عندما يتعلق الأمر بأمان البيانات الشخصية التي لا تريد نقلها إلى مكان ما (على سبيل المثال ، صورة جواز سفر أو بطاقة مصرفية للتعرف عليها). لحسن الحظ ، تمتلك الأجهزة المحمولة اليوم سعة كافية لتشغيل الشبكات العصبية ، لذا يمكنك تجنب إرسال البيانات إلى أطراف ثالثة. شيء آخر هو أن هذه الشبكات يجب أن تكون صغيرة وتحتوي على عدد قليل من العمليات حتى لا تختبر صبر المستخدم. مثل هذه الظروف تحد من أقصى جودة يمكن تحقيقها لعملهم ،وكيفية تحسين الشبكات خفيفة الوزن دون التضحية بوقت التشغيل هو سؤال مفتوح. التفكير في هذا ، توصلنا إلى طريقة جديدة للتنظيم في الشبكات العصبية ، تركز على الشبكات المدمجة وتتكون من التعامد للمرشحات التلافيفية.

المنشور هو نسخة قصيرة من تقرير "تسوية أوزان الشبكة العصبية التلافيفية عن طريق التعامد" ، الذي تم تقديمه في نوفمبر 2019 في المؤتمر الدولي ICMV 2019 ، أمستردام ، هولندا.

فكرة التنظيم باستخدام التعامد


نظرًا لأن الطريقة المقترحة تتعلق بالتنظيم ، فإننا نتذكر أولاً باختصار ما هو عليه. يتكون التنظيم من فرض بعض القيود على النموذج بناءً على أفكارنا حول كيفية حل المهمة. ونتيجة لذلك ، يتم زيادة القدرة العامة على الشبكة. على سبيل المثال ، يساهم تسوية L1 في التصفير لجزء من التوازن عن طريق تفريغ الشبكة ، L2 - يحتفظ بالمعاملات ضمن أعداد صغيرة ، يلغي Dropout تبعيات الخلايا العصبية الفردية ، إلخ. هذه الأساليب هي جزء لا يتجزأ من عملية التعلم للعديد من الشبكات الحديثة ، خاصة إذا كانت تحتوي على عدد كبير من المعلمات - يسمح لك التنظيم بالتعامل بشكل جيد إلى حد ما مع إعادة التدريب.

الآن نعود إلى طريقتنا. نقوم بالحجز على الفور ، قبل كل شيء ، نعتبر مشكلة تصنيف الصور مع شبكة عصبية تلافيفية. الافتراض ، الذي بدأنا على أساسه استخدام التعامد ، هو ما يلي: إذا كانت الشبكة محدودة للغاية في مواردها لمفهوم الأنماط في البيانات ، فيجب جعل كل خلية عصبية تعمل بأكبر قدر ممكن من الكفاءة ، بحيث تؤدي الوظيفة المخصصة لها بدقة. وبعبارة أخرى ، حتى "يربط" هذه الميزات التي لا يستطيع أي خلية عصبية أخرى اكتشافها. نقوم بحل هذه المشكلة عن طريق تقليل العلاقة الخطية تدريجياً بين ناقلات الوزن العصبية أثناء التدريب. للقيام بذلك ، قمنا بتعديل خوارزمية التعامد الكلاسيكية ، وتكييفها مع حقائق عملية التعلم.

تصفية التلافي التعامد


حدد مرشحات الطبقة التلافيفية كمجموعة من المتجهات ، حيث c هي مؤشر الطبقة التلافيفية ، و N هو عدد المرشحات فيها. بعد تحديث الأوزان أثناء الانتشار الخلفي للخطأ ، في كل طبقة تلافيفية فردية ، نبحث عن زوج من المتجهات بطول إسقاط أقصى فوق بعضها البعض: يمكن حساب



إسقاط المتجه f g على f k على النحو . بعد ذلك ، من أجل تقابل الفلاتر f a و f b ، نستبدل الخطوة الأولى من خوارزمية Gram-Schmidt



بالصيغة التالية:



حيث η هي سرعة التعلم ونبتةمعامل التعامد ، وقيمها تقع على الفاصل الزمني [0.0 ، 1.0]. يرجع إدخال معامل التعامد إلى حقيقة أن التعامد "الفوري" للمرشحات يكسر إلى حد كبير عملية التعلم ، وينفي التغييرات المنهجية في الأوزان على التكرارات السابقة. تحافظ قيم نبتة صغيرة على ديناميكيات التعلم وتساهم في انخفاض سلس في العلاقة الخطية بين المرشحات في كل طبقة على حدة. نلاحظ مرة أخرى نقطة مهمة في الطريقة: في تكرار واحد نقوم بتعديل متجه واحد فقط حتى لا يضر خوارزمية التحسين.


تين. تصور تكرار واحد.

نحن نعتبر تعامد الفلاتر التلافيفية فقط ، لأنه في الشبكات العصبية الحديثة تشكل الطبقات التلافيفية جزءًا كبيرًا من الهندسة المعمارية. ومع ذلك ، يتم تعميم الخوارزمية بسهولة على أوزان الخلايا العصبية في طبقات متصلة بالكامل.

التجارب


ننتقل من النظرية إلى الممارسة. للتجارب ، قررنا استخدام مجموعتي البيانات الأكثر شيوعًا لتقييم الشبكات العصبية في مجال رؤية الكمبيوتر - MNIST (تصنيف صور الأرقام المكتوبة بخط اليد) و CIFAR10 (صور 10 فئات - القوارب والشاحنات والخيول ، وما إلى ذلك).

نظرًا لأننا نفترض أن التعامد سيكون مفيدًا بشكل أساسي للشبكات المدمجة ، فقد أخذنا بنية تشبه LeNet في 3 تعديلات ، والتي تختلف عن بعضها البعض في عدد المرشحات في الطبقات التلافيفية. يظهر هيكل شبكتنا ، والذي سيطلق عليه اسم LeNet 1.0 للراحة ، في الجدول 1. تتميز بنى LeNet 2.0 و LeNet 3.5 المستمدة منها بعدد كبير من المرشحات في الطبقات التلافيفية ، مرتين و 3.5 مرة على التوالي.

باختيار وظيفة التنشيط ، توقفنا عند ReLU ليس فقط لأنها الوظيفة الأكثر شيوعًا والفعالة من الناحية الحسابية (نذكرك أننا ما زلنا نتحدث عن الشبكات السريعة). والحقيقة هي أن استخدام الدوال الخطية غير المتقطعة يبطل تأثير التعامد: على سبيل المثال ، المماس الزائدي يشوه بشدة ناقلات الإدخال لأنه يحتوي على عدم خطية واضحة في المناطق القريبة من التشبع.

الجدول 1. معمارية شبكة LeNet 1.0 المستخدمة في التجارب.
الطبقات
#نوعالمعلماتوظيفة
التنشيط
1تحويل8 مرشحات 3x3 ، خطوة 1x1 ، بدون حشوةRelu
2تحويل16 فلترًا 5x5 ، خطوة 2x2 ، حشوة 2x2Relu
3تحويل16 فلتر 3x3 ، خطوة 1x1 ، حشوة 1x1Relu
4تحويل32 فلترًا 5x5 ، خطوة 2x2 ، حشوة 2x2Relu
5تحويل32 فلترًا 3x3 ، خطوة 1x1 ، حشوة 1x1Relu
6تحويل32 فلترًا 3x3 ، خطوة 1x1 ، حشوة 1x1Relu
7متصل بالكامل10 خلايا عصبيةسوفتماكس

حاولنا 3 قيم نبتة معامل التعامد : 0.01 ، 0.05 ، 0.1. تم تنفيذ جميع التجارب 10 مرات ، وتم حساب متوسط ​​النتائج ( يظهر الانحراف المعياري ( std ) لمعدل الخطأ في الجدول مع النتائج). قمنا أيضًا بحساب عدد الأخطاء التي تم تقليلها ( الفائدة ).

أكدت النتائج التجريبية أن التحسن من التعامد أكبر ، وكلما قل حجم المعلمات في الشبكة (الجدولان 2 و 3). كما حصلنا على نتيجة مثيرة للاهتمام مفادها أن استخدام التعامد في حالة الشبكات "الثقيلة" يؤدي إلى رداءة الجودة.

الجدول 2. النتائج التجريبية ل MNIST
MnistLeNet 1.0 (المعلمات 52 كيلو)LeNet 2.0 (المعلمات 179k)LeNet 3.5 (معلمات 378 كيلو)
نسبة الخطأالأمراض المنقولة جنسيًافائدةنسبة الخطأالأمراض المنقولة جنسيًافائدةنسبة الخطأالأمراض المنقولة جنسيًافائدة
حدود0.402٪0.033-0.366٪0.026-0.361٪0.028-
نبتة = 0.010.379٪0.0275.72٪0.355٪0.013.01٪0.359٪0.0260.55٪
نبتة = 0.050.36٪0.02210.45٪0.354٪0.0183.28٪0.356٪0.0341.39٪
نبتة = 0.10.368٪0.0158.46٪3.53٪0.0243.55٪0.353٪0.0182.22٪

الجدول 3. النتائج التجريبية ل CIFAR10
سيفار 10LeNet 1.0 (المعلمات 52 كيلو)LeNet 2.0 (المعلمات 179k)LeNet 3.5 (معلمات 378 كيلو)
نسبة الخطأالأمراض المنقولة جنسيًافائدةنسبة الخطأالأمراض المنقولة جنسيًافائدةنسبة الخطأالأمراض المنقولة جنسيًافائدة
حدود22.09٪0.65-18.49٪1.01-17.08٪0.47-
نبتة = 0.0121.56٪0.862.38٪18.14٪0.651.89٪17.33٪0.49-1.46٪
نبتة = 0.0521.59٪0.482.24٪18.30٪0.571.03٪17.59٪0.31-3.02٪
نبتة = 0.121.54٪0.412.48٪18.15٪0.531.85٪17.53٪0.4-2.63٪

ومع ذلك ، أصبحت شبكات LeNet نادرة الآن وعادة ما يتم استخدام نماذج أكثر حداثة. لذلك ، جربنا أيضًا نموذج ResNet ، الذي يسره عدد المرشحات ، التي تتكون من 25 طبقة تلافيفية. احتوت الطبقات السبع الأولى على 4 فلاتر ، والفلاتر 12 × 8 التالية ، والفلاتر الـ 6 × 16 الأخيرة. بلغ العدد الإجمالي للمعلمات المدربة لهذا النموذج 21 ألفًا ، وكانت النتيجة متشابهة: orthogonalization يحسن جودة الشبكة.


تين. مقارنة بين ديناميات التعلم ResNet في MNIST مع وبدون التعامد.

على الرغم من التحسينات التي تم تحقيقها في الجودة ، من أجل الثقة الكاملة في التشغيل الصحيح للطريقة المقترحة ، تحتاج إلى معرفة التغييرات التي حدثت في المرشحات نفسها. لهذا ، تم شطب قيم الحد الأقصى لطول إسقاط المرشح في طبقات 2 و 12 و 25 ResNet لجميع عصور التدريب. نقدم ديناميكيات التغييرات في الرسوم البيانية أدناه. الشيء الأكثر أهمية هنا هو أنه في جميع الطبقات هناك انخفاض في الاعتماد الخطي للمرشحات.


تين. ديناميات التغييرات في الحد الأقصى لطول الإسقاط للمرشحات في طبقة تلافيفية باستخدام ResNet كمثال.

من السهل للغاية تنفيذ التنظيم القائم على التعامد: في الثعبان باستخدام الوحدة النمطية numpy يستغرق أقل من 10 أسطر من التعليمات البرمجية. في الوقت نفسه ، لا يبطئ التدريب ويتوافق مع طرق التنظيم الأخرى.

استنتاج


على الرغم من بساطتها ، تساعد عملية التعامد على تحسين جودة الشبكات "خفيفة الوزن" ، التي تفرض قيودًا على حجم وسرعة التنفيذ. نظرًا لانتشار تقنيات الهاتف المحمول ، فإن هذه القيود شائعة بشكل متزايد: يجب ألا تعمل الشبكة العصبية في مكان ما في السحابة ، ولكن مباشرةً على جهاز به معالج ضعيف وذاكرة منخفضة. يتعارض تدريب هذه الشبكات مع الاتجاهات الحديثة في علوم الشبكات العصبية ، حيث يتم استخدام مجموعات من النماذج بملايين من المعلمات المدربة التي لا يمكن لأي هاتف ذكي سحبها. لهذا السبب ، في إطار حل المشاكل الصناعية ، من المهم للغاية ابتكار وتطوير طرق لتحسين جودة الشبكات البسيطة والسريعة.

قائمة المصادر المستخدمة


ألكسندر ف. جاير ، ألكسندر ف. شيشكوس ، "الشبكة العصبية التلافيفية الأوزان تسوية عبر التعامد ،" بروك. SPIE 11433 ، المؤتمر الدولي الثاني عشر حول رؤية الآلة (ICMV 2019) ، 1143326 (31 يناير 2020) ؛ https://doi.org/10.1117/12.2559346

All Articles