مراجعة مقال FarSee-Net - نهج جديد للتجزئة الدلالية في الوقت الحقيقي

في هذه الورقة ، يقترح المؤلفون بنية تجمّع الهرم الهرمي المكاني المعامل (CF-ASPP) لتجزئة الدلالات في الوقت الفعلي. تعمل وحدة CF-ASPP الجديدة واستخدام الدقة الفائقة على تحسين مقايضة دقة وقت الاستجابة. تم إعداد المراجعة من قبل المطور الرائد لشركة MTS Andrey Lukyanenko.

صورة

التجزئة الدلالية في الوقت الحقيقي ضرورية للعديد من المهام التي يتم تنفيذها على موارد محدودة. إحدى الصعوبات الكبيرة هي العمل مع كائنات بأحجام مختلفة واستخدام السياق. في هذه الورقة ، يقترح المؤلفون بنية تجمّع الهرم الهرمي المكاني المعامل (CF-ASPP).

في الوقت الحاضر ، من الأساليب الشائعة تقليل حجم الصور بسرعة في المراحل الأولية ، ثم يتم الحصول على قناع الحجم الأصلي باستخدام الاختزال. يقترح المؤلفون استخدام أساليب فائقة الدقة بدلاً من الاختزال البسيط.

يمكن للوحدة الجديدة واستخدام الدقة الفائقة تحسين مقايضة دقة وقت الاستجابة.

في مصطلحات المؤلفين ، تسمى الشبكة المدربة لاستخراج الميزات شبكة الواجهة الأمامية ، وتسمى الباقية شبكة النهاية الخلفية.

صورة

مبرر التحسينات

نظرًا لأن الكائن نفسه في الصور المختلفة قد يكون له أحجام مختلفة ، فمن المهم جدًا أن تكون قادرًا على استخدام المعلومات السياقية بشكل فعال ، خاصةً للكائنات الصغيرة والضيقة. عادةً ما تقوم الواجهة الأمامية بتجميع السياق من مقاييس متعددة. ولكن عادة ما تعمل هذه الوحدات على مستويات عميقة من الشبكات العصبية ، حيث يكون عدد القنوات مرتفعًا. ونتيجة لذلك ، حتى الطبقات التلافيفية بحجم النواة 3 تتطلب الكثير من موارد الحوسبة. لذلك ، يقترح المؤلفون وحدة خاصة بهم ، مما يجعلها أكثر فعالية.

مشكلة خلفية أخرى للتجزئة الدلالية هي أن خرائط المعالم لها بعد مكاني أصغر بكثير بعد الواجهة الأمامية. بالإضافة إلى ذلك ، تستخدم العديد من الأساليب صورًا ذات حجم مخفض لزيادة السرعة. ونتيجة لذلك ، يكون الحجم أصغر. يقترح المؤلفون استخدام قناع الحجم الأصلي للإشراف أثناء التدريب. تتيح لك الدقة الفائقة استعادة القناع عالي الدقة بكفاءة من قناع منخفض الدقة.

جوهر التحسينات يمكن استخدام

أي شبكة مدربة ، مثل VGG و ResNet و MobileNet كواجهة أمامية.

النقطة كلها هي النهاية الخلفية:

صورة

Cascaded Factorized ASPP

غالبًا ما تُستخدم اللفائف العنيفة في التقسيم الدلالي - اختلافها عن النهج القياسي هو أن r - 1 أصفار تضاف بين المرشحات. هذا يسمح لك بزيادة رؤية كل مرشح بشكل ملحوظ دون زيادة التكاليف الحسابية. ولكن بما أن الالتواءات الفظيعة تنطبق على خرائط المعالم الكبيرة ، فلا تزال الحوسبة مكلفة.

يقترح المؤلفون تفكك انحلال عظمي 3 × 3 إلى جزأين: تلازم نقطة حكيم لتقليل عدد القنوات ، ثم تلاشي عميق وعميق لتقليل النفقات الحسابية. ونتيجة لذلك ، يلزم ما يقرب من العمليات الحسابية أقل 8.8 مرة.

بالإضافة إلى ذلك ، يتم تطبيق وحدة ASPP المتتالية مرتين. من ناحية ، يتلقى النموذج المزيد من السياقات من المقاييس المختلفة ، من ناحية أخرى ، تأتي الصور الأصغر إلى ASPP الثاني ، لذلك لا تتباطأ الشبكة كثيرًا ، ولكن تزداد الدقة.

ميزة الدقة الفائقة للفضاء

نتيجة لعملية الواجهة الأمامية ، يتم تقليل حجم الصورة بشكل كبير ، ونحن بحاجة إلى الحصول على نتيجة عالية الدقة بناءً على هذه الصورة المصغرة. يستخدم المؤلفون نهج الدقة الفائقة لهذا.

في مرحلة التدريب ، يتم استخدام الصورة المصغرة كمدخل ، ويتم استخدام الصورة الأصلية كحقيقة أرضية.

في الوحدة النمطية ، يتم إجراء الاختزال النهائي للوحدة باستخدام الالتفاف الفرعي للبكسل ، والذي يستخدم فقط في المهام فائقة الدقة.

صورة

التجارب

كمجموعة بيانات ، تم استخدام مناظر المدينة. تمت كتابة الرمز في Pytorch 1.1 ، CuDNN v7.0. تم التدخل على Nvidia Titan X (Maxwell). تستخدم ResNet-18 كشبكة مدربة. تم أخذ المعالم من الطبقة الأخيرة قبل متوسط ​​التجميع ومن طبقة conv3_x.
SGD ، 400 عصور والعديد من التعزيزات.

تم

صورة

اختبار دراسة الاجتثاث على بنية الشبكة 4 طرق:

  1. الواجهة الأمامية - ResNet-18 ، الواجهة الخلفية - ASPP ، وحدة فك الترميز - DeeplabV3 +
  2. الواجهة الأمامية - ResNet-18 ، الواجهة الخلفية - وحدة F-ASPP واحدة ، وحدة فك الترميز - DeeplabV3 +
  3. الواجهة الأمامية - ResNet-18 ، الواجهة الخلفية - CF-ASPP (بدون دقة مساحة الميزة)
  4. النهج الكامل.

مقارنة مع المقاربات الأخرى:

صورة

الجودة عالية حقًا ومعدل الاستدلال هو الأفضل تقريبًا.

صورة

All Articles