🥝 🌚 👨🏻‍⚖️ كيف نتعرف على معدات الحماية الشخصية 👂🏿 🐦 👆🏽

ربما كنت تتساءل طوال حياتك عن كيفية تدريب شبكة عصبية للتعرف على الناس في الخوذات والسترات البرتقالية! لا؟ لكننا سنخبرك على أي حال.

اسمنا هو Tatyana Voronova و Elvira Dyaminova. نحن منخرطون في تحليل البيانات في شركة Center 2M ، ونحن نعمل كثيرًا مع معظم المصانع والشركات الحقيقية. بسبب انتهاكات السلامة ، يعانون من خسائر بملايين الدولارات ، ويصاب الموظفون ، لذلك سيكون من الجيد أن تكون قادرًا على اكتشاف مثل هذه الانتهاكات بشكل منهجي وفي أقرب وقت ممكن. الأفضل للجميع - تلقائيًا. لذلك لدينا مشاكل مرتبطة بالتعرف على معدات الحماية الشخصية (PPE) على الفيديو وتحديد الأشخاص أو المعدات في منطقة الخطر.

بالنسبة للجزء الأكبر ، تأتي لنا أوامر لتحديد الخوذات (بشكل أكثر دقة ، غيابهم) وملابس العمل. لقد اكتسبنا بالفعل خبرة في تنفيذ مثل هذه المهام ، والآن يمكننا وصف المشاكل التي واجهناها وكيفية حلها.

نظرًا لأنه بموجب شروط التعاون ، ليس لدينا الحق في نشر لقطات من أغراض العميل ، سنوضح المقالة بالصور من الإنترنت ، والتي يبتسم فيها الأشخاص الذين يرتدون الخوذات ويبدون رائعين. لسوء الحظ ، في المجال العام ليس لجميع ميزات المهام التي نواجهها في الواقع ، يمكنك العثور على أمثلة جيدة. على وجه الخصوص ، من غير المحتمل أن يبتسم الأشخاص الذين يرتدون الخوذات في الحياة ، ولم يتم الكشف عن مشكلة العمال الأصلع (سنتحدث عنها بعد ذلك بقليل) على الإنترنت!

صورة من الإنترنت (حجم 1920x1280):

يمكن تقليل التعرف على معدات الحماية الشخصية إلى واحدة من مشكلتين كلاسيكيتين في رؤية الكمبيوتر: تصنيف الصور والكشف عن الأشياء. من الناحية العملية ، اتضح أنه من الأفضل عدم استخدام أحد هذه الأساليب ، ولكن اختيار الأنسب لكل حالة معينة ، بالإضافة إلى دمجها بمرونة. على سبيل المثال ، يمكننا أولاً تحديد مكان الأشخاص في الصورة ، ثم تصنيف الصور التي تم قصها بواسطة الصور الظلية إلى فصول "في ملابس العمل" و "بدون" ، واكتشاف وجود خوذة بواسطة الممر الثاني.

بالنسبة للأرقام المقطوعة مسبقًا للأشخاص ، يبدو تصنيف وجود الخوذات والبدلات على هذا النحو (عرض الصورة الأصلية):

نتيجة عمل نماذج تصنيف الملابس الداخلية والخوذات

على نفس الشخصيات البشرية المختارة سابقا ، تطبيق النهج هذه المرة مع الكشف عن الخوذات.

نتيجة نموذج تصنيف ملابس العمل ونموذج للكشف عن الخوذات:

المرحلة الأولى: الكشف البشري

إن جودة تعريف الأشياء الصغيرة (الخوذات / النظارات / القفازات) على الإطارات الكبيرة متساوية. من الأسهل بكثير على الكمبيوتر ، مثل أي شخص ، أن يفهم أولاً مكان الأشخاص ، وبعد ذلك فقط يكتشف ما يرتدونه. لذلك ، يبدأ كل شيء بتحديد الأشخاص في الإطار.

نتيجة للتجارب ، اكتشفنا أن الشبكة العصبية الأسرع R-CNN مع Inception v2 كمستخلص للميزات مناسبة تمامًا لاكتشاف الأشخاص. لدى TensorFlow بالفعل شبكات عصبية مدربة مسبقًا للكشف عن الأشياء.

بالنسبة لنا ، يعد أسرع R-CNN Inception v2 (المدرب على مجموعة بيانات COCO) هو الطريقة الأساسية التي نحاولها أولاً عند حل مثل هذه المشاكل.

في البداية ، نكتشف أشخاصًا في الإطار (ثم على الأشخاص المعثور عليهم نجد معدات الحماية الشخصية):

لاحظ أننا قمنا بزيادة المربع المحيط "مع شخص" على طول المحور ص :

في هذه الصورة ، تم تصوير العامل في ضوء جيد وعلى خلفية متباينة (مع الصور الموجودة على الإنترنت ، يحدث هذا طوال الوقت). لذلك ، تم بناء الصندوق المحيط مع الشخص بشكل جيد. ومع ذلك ، في ممارستنا ، هناك حالات متكررة (خاصة في ظروف الرؤية غير الكافية) عندما يقطع نموذج الكشف خوذة في شخص ، وبعد ذلك لا فائدة من البحث عنها على صورة مقطوعة. في هذا الصدد ، على طول المحور ص ، نقوم بزيادة الصندوق المحيط المتوقع بنسبة 15٪ قبل الانتقال إلى المرحلة الثانية.

عند اكتشاف الأشخاص ، نواجه مشاكل صغيرة غير سارة. أولاً ، عندما يمشي شخصان أو يقفان خلف بعضهما البعض ، غالبًا ما يتم اكتشافهما كشخص واحد. ثانيًا ، يحدث أن يدخل كائن ثابت في مجال رؤية الكاميرا ، حيث يمكن للنموذج التعرف على شخص ، مثل صنبور. يمكن حل هذه المشاكل بطرق مختلفة. على سبيل المثال ، كيف فعلنا ذلك: التوفيق بينها وقبولها ، لأن النموذج بشكل عام مناسب لنا من حيث الإنتاجية والجودة.

والمشكلة الأكثر جوهرية هي أن المباني الصناعية التي توجد فيها "منطقة خطر" تكون ضخمة في الغالب ، وبالتالي فإن الأشخاص في الإطارات صغيرون جدًا. أظهرت طريقتنا الأساسية المستندة إلى أسرع R-CNN Inception v2 نتائج ضعيفة في مثل هذه الحالات ، وفي النهاية حاولناأسرع R-CNN Nas . كانت النتائج مثيرة للإعجاب ، وتم التعرف على الأشخاص جيدًا حتى في المسافة ، ولكن السرعة كانت أقل بكثير من النموذج الأساسي. باستخدام الموارد الكافية والحاجة إلى دقة عالية ، يمكنك استخدام Faster R-CNN Nas .

المرحلة الثانية: تحديد المخالفين الخبيثة

اعتمادًا على المهمة ، غالبًا ما يتم استخدام ما يلي:

نموذج تصنيف الصور - بداية الإصدار 3
نموذج الكشف عن الأجسام - بداية أسرع لـ R-CNN v2

تصنيف ملابس العمل والخوذات

لقد اختبرنا بنى الشبكة العصبية المختلفة لتصنيف الصور ، واستقرنا في النهاية على Inception v3 ، وقررنا الاستفادة من حقيقة أنها مصممة للعمل مع أحجام صور متغيرة. كان لدينا بالفعل الكثير من الصور المقطوعة مع الناس ، ولم يكن من الصعب حساب القيم المتوسطة للطول والعرض. لذلك توصلنا إلى استنتاج مفاده أنه لتدريب المصنفات بدأ في جلب الصور بحجم 150x400.

من أجل تدريب الشبكة على التعرف على معدات الحماية الشخصية ، بادئ ذي بدء ، من الضروري جمع مجموعة بيانات من الأمثلة المصنفة. هناك خفايا في هذه العملية يأتي تحقيقها مع الخبرة. على سبيل المثال ، من الأفضل إزالة الأشخاص الذين تم قطعهم فوق الوركين من مجموعة البيانات. سيؤدي ذلك إلى تقريب مجموعة البيانات من الظروف الحقيقية ، حيث يتم مشاهدة الأشخاص في معظم الأوقات بارتفاع كامل على الفيديو من كاميرات المراقبة. تحدث حالات التداخل ، بالطبع ، أيضًا ، ولكن الصور الظلية الكاملة للعينة المستهدفة مميزة أكثر.

أمثلة من مجموعة بيانات ملابس العمل لدينا:

لم نبتكر أي شيء محدد كمقياس ؛ نستخدم الاستدعاء والدقة.

نموذج لتصنيف وجود / عدم وجود ملابس العمل:

نتائج عينة التحقق

كشف معدات الحماية الشخصية

يعمل نموذج التصنيف بشكل أسرع من النموذج للكشف عن الأشياء ، ولكن نظرًا لحقيقة أن نظارات وقفازات الأمان صغيرة في الصورة ، فمن الصعب إنشاء مصنف جيد لمثل هذه المعدات. لذلك ، قمنا بتدريب الشبكة العصبية الأسرع R-CNN على مجموعة بيانات من ست فئات:

نظارات / not_glasses
قفازات / قفازات
خوذة / خوذة

جمع البيانات وترميزها

كانت المشاكل الرئيسية تتعلق بمجموعة بيانات الخوذات. لقد كانت طريقة رائعة: مررنا بالصلع ، والأشخاص الذين يحملون الخوذات في أيديهم ، وحتى الأشخاص الصلعاء في أيديهم.

نظرًا لأنه في بداية الرحلة لم يكن لدينا العديد من الإطارات من الظروف الحقيقية ، قمنا بجمع مجموعة البيانات بأفضل ما يمكن: تصوير أنفسنا ، والتقاط صور من الإنترنت أو من مواقع البناء. بعد ذلك بقليل ، بدأنا في تلقي الكثير من مقاطع الفيديو من مؤسسات مختلفة ، لذلك بدأنا في إثراء مجموعة البيانات فقط بإطارات الظروف الحقيقية. في مرحلة ما ، تجاوز عدد الصور التي تم وضع علامة عليها 5 كيلو ، وتوقف تحسن جودة إضافة أمثلة جديدة ، وفي هذا الصدد ، راجعنا نهج الترميز.

سنصف مراحل تحسين مجموعة بيانات الخوذة باستخدام مثال الصور من الإنترنت ، بحيث لا تتطابق الزاوية والجودة تمامًا مع ما لدينا.

بالإضافة إلى الصورة أعلاه ، المقطوعة فوق الوركين ، أزلنا الصور التي يتم فيها اقتصاص الخوذات أكثر من النصف لتجنب الخلط مع القبعات.

واجهنا أيضًا حقيقة أنه إذا كان لدى الشخص خوذة في يديه ، فغالباً ما لا يرى النموذج أي انتهاكات: هل هناك خوذة؟ يوجد. لذلك ، أزلنا من مجموعة بيانات التدريب جميع الإطارات التي يحمل فيها الشخص خوذة بيده ، حتى لو كانت الخوذة على رأسه في تلك اللحظة.

بشكل عام ، حاولنا إزالة الصور ذات الخلفية المضاءة أو في الغرف المظلمة ، ثم قللنا عدد الصور التي التقطناها ، وتركنا في الغالب لقطات من الإنتاج. ونتيجة لذلك ، قللنا مجموعة البيانات بمقدار النصف.

بالإضافة إلى ذلك ، قمنا بإثراء مجموعة البيانات بأشخاص صلعاء ، وإلا فسيكونون دائمًا في الخوذ ، حتى لو لم يكن الأمر كذلك ، ومع الشقراوات ذات المربعات ، والتي يحددها الكاشف أيضًا بزاوية معينة.

بعد إزالة الصور غير المناسبة ، انتقلنا مباشرة إلى الترميز (لاكتشاف الأشياء). اتضح أنه ليس بهذه البساطة. اتضح أن جودة الكاشف النهائي تعتمد إلى حد كبير على ما يتم تحديده بالضبط في المنطقة الموجودة في الصورة على أنها "خوذة" أو "قفازات". في البداية ، قمنا بتخصيص الخوذات والنظارات الواقية دون الإمساك بالوجوه ، والقفازات بأيادي ممسكة. ومع ذلك ، من خلال الخبرة ، قمنا بتحسين نهجنا تدريجيًا من خلال النظر في أخطاء النوع الأول والثاني ، حيث يحمل الناس الخوذ في أيديهم ، ويتحول شيء ما حول شيء طويل إلى "قفاز". الآن ، عند وضع علامة على الخوذات والنظارات ، نحاول الإمساك بالوجه إلى طرف الأنف ، وعند وضع علامة على القفازات ، على العكس ، اقتصرنا على فرشاة.

نتيجة لتلاعبنا في مجموعة البيانات ، حصلنا على النتائج التالية.

نموذج للكشف عن وجود / عدم وجود معدات الوقاية الشخصية باستخدام الخوذات كمثال:
النتائج على عينة التحقق قبل بدء "العمل العالمي" في مجموعة البيانات

النتائج النهائية على عينة التحقق

تراجع اكتمال التعرف على الخوذات قليلاً ، ولكن في الوقت نفسه ، تحسنت مقاييس الكشف عن الانتهاكات ، وهذا ما أردنا تحقيقه.

نموذج لتصنيف وجود / عدم وجود الخوذات:
النتائج على عينة التحقق قبل بدء "العمل العالمي" في مجموعة البيانات

النتائج النهائية على عينة التحقق

وتجدر الإشارة إلى أنه ليس لدينا تقسيم إلى النظارات والنظارات للرؤية ، فهي تذهب تحت نفس العلامة "نظارات" ، ويمكن النظر إلى قفازات ظلال الضوء على أنها فرشاة عارية. لقد حاولنا تعظيم التدرج اللوني للخوذات وملابس العمل في مجموعات البيانات الخاصة بنا ، ولكن من أجل الموثوقية ، أضفنا أبسط تقنية وأكثرها موثوقية إلى ذلك: إذا لزم الأمر ، لاكتشاف القفازات ، نقول للعملاء أن الألوان الزاهية تساعد على زيادة الدقة.

في الوقت الحالي ، لدينا نماذج عالمية نستخدمها للعرض الأولي للعميل. ومع ذلك ، يجب أن يكون من المفهوم أنه من المستحيل إنشاء نموذج عالمي للجميع ، فمن الضروري التكيف مع كل عميل ، وتحديد الفروق الدقيقة الجديدة وأخذها بعين الاعتبار ، وإثراء مجموعات البيانات أو إنشاؤها من جديد لتلبية متطلبات محددة.

علاوة

عادة ، يرغب العملاء في معالجة أكبر عدد ممكن من الكاميرات ، باستخدام أقل عدد ممكن من الموارد. بوتش ، بالطبع ، شيء جيد ، لكن الحيل الإضافية لتحسين العملية ليست محظورة.

على سبيل المثال ، كان لدى زملائي وأنا من مركز عملاء IBM في موسكو فرضية مفادها أن تجميع العديد من الأشخاص معًا لاكتشاف المزيد من الخوذات من شأنه زيادة عدد الكاميرات لكل خادم مع خسارة غير مبدئية في الدقة.

كأساس ، قررنا أن نأخذ حجم 1000x600 للقماش الذي سيتم "تطبيق" الأشخاص عليه. تم اعتبار خيارين للتخطيط مبدئيًا:

العرض والارتفاع الثابت (200x600) ، مع هذا النهج ، يوجد 5 أشخاص في الإطار.
العرض والارتفاع الثابت (125x600) ، 8 أشخاص.

يرجع هذا القرار إلى حقيقة أنه من خلال البيانات الثابتة ، نعرف بالضبط عدد الأشخاص في الصورة ، مما يعطينا توقعات بالحمل. ومع ذلك ، خلال التطوير ، اعتبرنا هذا الخيار:

ارتفاع ثابت وعرض متناسب (*** x600) ، عدد مختلف من الأشخاص.

كان من المفترض أنه مع زيادة الأحجام والحفاظ على النسب ، ستكون النتائج أفضل مقارنة بخيارات التخطيط الأخرى. تراوح عدد الأشخاص من 3 إلى 5 (+/–).

ونتيجة لذلك ، حصلنا على أن الخيار ذو العرض والارتفاع الثابت (200 × 600) هو الأفضل بين تلك التي تم النظر فيها. بالطبع ، هذه الطريقة ليست مناسبة للكشف عن النظارات والقفازات ، لأن الأشياء صغيرة ، ولكن للكشف عن الخوذات / نقص الخوذات ، أظهرت هذه الطريقة نتائج جيدة.

على سبيل المثال ، في عينة التحقق من الصحة:

: (tvoronova), (elviraa)