تعد ترجمة رمز الاستجابة السريعة مهمة مهمة ، محرومة من الانتباه بشكل غير مستحق

نحن على يقين من أنه لا يوجد اليوم قارئ واحد لـ Habr لن يكون على دراية برموز QR. هذه الباركود ثنائية الأبعاد في كل مكان. من المنطقي أن هناك العديد من الأدوات في العالم التي تسمح بإضافة رموز QR إلى مشروعك بدرجة من الكفاءة. النقطة الأساسية هي أن هذه الكفاءة المذكورة تعتمد بشكل مباشر على جودة الأداة المستخدمة للتعرف على رموز QR. وهنا يأتي القابس الكلاسيكي: يمكنك حل المشكلة (جيدًا) بشكل جيد ومكلفًا (أو جدًا) ، أو يمكنك مجانًا بطريقة أو بأخرى. هل من الممكن تعديل المادة الحرة بحيث تحل المشكلة بشكل جيد؟ إذا كانت مهتمة ، انظر تحت القط.

إن التعرف على رمز الاستجابة السريعة في الصورة هو مهمة تم وضعها بشكل جيد لرؤية الآلة. أولاً ، في المهمة ، يتم التحقيق في شيء ما ، والذي تم تصميمه في الأصل خصيصًا للتعرف على "ملائم". ثانيًا ، تنقسم المهمة نفسها إلى عدة مهام فرعية مستقلة مفهومة: توطين رمز الاستجابة السريعة وتوجيه رمز الاستجابة السريعة وفك تشفير رمز الاستجابة السريعة مباشرة. اتضح أن المجال العام لديه منذ فترة طويلة مكتبات جيدة يمكنها حل المشاكل الأخيرة: توجيه وفك شفرة الاستجابة السريعة. مشكلة واحدة: لفك التشفير عالي الجودة ، تتوقع هذه المكتبات إدخال صورة ثنائية جيدة مباشرة من الرمز الشريطي. على العكس من ذلك ، يتم إيلاء القليل من الاهتمام لمهمة توطين الباركود في الصورة.

في تجربتنا ، كلما قمت بتوطين كائن التعرف بشكل أكثر دقة ، كان من الأسهل اختيار أدوات المعالجة المسبقة الصحيحة ، وفي الواقع ، التعرف عليها. لذلك ، إذا كنت ترغب في تحسين جودة التعرف على رموز QR في مشروعك ، فابدأ بتحديث طرق توطين رموز QR. في الواقع ، حتى إذا كنت بحاجة لاحقًا إلى تنقيط صورة ثنائية ، فإنها أكثر فاعلية (سواء من وجهة نظر حاسوبية أو نوعية) من أجل تعدين منطقة بباركود من الصورة الأصلية بأكملها.

في هذه المقالة ، سنخبرك بكيفية تحسين جودة توطين رموز QR بسهولة باستخدام طرق معالجة الصور الكلاسيكية ، وأيضًا إعطاء خصائص رقمية لفعالية الخوارزمية المقترحة.

سنتحدث عن الطريقة الأصلية لتوطين رموز QR على الصور ، باستخدام طريقة Viola and Jones المعدلة كأساس لها.

مذكرة معلومات حول موضوع المقالة


في هذا القسم ، سنصف الميزات الرئيسية لرمز الاستجابة السريعة التي يتم استخدامها لإنشاء طريقة التوطين ، بالإضافة إلى وصف موجز للنسخة الأصلية من طريقة فيولا وجونز.

رمز الاستجابة السريعة


رمز الاستجابة السريعة (اختصار لرمز الاستجابة السريعة) هو رمز شريطي ثنائي الأبعاد تم تطويره في اليابان في منتصف التسعينات لصناعة السيارات. نظرًا للقدرة على القراءة بسرعة وسعة أكبر مقارنة بالباركود الخطي ، أصبح نظام رمز الاستجابة السريعة شائعًا في جميع أنحاء العالم في مختلف مجالات الحياة.

على عكس الباركود الخطي القياسي ، والذي يتم فحصه عادةً بواسطة الأجهزة ، غالبًا ما يتم مسح رمز الاستجابة السريعة بواسطة الكاميرا. يتم وصف هيكل رمز الاستجابة السريعة بالكامل في ISO / IEC 18004 (معيار ISO / IEC 18004). لبناء خوارزمية التعرف القوية لهذه الصور ، يحتوي رمز الاستجابة السريعة على بعض النقاط المرجعية التي تشكل نمط وظيفة: ثلاثة مربعات في زوايا صورة الرمز الشريطي (تسمى أنماط الباحث) ومربعات تزامن أصغر في جميع أنحاء صورة الرمز الشريطي (تسمى أنماط المحاذاة) . تسمح لك هذه النقاط بتطبيع حجم الصورة واتجاهها.


تين. بنية رمز الاستجابة السريعة



على الرغم من أن جميع رموز QR تشبه بصريًا بعضها البعض ، إلا أن النسخ المختلفة من رموز QR ، اعتمادًا على كمية البيانات المشفرة ، يمكن أن يكون لها تخطيط مختلف للعناصر الداخلية. بالإضافة إلى ذلك ، تحظى رموز QR المعروفة باسم المصمم بشعبية كبيرة ، حيث يتم استخدام العناصر الرسومية التابعة لجهات خارجية بدلاً من جزء المعلومات الإضافية التي تضمن التعرف عالي الجودة على الرمز الشريطي (الشعارات والشعارات والنقوش وما إلى ذلك). يجب أن تؤخذ جميع ميزات رموز QR هذه في الاعتبار عند إنشاء طرق للتوطين والتعرف على رموز QR.



تين. خيارات رمز QR مختلفة صالحة



طريقة فيولا وجونز


كسول فقط على حبري لم يكتب بعد عن طريقة فيولا وجونز. حتى نحن في مجموعتنا فعلنا ذلك عدة مرات (على سبيل المثال ، هنا ، هنا أو هنا ). وما زلنا نعتبر أنه من الضروري أن نقول باختصار شديد ، حرفيا في فقرتين.

تم تطوير طريقة الكشف عن الكائنات فيولا وجونز للبحث عن وجوه في صورة في الوقت الفعلي. تقلل هذه الطريقة من مشكلة الكشف إلى مشكلة التصنيف الثنائي في كل نقطة صورة ، أي لكل منطقة صورة مستطيلة تم التقاطها مع جميع أنواع التحولات والمقاييس ، يتم التحقق من فرضية وجود الكائن المطلوب في المنطقة باستخدام مصنف تم تدريبه مسبقًا.

كمساحة للمعالم ، تستخدم طريقة Viola and Jones خصائص Haar المستطيلة ، والتي يتم حساب قيمتها على أنها الفرق بين مجموع سطوع وحدات بكسل مناطق الصورة داخل المستطيلات المجاورة. لحساب قيمة ميزات Haar بشكل فعال ، يتم استخدام صورة متكاملة ، والتي تُعرف أيضًا في الأدبيات تحت مصطلح جدول المنطقة المجمعة. المصنف الثنائي "الضعيف" h ( x ): Χ → {-1، + 1} ، عادةً ما يتم تقديمه على أنه شجرة التعرف ذات فرع واحد:



حيث θ و p- قيمة العتبة للسمة وتعادل المصنف على التوالي. بعد ذلك ، باستخدام طريقة التعلم الآلي AdaBoost ، يتم إنشاء مصنف "قوي" ليكون تراكبًا خطيًا للمصنفات "الضعيفة" المذكورة أعلاه. يتم ضمان السرعة العالية لطريقة فيولا وجونز من خلال استخدام سلسلة من المصنفات "القوية" ، والتي تتيح توطين مناطق الصور "الفارغة" (الخالية من الكائنات) لعدد صغير من الحسابات.

خوارزمية كشف رمز الاستجابة السريعة


عند إنشاء طريقة لتوطين رمز QR ، اعتمدنا على الميزات التالية للمهمة. أولاً ، يجب أن يكون للطريقة المتقدمة أداء عالي للاستخدام في أنظمة التعرف التي تعمل في الوقت الفعلي. ثانيًا ، يجب أن تكون الطريقة مقاومة للتشويه المسموح به للباركود في الصورة. ثالثًا ، يجب أن تأخذ الطريقة في الاعتبار جميع المتغيرات الحالية لرموز QR.

كما ذكرنا أعلاه ، اخترنا طريقة فيولا وجونز كطريقة أساسية. أثبتت هذه الطريقة نفسها في العديد من مهام البحث عن الأشياء الصلبة ، بينما توفر الطريقة الأداء المطلوب. ولكن في النسخة الأصلية ، لا يمكن استخدام طريقة Viola and Jones للأسباب التالية:

  • في الطريقة الكلاسيكية في فيولا وجونز ، يتم استخدام عائلة من سمات Haar "للتأكيد" على الميزات النصية للكائن ، وفي حالتنا ، على الرغم من أن رمز QR يتكون من barcels أبيض وأسود ، فإن توزيعها يختلف تمامًا عن الباركود إلى الباركود ؛
  • تم تصميم طريقة Viola and Jones الكلاسيكية لنفس النوع من الكشف عن الأشياء في اتجاه معين ، والتي لم تتم ملاحظتها أيضًا في مهمتنا.

حتى نتمكن من تطبيق طريقة فيولا وجونز لحل المشكلة ، نستخدم العائلة الأصلية لميزات الحدود ومصنفًا عالي المستوى في شكل شجرة قرارات. سيسمح التعديل الأول بالتركيز على السمات الحدودية للكائن المدروس ، وليس على الملمس. سيسمح لك التعديل الثاني ببناء مصنف واحد يمكنه اكتشاف الكائنات المتغيرة. بعد ذلك ، سنخبرك بالمزيد عن كل تعديل.

علامات التدرج من هار.


لبناء كاشف فعال لرموز QR ، استخدمنا عائلة خاصة من ميزات التدرج [1]. هذه العلامات هي علامات مستطيلة من Haar ، محسوبة أعلى خريطة الحدود الموجهة ، والتي يمكن أن تحسن بشكل كبير من قوتها العامة.

خريطة حدود الاتجاه هي صورة لمعامل التدرج ، والتي تأخذ أيضًا في الاعتبار الاتجاه المفضل للتدرج عند النقطة ( س ، ص ) ، والتي يتم تعريفها على أنها تفكيك لزاوية الحد في اتجاهات أفقية ، رأسية ، + 45 درجة و -45 درجة. لبناء كاشف رمز QR ، استخدمنا نوعين من خريطة حدود الاتجاه: خريطة حدود مستقيمة وخريطة وجه مائلة.

دع الصورة الأصلية f ( x ،ذ ). ثم يمكنك حساب القيمة التقريبية للمشتق على طول الاتجاهات الأفقية والرأسية باستخدام عامل Sobel:



بالإضافة إلى ذلك ، باستخدام g x و g y ، يمكنك حساب اتجاه التدرج في كل نقطة من الصورة: تحتوي



خريطة الحدود المستقيمة بشكل أساسي على حدود أفقية ورأسية ويتم حسابها على النحو التالي:



الخريطة تحتوي الحدود القطرية بشكل أساسي على حدود الأقطار ويتم حسابها على النحو التالي:



في أعلى الخريطة التي تم إنشاؤها للحدود الموجهة (قطرية أو مستقيمة) ، يتم حساب علامات Haar المستطيلة. على عكس ميزات Haar الكلاسيكية ، فإن هذه السمات الحدودية تعمم الأشياء الجيدة التي تحتوي على عدد كبير من الحدود.



تين. شكل توضيحي لخريطة الحدود الموجهة: (أ) الصورة الأصلية لرمز الاستجابة السريعة ، (ب) خريطة الحدود المستقيمة ، (ج) صورة رمز الاستجابة السريعة المدورة (د) خريطة الحدود القطرية لرمز الاستجابة السريعة المدور



الشجرة الحاسمة للمصنفات القوية


شجرة المصنفات القوية [2] هي نوع من شجرة القرار الثنائية: عقدة الشجرة هي مصنف قوي ، على الحافة اليمنى من المفترض أن تحتوي النوافذ الفرعية على الكائن ، وعلى اليسار - تلك التي لم يتم التعرف عليها ككائن ، على التوالي. الجواب النهائي هو فقط في الإجازات. المصنف المتسلسل الكلاسيكي الموصوف في العمل الأصلي لـ Viola and Jones هو في الواقع مصنف شجرة يحتوي على ناتج "إيجابي" واحد فقط (ورقة) والعديد من المخرجات "السلبية".

في [2] ، يُظهر أن أي مسار من الجذر إلى العقدة الدنيا لمصنف الشجرة يمكن تمثيله على شكل شلال حيث تدخل المصنفات القوية الفردية بإجابة معكوسة. بفضل هذا ، من الممكن بناء خوارزمية تعلم لمصنف الشجرة ، والتي تستخدم إجراء التدريب لمصنف التعاقب الكلاسيكي لتعليم المسارات الفردية.

يسمح لك مصنف الشجرة بتدريب المصنفات الأكثر فعالية من حيث اكتمال العناصر المتغيرة بالمقارنة مع المصنفات المتتالية الكلاسيكية.

نتائج تجريبية


كجزء من تجربة لتقييم فعالية طريقة توطين الباركود المقترحة في هذه المقالة ، تم إعداد مجموعة من صور الباركود تتكون من 264 صورة. كان الحجم المادي للصور حوالي 1 MPix. تحتوي كل صورة على رمز QR واحد فقط في اتجاه تعسفي ، وكانت مساحة الرمز الشريطي 10٪ على الأقل من إجمالي مساحة الصورة. يوضح الشكل أدناه أمثلة لصور من المجموعة المجمعة.



تين. أمثلة على الصور من مجموعة صور الباركود المجمعة



تم تقسيم مجموعة الصور المعدة إلى مجموعة تدريب ومجموعة اختبار. حجم عينة التدريب 88 صورة ، حجم عينة الاختبار 176 صورة.

تم استخدام مجموعة التدريب لإعداد أمثلة إيجابية ولإعداد أمثلة سلبية. نظرًا لأن العدد الأولي من الأمثلة الإيجابية كان صغيرًا ، فقد استخدمنا تقنية زيادة البيانات [3]. على وجه الخصوص ، قمنا بتطبيق الدوران حول مركز الباركود بزيادات 15 درجة. بلغ عدد الأمثلة الإيجابية بعد الزيادة 2088 مثالاً.

باستخدام نفس الأمثلة الإيجابية والسلبية ، قمنا بتدريب ثلاثة كاشفات لرمز QR: مصنف متسلسل كلاسيكي مع ميزات Haar القياسية ، ومصنف متتالي كلاسيكي مع ميزات حدود ، ومصنف شجرة بميزات حدود. يتكون المصنف المتتالي الأول من 12 مستوى ويحتوي على ما مجموعه 58 سمة. يتكون المصنف المتسلسل الثاني من 8 مستويات ويحتوي على ما مجموعه 39 سمة. يتألف مُصنِّف الشجرة المُدرَّب من 39 قمة ، ويحتوي على ما مجموعه 110 أحرف ، ويبلغ الحد الأقصى للمسار من القمة إلى الورقة 9. فيما يلي رسم تخطيطي لمُصنِّف الشجرة المُدرَّب.



تين. مخطط مصنف الشجرة المدربة



لتقييم جودة كاشفات رمز الاستجابة السريعة التي تم إنشاؤها ، استخدمنا وحدة فك تشفير الباركود من مكتبة OpenCV مفتوحة المصدر لرؤية الكمبيوتر. في مجموعة الاختبار المعدة للصور (والتي ، كما ذكرنا أعلاه ، تتكون من 176 صورة) ، أطلقنا وحدة فك التشفير دون أي معالجة مسبقة خاصة ، وكذلك بعد البحث الأولي عن رموز QR باستخدام أجهزة الكشف المدربة. فيما يلي نتائج فك شفرة الباركود:
لا.عنوان تجريبيعدد الصور التي تم فك ترميزهاجودة فك التشفير
1OpenCV فقط10459.09٪
2VJ (ميزات درجات الرمادي ، مصنف متتالي) + OpenCV10559.66٪
3VJ (ميزات الحافة ، مصنف متتالي) + OpenCV12369.89٪
4VJ (ميزات الحافة ، مصنف شجرة) + OpenCV13677.27٪

يوضح الجدول أن التوطين الأولي لرمز الاستجابة السريعة باستخدام الطريقة الموضحة يمكن أن يحسن بشكل كبير من جودة فك تشفير الباركود (انخفض عدد أخطاء فك التشفير بنسبة 44٪). بالإضافة إلى ذلك ، تظهر النتائج أيضًا أن تطبيق طريقة Viola and Jones الأصلية (مع ميزات Haar الكلاسيكية ومصنف متتالي) غير فعال في مهمة توطين رموز QR.

لنرى الآن مدى دقة كل مصنف في تحديد الباركود. يوضح الشكل من اليسار إلى اليمين نتائج الكشف عن نفس الرمز الشريطي باستخدام المصنف المتتالي الكلاسيكي مع ميزات Haar القياسية ، والمصنف المتتالي الكلاسيكي مع ميزات الحدود ، ومصنف الشجرة مع ميزات الحدود. يمكن ملاحظة أن مصنف الشجرة يوفر أفضل دقة لترجمة الباركود من خلال مراعاة تنوع رموز QR.



تين. رسم توضيحي لعمل كواشف مدربة على نفس الصورة



استنتاج


اليوم ، يتم استخدام رموز QR في مختلف مجالات الحياة: في صناعة الإعلان لترميز عناوين URL ، في قطاع الدولة كجزء من الخدمات الإلكترونية ، إلخ. على الرغم من التوزيع المرتفع للغاية لهذه الرموز الشريطية ، تركز مكتبات المصادر المفتوحة الحالية على عملية فك التشفير ، وليس مشكلة التوطين. ولكن لنكون صادقين ، لم يكن الغرض الحقيقي من هذه المقالة كثيرًا في وصف طريقة فعالة لتوطين رموز QR ، بل في محاولة لإخبارك ، عزيزي القارئ ، كيف ، باستخدام التفكير العلمي وتحليل النظام ، وفهم كيفية استخدام أدوات معالجة الصور الرقمية الكلاسيكية ، يمكنك تحرير المكتبات تصل إلى المستوى الصناعي الفعلي. شكرا للانتباه.

قائمة المصادر المستخدمة
[1] A.A. Kotov, S.A. Usilin, S.A. Gladilin, and D.P. Nikolaev, “Construction of robust features for detection and classification of objects without characteristic brightness contrasts,” Journal of information technologies and computing systems, 1, 53-60, (2014).
[2] A. Minkina, D. Nikolaev, S. Usilin, and V. Kozyrev, “Generalization of the Viola-Jones method as a decision tree of strong classifiers for real-time object recognition in video stream,” in Seventh International Conference on Machine Vision (ICMV 2014), 9445, International Society for Optics and Photonics, (2015), doi:10.1117/12.2180941.
[3] D. P. Matalov, S. A. Usilin, and V. V. Arlazarov, “Modification of the viola-jones approach for the detection of the government seal stamp of the russian federation,” in Eleventh International Conference on Machine Vision (ICMV 2018), 11041, International Society for Optics and Photonics, (2019), doi:10.1117/12.2522793.

All Articles