📐 🅱️ ⏮️ Die Lokalisierung eines QR-Codes ist eine wichtige Aufgabe, die zu Unrecht der Aufmerksamkeit beraubt wird 🔈 💥 📷

Wir sind sicher, dass es heute keinen einzigen Habr-Leser gibt, der mit QR-Codes nicht vertraut wäre. Diese zweidimensionalen Barcodes sind überall. Es ist logisch, dass es weltweit viele Tools gibt, mit denen Sie Ihrem Projekt QR-Codes mit einem gewissen Grad an Effizienz hinzufügen können. Der springende Punkt ist, dass diese erwähnte Effizienz direkt von der Qualität des Werkzeugs abhängt, mit dem QR-Codes erkannt werden. Und hier kommt der klassische Stecker: Sie können das Problem (sehr) gut und (sehr) teuer lösen, oder Sie können es kostenlos und irgendwie. Ist es möglich, das freie so zu modifizieren, dass es das Problem trotzdem gut löst? Bei Interesse unter die Katze schauen.

Das Erkennen eines QR-Codes auf einem Foto ist eine gut gestellte Aufgabe der Bildverarbeitung. Zunächst wird in der Aufgabe ein Objekt untersucht, das ursprünglich speziell für die „bequeme“ Erkennung entwickelt wurde. Zweitens ist die Aufgabe selbst in mehrere unabhängige verständliche Unteraufgaben unterteilt: Lokalisierung des QR-Codes, Ausrichtung des QR-Codes und direkte Dekodierung des QR-Codes. Es stellte sich heraus, dass die Public Domain seit langem gute Bibliotheken hat, die die letzten beiden Probleme lösen können: Orientierung und Dekodierung eines QR-Codes. Ein Problem: Für eine qualitativ hochwertige Decodierung erwarten solche Bibliotheken, dass ein gutes Binärbild direkt vom Barcode eingegeben wird. Umgekehrt wird der Aufgabe der Barcode-Lokalisierung im Bild wenig Aufmerksamkeit geschenkt.

Nach unserer Erfahrung ist es umso einfacher, die richtigen Vorverarbeitungswerkzeuge auszuwählen und tatsächlich zu erkennen, je genauer Sie ein Erkennungsobjekt lokalisieren. Wenn Sie daher die Qualität der Erkennung von QR-Codes in Ihrem Projekt verbessern möchten, beginnen Sie mit der Modernisierung der Methoden zur Lokalisierung von QR-Codes. Selbst wenn Sie später ein Bild binärisieren müssen, ist es viel effizienter (sowohl aus rechnerischer als auch aus qualitativer Sicht), eine Region mit einem Barcode zu binarisieren als das gesamte Originalbild.

In diesem Artikel erfahren Sie, wie Sie die Qualität der Lokalisierung von QR-Codes mithilfe klassischer Bildverarbeitungsmethoden auf einfache Weise verbessern und numerische Merkmale für die Wirksamkeit des vorgeschlagenen Algorithmus bereitstellen können.

Wir werden über die ursprüngliche Art der Lokalisierung von QR-Codes auf Bildern sprechen, wobei die modifizierte Viola- und Jones-Methode als Grundlage dient.

Hinweis zum Thema des Artikels

In diesem Abschnitt beschreiben wir die Hauptmerkmale des QR-Codes, die zum Erstellen der Lokalisierungsmethode verwendet werden, sowie eine kurze Beschreibung der Originalversion der Viola- und Jones-Methode.

QR-Code

Der QR-Code (kurz für Quick Response Code) ist ein zweidimensionaler Barcode, der Mitte der 90er Jahre in Japan für die Automobilindustrie entwickelt wurde. Aufgrund der Fähigkeit zum schnellen Lesen und der größeren Kapazität im Vergleich zu linearen Barcodes ist das QR-Code-System in verschiedenen Lebensbereichen weltweit beliebt geworden.

Im Gegensatz zu linearen Standard-Barcodes, die normalerweise von Hardware gescannt werden, wird ein QR-Code häufig von einer Kamera gescannt. Die Struktur des QR-Codes ist vollständig in ISO / IEC 18004 (ISO / IEC-Norm 18004) beschrieben. Um einen robusten Erkennungsalgorithmus für solche Bilder zu erstellen, verfügt der QR-Code über einige Referenzpunkte, die ein Funktionsmuster bilden: drei Quadrate in den Ecken des Barcode-Bildes (als Finder-Muster bezeichnet) und kleinere Synchronisationsquadrate im gesamten Barcode-Bild (als Ausrichtungsmuster bezeichnet). . Mit solchen Punkten können Sie die Bildgröße und ihre Ausrichtung normalisieren.

Feige. QR-Code-Struktur

Obwohl visuell alle QR-Codes einander ähnlich sind, können unterschiedliche Kopien von QR-Codes abhängig von der Menge der codierten Daten ein unterschiedliches Layout der internen Elemente aufweisen. Darüber hinaus sind die sogenannten Designer-QR-Codes sehr beliebt, bei denen anstelle des Teils zusätzlicher Informationen, die eine qualitativ hochwertige Erkennung des Barcodes gewährleisten, grafische Elemente von Drittanbietern (Logos, Embleme, Inschriften usw.) verwendet werden. Alle diese Merkmale von QR-Codes müssen bei der Erstellung von Methoden zur Lokalisierung und Erkennung von QR-Codes berücksichtigt werden.

Feige. Verschiedene gültige QR-Code-Optionen

Viola und Jones Methode

Nur die Faulen auf Habré haben noch nicht über die Methode von Viola und Jones geschrieben. Sogar wir in unserem Block haben dies mehrmals getan (zum Beispiel hier , hier oder hier ). Und dennoch halten wir es für notwendig, sehr kurz, buchstäblich in zwei Absätzen, zu sagen, was es ist.

Die Objekterkennungsmethode von Viola und Jones wurde entwickelt, um in Echtzeit in einem Bild nach Gesichtern zu suchen. Dieses Verfahren reduziert das Erfassungsproblem auf das binäre Klassifizierungsproblem an jedem Bildpunkt, d. H. Für jeden rechteckigen Bildbereich, der mit allen Arten von Verschiebungen und Skalen aufgenommen wurde, wird die Hypothese des Vorhandenseins des gewünschten Objekts in dem Bereich unter Verwendung eines vorab trainierten Klassifizierers überprüft.

Als Merkmalsraum verwendet die Viola- und Jones-Methode rechteckige Haar-Merkmale, deren Wert als Differenz zwischen den Helligkeitssummen der Pixel der Bildbereiche innerhalb benachbarter Rechtecke berechnet wird. Um den Wert von Haar-Merkmalen effektiv zu berechnen, wird ein integriertes Bild verwendet, das in der Literatur auch unter dem Begriff Summenbereichstabelle bekannt ist. Ein binärer "schwacher" Klassifikator h ( x ): Χ → {-1, + 1}, normalerweise als Erkennungsbaum mit einem Zweig dargestellt:

wobei θ und p- der Schwellenwert des Attributs bzw. die Parität des Klassifikators. Als nächstes wird unter Verwendung der AdaBoost-Methode für maschinelles Lernen ein "starker" Klassifikator als lineare Überlagerung der obigen "schwachen" Klassifikatoren konstruiert. Die hohe Geschwindigkeit der Viola- und Jones-Methode wird durch die Verwendung einer Kaskade von „starken“ Klassifizierern sichergestellt, die es ermöglicht, „leere“ (objektfreie) Bildbereiche in einer kleinen Anzahl von Berechnungen zu lokalisieren.

QR-Code-Erkennungsalgorithmus

Bei der Erstellung einer Methode zum Lokalisieren eines QR-Codes haben wir uns auf die folgenden Funktionen der Aufgabe verlassen. Erstens muss die entwickelte Methode eine hohe Leistung für die Verwendung in Erkennungssystemen aufweisen, die in Echtzeit arbeiten. Zweitens muss das Verfahren gegen zulässige Verzerrungen des Barcodes im Bild beständig sein. Drittens sollte die Methode die gesamte vorhandene Variabilität der QR-Codes berücksichtigen.

Wie oben erwähnt, haben wir die Methode von Viola und Jones als grundlegende Methode gewählt. Diese Methode hat sich bei verschiedenen Aufgaben der Suche nach starren Objekten bewährt, während die Methode die erforderliche Leistung bietet. In der Originalversion kann die Viola- und Jones-Methode jedoch aus folgenden Gründen nicht verwendet werden:

Bei der klassischen Methode von Viola und Jones wird eine Familie von Haar-Attributen verwendet, die die Texturmerkmale des Objekts „hervorheben“. In unserem Fall unterscheidet sich ihre Verteilung vom Barcode zum Barcode stark, obwohl der QR-Code aus schwarzen und weißen Strichcodes besteht.
Die klassische Viola- und Jones-Methode ist für die gleiche Art der Erkennung von Objekten in einer bestimmten Ausrichtung ausgelegt, die auch in unserer Aufgabe nicht beobachtet wird.

Damit die Viola- und Jones-Methode zur Lösung des Problems angewendet werden kann, verwenden wir die ursprüngliche Familie von Grenzmerkmalen und einen übergeordneten Klassifikator in Form eines Entscheidungsbaums. Die erste Modifikation ermöglicht es, sich auf die Grenzmerkmale des untersuchten Objekts und nicht auf die Textur zu konzentrieren. Mit der zweiten Änderung können Sie einen einzelnen Klassifizierer erstellen, der variable Objekte erkennen kann. Als nächstes werden wir Ihnen etwas mehr über jede Änderung erzählen.

Gradientenzeichen von Haar.

Um einen effektiven Detektor für QR-Codes zu erstellen, haben wir eine spezielle Familie von Gradientenmerkmalen verwendet [1]. Diese Zeichen sind Haar-Rechteckzeichen, die über der Karte der gerichteten Grenzen berechnet werden und deren Generalisierungskraft erheblich verbessern können.

Die Karte der Richtungsgrenzen ist ein Bild des Gradientenmoduls, das zusätzlich die Vorzugsrichtung des Gradienten am Punkt ( x , y ) berücksichtigt , definiert als Diskretisierung des Randwinkels in horizontale, vertikale, + 45 ° - und –45 ° -Richtungen. Um einen QR-Code-Detektor zu erstellen, haben wir zwei Arten von Richtungsgrenzkarten verwendet: eine gerade Grenzkarte und eine diagonale Flächenkarte.

Lassen Sie das Originalbild f ( x ,y ). Anschließend können Sie den ungefähren Wert der Ableitung entlang der horizontalen und vertikalen Richtung mit dem Sobel-Operator berechnen :

Zusätzlich können Sie mit g _x und g _y die Richtung des Verlaufs an jedem Punkt des Bildes berechnen: Die

Karte der geraden Ränder enthält hauptsächlich horizontale und vertikale Ränder und wird wie folgt berechnet:

Karte Diagonale Ränder enthalten hauptsächlich Ränder entlang der Diagonalen und werden wie folgt berechnet:

Auf der konstruierten Karte der gerichteten Ränder (diagonal oder gerade) werden rechteckige Haarzeichen berechnet. Im Gegensatz zu den klassischen Haar-Merkmalen verallgemeinern solche Grenzmerkmale Brunnenobjekte, die eine große Anzahl von Grenzen enthalten.

Feige. Darstellung einer Karte gerichteter Ränder: (a) das Originalbild eines QR-Codes, (b) eine Karte gerader Ränder, (c) ein Bild eines gedrehten QR-Codes (d) eine Karte der diagonalen Ränder eines gedrehten QR-Codes

Der entscheidende Baum starker Klassifikatoren

Der Baum der starken Klassifizierer [2] ist eine Art binärer Entscheidungsbaum: Der Baumknoten ist ein starker Klassifizierer, an dessen rechtem Rand sich vermutlich Unterfenster befinden, die das Objekt enthalten, und am linken Rand diejenigen, die nicht als Objekt erkannt wurden. Die endgültige Antwort wird nur in Blättern gegeben. Der klassische Kaskadenklassifikator, der in der Originalarbeit von Viola und Jones beschrieben wurde, ist in der Tat ein Baumklassifikator, der nur eine „positive“ Ausgabe (Blatt) und viele „negative“ Ausgaben enthält.

In [2] wird gezeigt, dass jeder Pfad von der Wurzel zum untersten Knoten des Baumklassifikators als eine Kaskade dargestellt werden kann, in die einzelne starke Klassifikatoren mit einer invertierten Antwort eintreten. Dank dessen ist es möglich, einen Lernalgorithmus für den Baumklassifikator zu konstruieren, der das Trainingsverfahren des klassischen Kaskadenklassifikators verwendet, um einzelne Pfade zu lehren.

Mit dem Baumklassifikator können Sie Klassifikatoren trainieren, die hinsichtlich der Vollständigkeit für variable Objekte im Vergleich zu klassischen Kaskadenklassifikatoren effektiver sind.

Experimentelle Ergebnisse

Im Rahmen eines Experiments zur Bewertung der Wirksamkeit der in diesem Artikel vorgeschlagenen Barcode-Lokalisierungsmethode wurde ein Satz von Barcode-Bildern aus 264 Bildern erstellt. Die physikalische Größe der Bilder betrug etwa 1 MPix. Jedes Bild enthält nur einen QR-Code in beliebiger Ausrichtung, der Barcode-Bereich betrug mindestens 10% des gesamten Bildbereichs. Die folgende Abbildung zeigt Beispiele für Bilder aus dem zusammengesetzten Set.

Feige. Beispiele für Bilder aus dem zusammengestellten Barcode-Bildsatz

Der vorbereitete Satz von Bildern wurde in einen Trainingssatz und einen Testsatz unterteilt. Die Größe der Trainingsprobe betrug 88 Bilder, die Größe der Testprobe betrug 176 Bilder.

Das Trainingsset wurde sowohl zur Vorbereitung positiver als auch zur Vorbereitung negativer Beispiele verwendet. Da die anfängliche Anzahl positiver Beispiele gering war, verwendeten wir die Datenerweiterungstechnologie [3]. Insbesondere haben wir die Drehung um die Mitte des Barcodes in Schritten von 15 ° angewendet. Nach der Augmentation betrug die Anzahl der positiven Beispiele 2088 Beispiele.

Anhand der gleichen positiven und negativen Beispiele haben wir drei QR-Code-Detektoren trainiert: einen klassischen Kaskadenklassifikator mit Standard-Haar-Merkmalen, einen klassischen Kaskadenklassifikator mit Grenzmerkmalen und einen Baumklassifikator mit Grenzmerkmalen. Der erste Kaskadenklassifikator bestand aus 12 Ebenen und enthielt insgesamt 58 Attribute. Der zweite Kaskadenklassifikator bestand aus 8 Ebenen und enthielt insgesamt 39 Attribute. Der trainierte Baumklassifikator bestand aus 39 Eckpunkten, enthielt insgesamt 110 Zeichen und der maximale Pfad von oben zum Blatt betrug 9. Unten sehen Sie ein Diagramm des trainierten Baumklassifikators.

Feige. Schema des trainierten Baumklassifikators

Um die Qualität der konstruierten QR-Code-Detektoren zu beurteilen, verwendeten wir das Barcode-Decodierungsmodul aus der OpenCV-Open-Source-Computer-Vision-Bibliothek. Auf dem vorbereiteten Testsatz von Bildern (der, wie oben erwähnt, aus 176 Bildern bestand) haben wir das Decodierungsmodul ohne spezielle Vorverarbeitung sowie nach einer vorläufigen Suche nach QR-Codes unter Verwendung geschulter Detektoren gestartet. Nachfolgend sind die Ergebnisse der Barcode-Dekodierung aufgeführt:

Nein.	Experimenteller Titel	Anzahl der dekodierten Bilder	Dekodierungsqualität
1	Nur OpenCV	104	59,09%
2	VJ (Graustufenfunktionen, Cascade Classifier) + OpenCV	105	59,66%
3	VJ (Edge Features, Cascade Classifier) + OpenCV	123	69,89%
4	VJ (Edge Features, Tree Classifier) + OpenCV	136	77,27%

Die Tabelle zeigt, dass die vorläufige Lokalisierung des QR-Codes unter Verwendung des beschriebenen Verfahrens die Qualität der Barcode-Decodierung erheblich verbessern kann (die Anzahl der Decodierungsfehler verringerte sich um 44%). Darüber hinaus zeigen die Ergebnisse auch, dass die Anwendung der ursprünglichen Viola- und Jones-Methode (mit klassischen Haar-Merkmalen und einem kaskadierenden Klassifikator) bei der Lokalisierung von QR-Codes nicht effektiv ist.

Nun wollen wir sehen, wie genau jeder Klassifikator den Barcode lokalisiert. Die Abbildung von links nach rechts zeigt die Ergebnisse der Erkennung desselben Barcodes mit einem klassischen Kaskadenklassifikator mit Standard-Haar-Merkmalen, einem klassischen Kaskadenklassifikator mit Grenzmerkmalen und einem Baumklassifikator mit Grenzmerkmalen. Es ist ersichtlich, dass der Baumklassifizierer die beste Genauigkeit der Barcode-Lokalisierung bietet, indem er die Variabilität von QR-Codes berücksichtigt.

Feige. Illustration der Arbeit von geschulten Detektoren auf dem gleichen Bild

Fazit

Heutzutage werden QR-Codes in verschiedenen Lebensbereichen verwendet: in der Werbebranche zum Codieren von URLs, im staatlichen Segment als Teil elektronischer Dienste usw. Trotz der extrem hohen Verbreitung solcher Barcodes konzentrieren sich die vorhandenen Open Source-Bibliotheken auf den Decodierungsprozess und nicht auf das Lokalisierungsproblem. Um ehrlich zu sein, bestand der wahre Zweck dieses Artikels nicht darin, eine effektive Methode zur Lokalisierung von QR-Codes zu beschreiben, sondern vielmehr darin, Ihnen, lieber Leser, zu erklären, wie Sie mithilfe von wissenschaftlichem Denken und Systemanalyse verstehen, wie Sie mit klassischen digitalen Bildverarbeitungswerkzeugen umgehen können Bibliotheken bringen auf das eigentliche industrielle Niveau. Vielen Dank für Ihre Aufmerksamkeit.

Liste der verwendeten Quellen

[1] A.A. Kotov, S.A. Usilin, S.A. Gladilin, and D.P. Nikolaev, “Construction of robust features for detection and classification of objects without characteristic brightness contrasts,” Journal of information technologies and computing systems, 1, 53-60, (2014).
[2] A. Minkina, D. Nikolaev, S. Usilin, and V. Kozyrev, “Generalization of the Viola-Jones method as a decision tree of strong classifiers for real-time object recognition in video stream,” in Seventh International Conference on Machine Vision (ICMV 2014), 9445, International Society for Optics and Photonics, (2015), doi:10.1117/12.2180941.
[3] D. P. Matalov, S. A. Usilin, and V. V. Arlazarov, “Modification of the viola-jones approach for the detection of the government seal stamp of the russian federation,” in Eleventh International Conference on Machine Vision (ICMV 2018), 11041, International Society for Optics and Photonics, (2019), doi:10.1117/12.2522793.

Die Lokalisierung eines QR-Codes ist eine wichtige Aufgabe, die zu Unrecht der Aufmerksamkeit beraubt wird