🙅🏾 ☮️ 👩🏿‍🏫 Wie viele Programmierer und Wörter benötigen Sie, um einen handschriftlichen Pass zu erkennen? 🤞🏾 🕢 😯

Denken Sie, dass handgeschriebene Pässe in unserem Land häufig zu finden sind? Als wir bei Smart Engines mit dem Entwurf eines Passerkennungssystems begannen, schien es ausreichend zu sein, dem System das qualitative Erkennen von maschinengeschriebenen Dokumenten beizubringen. Zu dieser Zeit schien das Vorhandensein handgeschriebener Pässe, die nicht automatisch erkannt werden konnten, kein wichtiges Problem zu sein: Es gab genug ungelöste Probleme ohne sie. Vor einem Jahr wurde die Qualität der Arbeit von Smart IDReader analysiertWir haben festgestellt, dass wir an einem Punkt angelangt sind, an dem handschriftliche Pässe eine erhebliche Fehlerklasse darstellen. Entsprechend dem wissenschaftlichen Ansatz untersuchten sie das Problem und nahmen die Entscheidung auf. Heute wird es eine Geschichte darüber geben, wie wir die Anerkennung eines handschriftlichen Passes der Russischen Föderation vorgenommen haben, um das letzte Problem auf dem Weg zur vollständigen Automatisierung der Eingabe von Passdaten erfolgreich zu lösen.

Die Aufgabe, handgeschriebenen Text allgemein zu erkennen, klingt grundlegend, umfangreich und unlösbar. Daher ist es zunächst wichtig, die Formalisierung der Aufgabe korrekt einzuschränken. Wir werden also den handschriftlichen Text der wichtigsten Kehrtwende des russischen Zivilpasses erkennen. Solche Pässe sind in ordentlicher kalligraphischer Handschrift (zumindest laut Passist) ausgefüllt. Dies erleichtert einerseits die Aufgabe: Wir müssen keine „medizinischen Kritzeleien“ und andere schlecht gelesene Texte erkennen. Auf der anderen Seite müssen wir uns jedoch der Variabilität der kalligraphischen Stile kyrillischer Buchstaben stellen. Nun, das ist eher eine ernsthafte Herausforderung, kein unüberwindbares Problem.

Die Aufgabe der Handschrifterkennung im Pass haben wir in drei Unteraufgaben unterteilt:

Feststellung des Vorhandenseins des Manuskripts im Reisepass.
Segmentierung einer handschriftlichen Zeile in Zeichen.
Zeichenerkennung und Nachbearbeitung.

Weiter im Artikel werden wir Ihnen mehr über die Lösung für jede Unteraufgabe erzählen. Aber zuerst werden wir ein sehr wichtiges Problem diskutieren, das bei der Erkennung immer zuerst auftritt - Datensätze. Ohne Datensätze ist eine normale Erkennung nicht möglich: Selbst wenn Sie neuronale Netze mit synthetisierten Daten trainieren können, benötigen Sie dennoch Daten, die die Genauigkeit des trainierten Systems messen. Wie sich herausstellte, gibt es im Netzwerk keine geeigneten Manuskriptdatensätze. Daher wurde unsere Liste der Unteraufgaben durch einen Nullpunkt ergänzt - "Vorbereiten des Datensatzes". Wir gingen diesen Prozess kreativ an: Wir verteilten Notizbücher „in einem Lineal“ und baten alle unsere Programmierer, sich an die Rolle der Kalligraphiemeister zu gewöhnen - einige vorbereitete Texte mit schöner Handschrift neu zu schreiben. Dies waren Verse von A.S. Puschkin.

Hier warteten wir auf die erste Enttäuschung. Egal wie schwierig es auch klingen mag, es stellte sich heraus, dass unsere Programmierer das Schreiben völlig vergessen haben. Und Sie können nicht sagen, dass sie es nicht versucht haben. Nein, sie haben nur vergessen, wie man Buchstaben von Hand buchstabiert. Hier ist ein Beispiel dafür, was passiert ist:

Stimmen Sie zu, es ist überhaupt nicht das, was benötigt wird. Die Buchstaben tanzen, die Größen werden nicht respektiert ... Ich musste im Internet nach Heften suchen und wie in der ersten Klasse alle im wahrsten Sinne des Wortes schriftlich festhalten! Wir erinnern uns noch mit einem Lächeln an diese Zeit: Das gesamte Team (ausnahmslos von Studenten im dritten Jahr bis zu angesehenen Wissenschaftsärzten) sitzt an einem Schreibtisch und zeigt sorgfältig Briefe an.

Nachdem wir unsere Hand gefüllt hatten, waren wir in zwei Tagen bereit, den Versuch zu wiederholen, „Rohdaten“ für den handschriftlichen Datensatz zu sammeln. Die Buchstaben wurden glatter, die Wörter lesbarer. Und einige haben es sogar geschafft, einige Elemente der Kalligraphie einzuführen. Schauen Sie sich jetzt die neuen Beispiele selbst an:

Aufgrund solcher Leerzeichen mit unterschiedlichen Texten und Handschriften haben wir etwa 1000 Teile gesammelt, sorgfältig digitalisiert und in Linien und Symbole eingefügt. Herzlichen Glückwunsch, der Manuskript-Datensatz ist fertig. Zurück zu den Algorithmen.

Erkennung von Passmanuskripten

Die Manuskripterkennung ist ein wichtiges Element eines industriellen Dokumentenerkennungssystems. Diese Funktionalität gehört zur Kategorie "Verständnis des Dokuments" und ist seitens des Geschäftskunden sehr gefragt. Wir haben ein binäres neuronales Faltungsnetzwerk trainiert, das die Eingabebilder einzelner Textzeilen des Passes analysiert. Jedes der Passfelder wird über dieses Netzwerk auf Manuskripte analysiert. Anschließend wird durch Abwägen der erhaltenen Schätzungen eine allgemeine Entscheidung über das „Manuskript“ des gesamten Passes getroffen.

Handschriftliche Zeilensegmentierung in Zeichen

Die Segmentierung von Handschriften unterscheidet sich grundlegend von der Segmentierung von Typoskripten. Um die erste Ebene des Problems zu verstehen, schreiben Sie einfach das Wort „Chinchilla“ von Hand und sehen Sie sich diese „schlanken Hakenreihen“ an. Für die Segmentierung handschriftlicher Tests haben wir wieder neuronale Netze verwendet. Wir haben ein spezielles neuronales Netzwerk trainiert, das als Antwort eine Schätzung des Vorhandenseins eines „Schnitts“ zwischen Buchstaben an jedem Punkt des Eingabebildes des Textes zurückgibt. Unter Anwendung der Prinzipien der dynamischen Programmierung werden Buchstabenabschnitte konstruiert.

Das Problem, Lücken zwischen Buchstaben zu setzen, ist weit entfernt von allen Schmerzen der Segmentierung. Sie müssen jedes Zeichen vertikal korrekt begrenzen. Und hier ist die Suche nach „Grundlinien“, die häufig beim Erkennen von gedrucktem Text verwendet wird, überhaupt nicht anwendbar - die Höhe handgeschriebener Buchstaben springt in unbegrenzten Grenzen.

Zeichenerkennung und Nachbearbeitung

Das Problem beim Erkennen handgeschriebener Zeichen ist hauptsächlich der gleiche Stil verschiedener Zeichen. Schauen Sie sich das obige Beispiel an: Welcher Nachname steht geschrieben - "Petrov" oder "Netrov"? Wenn eine Person einen handgeschriebenen Text liest, liest sie ihn nie Zeichen für Zeichen, sondern immer im angegebenen Kontext. Das Erkennungssystem sollte sich in diesem Fall genauso verhalten. Ein neuronales Netzwerk, das handgeschriebene Zeichen erkennt, sollte daher gegenüber verschiedenen Buchstaben desselben Typs "tolerant" sein (aus mathematischer Sicht sollte es dieselben Konfidenzwerte für solche Zeichen zurückgeben), und nachfolgende Algorithmen zum Analysieren und Verarbeiten von Erkennungsergebnissen (so) "Postprozessoren" genannt) sollten die Merkmale des erkannten Feldes berücksichtigen.

Was haben wir am Ende erreicht?

So haben wir in einem Jahr gelernt, handgeschriebene Pässe zu erkennen, und dieses grundlegende Problem zurückgelassen, das vor einigen Jahren unlösbar schien! Was kommt als nächstes? Dann arbeiten Sie wie gewohnt an Qualität und neuen Grenzen.

PS Ich habe fast die Antwort auf die im Titel angegebene Frage vergessen. Wir haben also 62 Programmierer im Unternehmen. Wir haben 150 Notizbücher gekauft und 2.000 Rezeptblätter gedruckt.

Wie viele Programmierer und Wörter benötigen Sie, um einen handschriftlichen Pass zu erkennen?

Erkennung von Passmanuskripten

Handschriftliche Zeilensegmentierung in Zeichen

Zeichenerkennung und Nachbearbeitung

Was haben wir am Ende erreicht?

More articles: