أتمتة تحديد التعديلات في صورة وثائق العقد باستخدام نموذج N-gram



يعرف كل شخص حديث أنك بحاجة إلى التوقيع على وثيقة في وقت لا يسبق قراءته لها. في بعض الأحيان يفاجأ منتهكي هذه القاعدة البسيطة بعواقب غير متوقعة كان يمكن تجنبها إذا قمت بفحص الوثيقة قبل التوقيع ، بما في ذلك ما هو مكتوب بخط صغير. يتم استخدام الحيل في العقود من قبل مزودي الخدمة كجزء من النكات والأفلام. على سبيل المثال ، في فيلم Blinded by Desiresبطل الرواية أنهى صفقة غير مواتية للغاية مع الشيطان ، على الرغم من الجهل بشروط إنهاء العقد الموصوفة في الفقرة 3 من المادة 3 ، الجزء 3 من العقد. في بعض الأحيان يكون هناك موقف مشابه في الحياة الواقعية مع مزودي الخدمة. على الإنترنت يمكنك العثور على وصف للحالات الغريبة عندما قام عميل البنك بتغيير شروط الاتفاقية لصالحه ، وكانت هذه مفاجأة للبنك. في مقالة اليوم ، سنتحدث عن خوارزمية مفيدة للغاية للبنوك والمؤسسات الائتمانية الأخرى ، والتي تكتشف تلقائيًا التعديلات التي تم إجراؤها على صور مستندات العقد. لذا انظر تحت القطة!

في الوقت الحالي ، تقدم العديد من المؤسسات التي تجذب عددًا كبيرًا من العملاء الجدد ، تنزيل نموذج عقد من موقعها على الويب للتحضير الذاتي. ينقل العقد المطبوع والمكتمل والموقع للتوقيع للطرف الثاني. بالطبع ، يقوم الطرف الثاني بفحص العقود المعدة من قبل العملاء المحتملين ، على سبيل المثال ، فحص المستندات المقدمة يدويًا. يمكن أن يكون عدد هذه المستندات كبيرًا جدًا ، لذلك يشارك العديد من الموظفين اليقظين في فحصها. ومع ذلك ، عند فحص عدة عشرات من المستندات المتطابقة (في المعنى) في اليوم ، حتى الموظف الأنيق يمكنه تخطي الأخطاء. يوضح هذا حالات الاحتيال التي لم يتم اكتشافها أثناء التحقق اليدوي.

سوف نتحدث عن أتمتة عملية التحقق الروتيني للتدفق كبير من مستندات العقد المذكورة أعلاه باستخدام تقنيات التعرف البصرية، التي كانت موضوع محركات المواد الذكية على الهبر أكثر من مرة (على سبيل المثال، مرة واحدة و مرتين ).

تنتمي وثائق العقد إلى فئة مستندات الأعمال التي يتم إنشاؤها للتداول في بعض أنظمة إدارة المكاتب وإدارة المستندات. السمة المميزة لوثائق الأعمال هي الحد من المفردات المستخدمة وطريقة تصميمها. هذا يرجع إلى الرغبة في توحيد أشكال المستندات لتبسيط فهم وثائق الأعمال ، قبل كل شيء ، من قبل شخص.

يتم وصف قالب أو نموذج المستند مقدمًا ويتكون من نص ثابت وحقول لإدخال المعلومات. ضع في الاعتبار فئتين شائعتين من القوالب: قالب ثابت ونموذج مرن. لا يسمح القالب الثابت بتعديل النصوص الثابتة ، على سبيل المثال ، عند استخدام تنسيق PDF. يمكن استخدام القوالب المرنة للسماح بتعديل النصوص الثابتة ، على سبيل المثال ، القوالب بتنسيق Microsoft Office. وبناءً على ذلك ، سوف نميز بين المستندات الثابتة والمرنة.

طرق معروفة لإجراء مقارنة تلقائية لصورة (مسح ضوئي أو صورة) لمستند موقّع مع نموذجها الأولي [1]. يتحققون من التعديلات المحتملة على المحتوى:

  • استبدال حرف أو أكثر في كلمة ؛
  • استبدال كلمة بأخرى ؛
  • أضف حرفًا أو كلمة أو مجموعة كلمات
  • حذف حرف أو كلمة أو مجموعة من الكلمات.

من الممكن أيضًا إجراء تعديلات على تصميم المستند:

  • تغيير نمط الكلمات (الحجم والخطوط والنوع) ؛
  • تغيير حقول وثيقة كلمة ؛
  • تغيير في عدد الفقرات ؛
  • تغيير الحقول.

تعديل القالب الثابت هو تزييف مقصود ، لأنه لا توجد طريقة أخرى لتفسير الرغبة في تغيير النص المحمي. يمكن أن يكون تعديل النموذج المرن إما تزييفًا أو خطأ إملائيًا أو نتيجة تحسين التنسيق.

بعد ذلك ، نصف نماذج وطرق البحث عن الاحتيال في نسخ من وثائق الأعمال المطبوعة باستخدام كل من القوالب الثابتة والمرنة.

أساس مقارنة صورة الاختبار (النسخة) والصورة المرجعية (الأصلية) هي صور الكلمات التي يتم العثور عليها بأي طريقة. يتم تمثيل صورة الكلمة ببعض الوصف (الواصف) ، الواصف الأكثر وضوحًا هو الأحرف المعترف بها للكلمة. كلمةWالمعرفة كنقطة ميزة نصية W=(T(W),B(W))أين - T(W)- جوهر نقطة ميزة النص ، أي سلسلة من أحرف كلمة تتكون من أحرف أبجدية معينة أو سلسلة من الألفة مع تصنيفات مطابقة الألفة مع أحرف الأبجدية ، B(W)- إطار نقطة ميزة النص ، يتكون من إحداثيات الحدود Bx1(W)، By1(W)، Bx2(W)، By2(W)والتي يمكن تطبيعها في نطاق معين ، وكذلك F(W)- علامات نقطة ميزة النص (على سبيل المثال ، سماعة الرأس وتعديل الخط).

تشبه نقطة معلم النص نقطة الميزة "الرسومية" في الصورة ، مما يعني نقطة تلبي عدة شروط:

  • حي يختلف عن النقاط في محيطه ؛
  • مناعة الضوضاء
  • مقاومة بعض التحولات (على سبيل المثال ، للتحويلات أو التحجيم) [2].

خصائص النقاط المفردة هي:

  • repeatability – , ;
  • distinctiveness/informativeness – ;
  • locality – ;
  • quantity – ;
  • accuracy – , , ;
  • efficiency – .

من المفترض أن نقطة معلم النص تختلف عن نقاط معلم النص المجاورة في جوارها. إذا كنا نعني سطرًا بالنص ، فمعظم الكلمات في مستندات الأعمال تختلف عن الجيران في السطر. لن تكون الكلمات المتطابقة المتعددة الموضوعة على نفس السطر نقاطًا نصية مفردة. ومع ذلك ، إذا كنا نعني بالحي المجاور كلمة واحدة أو كلمتين متجاورتين ، فإن كلمتين متطابقتين توضعان على نفس السطر وتتميزان بالكلمات المجاورة ستكون نصًا فرديًا. تتم مقارنة النقاط الفردية باستخدام مقياس التشابه د ، الذي يجب أن يأخذ قيمًا قريبة من الصفر في حالة مقارنة نقطتين تتطابق مع مكان واحد في الصورة ، والقيم الكبيرة عند مقارنة النقاط من أماكن مختلفة في الصورة.تستند مقارنات نقطتين للنص المفرد في هذه الورقة على مسافة LevenshteinρLev[3] وتعديلاته. عتبةd(W) مقارنات الكلمة T(W)بعبارة أخرى يتم حسابها مقدما. إذاρLev(W,Wr)<d(W)ثم الكلمة Wrونقطة ميزة النص Wهي متطابقة ، مختلفة خلاف ذلك.

واصف نقطة المعلم هو معرف يستخدم عند مطابقة نقاط المعالم. من المتوقع أن يكون واصفًا ثابتًا عند مطابقة النقاط المفردة فيما يتعلق بتحويلات الصورة.

تسمى طريقة استخراج النقاط المفردة من الصورة بالكاشف. كاشفنقطة معلم النص هي إجراء التعرف باستخدام بعض OCR الذي يستخرج واصفات نقطة المعلم من صورة المستند. خصائص نقاط الميزة المذكورة أعلاه صالحة لنقاط ميزات النص في حالة قدرة OCR الحديثة على تعويض الأنواع المختلفة من تشوهات الصورة. يتم تحديد تفرد واصفات تفرد النص من خلال بنية المستندات (تقسيم لا لبس فيه للمستند إلى مجموعات - أقسام وفقرات وخطوط) وخصائص اللغة الطبيعية (صدفة نادرة في وثائق كلمتين متجاورتين). تسمح لك العلاقات المختلفة بين النقاط المفردة النصية (العلاقات أعلاه - أدناه ، اليمين - إلى المسافة اليسرى أو الهندسية بين الإطارات) بدمج النقاط في مجموعات باستخدام خوارزميات التجميع.

من الناحية المثالية ، يستخرج OCR جميع النقاط الخاصة بالنص من نسخة الصورة ونموذج المستند دون أخطاء. هذا يسمح لك بتشكيل الأبراج ، وخاصة الخط. تتكون مقارنة النسخة والمرجع من إنشاء مراسلات لا لبس فيها بين كل أو جزء من النص المفرد للنقطة المرجعية ومجموعة من نقاط النص المحددة للنسخة. تسمى عملية إنشاء المراسلات بين النقاط أو مجموعات النقاط التنسيق.

يشمل تنسيق الوثائق الثابتة ما يلي:

  • البحث عن مراسلات أي نقطة في النقطة المرجعية في النسخة ؛
  • البحث عن مراسلات أي نقطة في النسخة عند نقاط المعيار ؛
  • البحث عن مراسلات أي خط ثابت للمعيار في نقاط النسخة ؛
  • البحث عن مراسلات أي خط نسخ ثابت عند نقاط المعيار ؛
  • التحقق من هوية الصور لكل زوج من الصور المنسقة.

أي تضارب وجد هو تعديل محتمل. بالطبع ، قد يكون التناقض الموجود بسبب أخطاء الكاشف (OCR) أو تشوهات صورة المستند. بيان المشكلة هو البحث عن جميع التعديلات في نسخة الوثيقة.

يتضمن تنسيق المستندات المرنة إنشاء مراسلات بين جميع كلمات النص الثابت. ومع ذلك ، على عكس المستندات الثابتة ، لا يُفترض وجود تناظر بين سطور النص الثابت للمستند المرن. في المستندات المرنة ، من الممكن إجراء تغييرات مشروعة لا تغير معنى النص ، مثل تغيير الخط ، وتغيير حدود الأسطر ، وفواصل الأسطر. يمكن أن تؤدي هذه التعديلات إلى فواصل أسطر في صفحة أخرى ، لذلك يجب إجراء مقارنة بين المستندات المرنة متعددة الصفحات لتسلسل الصفحات بالكامل.

في الحالة العامة ، بدون معرفة هيكل الوثيقة ، من الضروري تنسيق جميع كلمات الاختبار والوثائق المرجعية. العيب الأكيد للتنسيق الكامل للكلمات هو أخطاء التعرف الحتمية ، خاصة للصور (انظر مثال لجزء من صورة نصية مع تشوهات في الشكل أدناه) ، مفسرة على أنها تعديلات. سيضطر الشخص المسؤول عن التحقق إلى قضاء وقت إضافي في التحقق من وجود تعديلات خاطئة.



بالتنسيق الكامل لكلمات النسخة والأصل ، بالإضافة إلى أخطاء التعرف الزائفة ، قد تكون هناك اختلافات أخرى غير ذات أهمية. والحقيقة هي أنه من وجهة نظر المستخدم الوظيفي للبرنامج لمقارنة النسخة والأصل ، ليس لكل الكلمات نفس القيمة. في الواقع ، تعتبر مجموعة فرعية من كلمات صفحة من المستند ، والتي تحدد الشروط الأساسية للعقد ، قيمة. من المفترض أن مهمة المحتال هي إجراء مثل هذه التعديلات التي قد تتسبب ، في المحكمة أو في الإجراءات التمهيدية للمحاكمة ، في إلحاق الضرر بالمنظمة التي وقعت العقد مع المحتال. إعطاء تعريف رسمي لهذه الأهميةالكلمات بالكاد ممكنة ، يتم تحديدها من قبل الخبراء. علاوة على ذلك ، تصبح بعض الكلمات مهمة مع الكلمات المجاورة. على سبيل المثال ، يكون الجسيم "لا" مقترنًا بالكلمة المجاورة "ضمانات" مهمًا. تعديل كلمة "العقد" إلى كلمة "غير العقد" غير ذي أهمية ، لأنه في إجراءات المحكمة لا يمكن أن يجلب منافع إلى المحتال.

وبالتالي ، يمكن صياغة أخرى للمشكلة ، باستخدام المعرفة بكل من هيكل الوثيقة ووضع الكلمات الأساسية للتحقق. في هذا البيان ، يتكون نموذج الوثيقة من فقرات وسلاسل نصية. يتم تمثيل كل سطر نصي وكل فقرة بمجموعة من النقاط المفردة النصية التي يكون تسلسلها فريدًا لفقرة أو سطر معين. قد تحتوي الخطوط والفقرات أيضًا على كلمات ليست فريدة ، أي مكررة أو حتى موجودة في مكان قريب. في حالات خاصة ، من الممكن معرفة المسافة بين الكلمات الفريدة ، التي تحددها عدد الأحرف الوسيطة أو المسافة الهندسية بين صور الكلمات.

أثبت استخدام نموذج كلمة N-gram البسيط فعاليته. يستخدم نموذج N-gram في مهام مختلفة ، مثل ضغط النصوص أو ترميزها. في معالجة النصوص المكتوبة بلغة طبيعية ، فإن N-grams مفيد في العثور على الأخطاء وتصحيحها (لقد كتبنا بالفعل عن هذا من قبل ).

للبحث عن الكلمات الرئيسية ، يتم استخدام N-grams من الكلمات في النماذج التالية:

n2(wi)=wi,r1(wi)
n3(wi)=wi,r1(wi),r2(wi)
n2(wi)=l1(wi),wi
n3(wi)=l1(wi),wi,r1(wi)
n4(wi)=l1(wi),wi,r1(wi),r2(wi)
n3(wi)=l2(wi),l1(wi),wi
n4(wi)=l2(wi),l1(wi),wi,r1(wi)
n5(wi)=l2(wi),l1(wi),wi,r1(wi),r2(wi),

أين rk(wi)، lq(wi)كلمة إلى يمين أو يسار الكلمة المركزية wiكما تُعرف المسافات المسموح بها ρBT(wi,r1(wi))، ρBT(r1(wi),r2(wi))، ρBT(l1(wi),wi)، ρBT(l2(wi),l1(wi))بين الكلمات المجاورة. فهرسk في تسمية N-grams nk(wi)استدعاء طول N-gram.

يتكون نموذج الفقرة من تسلسل مرتب من N-grams
n1(w1),n2(w2),,nm(wm)مع مجموعة كلمات محددة مسبقًا ni(wi)، مع مسافات معروفة بين أزواج {nj1(wj1),nj(wj)}. لاحظ أن بعض N-grams فريد في فقرة ، وقد يتكرر بعضها. لضمان التفرد ، يمكن استخدام N-grams بأطوال مختلفة: bigrams و trigrams و tetragrams و pentagrams.

عند بناء نموذج فقرة ، يتم تكوين N-grams لزيادة عدد N-grams الفريد. يضمن استخدام N-grams مقارنةً بالكلمات الرئيسية الفردية تفردًا لمعظم فقرات المستندات التعاقدية ، ويرجع ذلك أساسًا إلى القيد الهام المذكور أعلاه لمجموعة الكلمات في نص ثابت.

من المنطقي إجراء تدريب وتحسين المعلمات على مجموعات البيانات الحقيقية. لاحظ أنه حتى في مجموعات البيانات الحقيقية ، لن نرى تعديلات ممكنة ، أولاً وقبل كل شيء ، بسبب تصنيف هذه البيانات من قبل مالكي مجموعة البيانات. لا بد لي من إجراء تعديلات بيدي.

تأتي خوارزمية البحث في Trigram لاختيار عدة كلمات متتالية. بالطبع ، تحتاج أولاً إلى تشكيل مجموعة من النقاط الفردية للنص. للقيام بذلك ، اتخذنا الخطوات التالية:

  • معالجة الألوان النصفية (مكتبة MinImage) ؛
  • تطبيع الصورة بزاوية باستخدام طرق تعتمد على تحويل Hough السريع [4] (Smart IDReader API) ؛
  • تسليط الضوء على حدود الكلمات باستخدام عمليات "التآكل" و "التوسيع" (مكتبة الصور المصغرة) ؛
  • التعرف على الأحرف داخل حدود الكلمات التي تم العثور عليها (Smart IDReader API).

تم عرض الفقرة كخط طويل واحد.

تم إجراء مقارنة للكلمات المثالية والكلمات المعترف بها في فقرة باستخدام مسافة Levenshtein المعدلة. إن خوارزميات حساب المسافة Levenshtein معروفة جيدًا ، فهي تسمح لك بالعثور ليس فقط على عدد الوصفات التحريرية ، ولكن الوصفات نفسها.

تم استخدام مسافة Levenshtein المعدلة. أولاً ، تم اختيار عتبة فريدة لمقارنة كلمة معينة بكلمات أخرى. لرفض تحديد أزواج من الكلمات من النوع "SEA" = "MOUNTAIN" أو لمعرفات من النوع "IDENTIFICATOR196" ، "IDENTIFIER296" ، "IDENTIFIER199" ، تم تطبيق قاعدة أخرى. بالنسبة لهذه الكلمات ، تم توضيح الأجزاء التي ستبقى دون تغيير. أي أنه في بداية الكلمات "IDENTIFIER ddd" ، تم السماح بعدد كبير من الأخطاء ، ولكن تم حظر التعريف مع التعليمات التحريرية الموجودة في آخر 3 أحرف من الكلمة.

تعديل آخر كان للتعويض عن استبدال OCR لبعض الأحرف بأحرف مماثلة. استبدل الأحرف الأبجدية اللاتينية رسميًاB8، DO، 1Iهي أخطاء ، ومع ذلك ، يمكن أن يؤدي تقليل سعر هذه الاستبدالات إلى تحسين دقة تعريف الكلمات. تم اختيار سعر استبدال حرف للشخصيات بأنماط مماثلة أثناء التدريب.
استنادًا إلى عدة مسافات من المركز والجيران لـ N-gram إلى نظائرها المحددة ، يتم تكوين تقدير ارشادي لربط N-gram ككل.
تم اختيار معلمات النموذج (العتبات ، أطوال N-gram) أثناء التدريب لتقليل عدد أخطاء ربط N-gram وتعظيم عدد N-grams المرتبط بشكل صحيح.

بعد ربط N-grams بكلمات الفقرة ، يمكن إجراء الفحوصات التالية:

  • وجود جميع N-grams المتوقعة ؛
  • وجود جميع N-gram الفريدة في نسخة واحدة ؛
  • تسلسل N-grams ؛
  • المسافة بين N-grams المجاورة.

الفشل في تنفيذ أي من عمليات التحقق يعني إيجاد تعديل للكلمة الرئيسية الهامة.

تم اختبار الطريقة الموضحة على مجموعة بيانات تتكون من 161 صورة لمستند من نوع "الاتفاقية" ممسوحة ضوئيًا بدقة تتراوح من 100 إلى 300 نقطة لكل بوصة. لقد حققنا في نموذج 33 كلمة رئيسية. تم حذف أو تعديل بعض الكلمات الرئيسية في صور مجموعة البيانات. تم إجراء 740 حذفًا وتعديل 140 كلمة. تم استخدام OCR Smart IDReader [5] للتعرف.

تم تقييم جودة الخوارزمية من خلال معايير الدقة (الدقة) والاكتمال (استدعاء) ، لتحديد الأرقام التي تم استخدامها:

  • العثور على كلمات معدلة tp؛
  • الكلمات الصحيحة المصنفة على أنها تعديلات fp؛
  • لم يتم العثور على الكلمات المعدلة fn؛
  • الكلمات الصحيحة تصنف على أنها صحيحة tn.

النتائج معروضة في الجدول. يوضح الجدول الخصائص المحسوبة لعدة عتبات.d(wi) تقييم صحة الكلمة بالمقارنة مع الكلمة المرجعية.

د (ث ط )TPصتنالجبهة الوطنيةالاحكاماعد الاتصال
121641473800.341.00
221690106200.701.00
3 والمزيد21654109800.801.00

لاحظ أنه عندما تم التعرف على OCR Smart IDReader ، تم العثور على جميع الكلمات المعدلة. ترتبط أخطاء Metol بأخطاء التعرف ، ويرجع ذلك في المقام الأول إلى عيوب المسح (وجود مناطق زائدة التعرض).

من السهل تخمين أن الطريقة الموضحة لها قيود مرتبطة بدقة تمييز حدود الكلمات. أدت عيوب المسح المشار إليها إلى عدد صغير من أخطاء البحث حول حدود الكلمات (حوالي 1-1.5٪ لبعض الكلمات الرئيسية). لإزالة هذا القيد ، نقدم طريقة إضافية للبحث عن الكلمات. بالنسبة لبعض N-gram غير المكتشفة ، تم اختيار مجموعة فرعية من كلمات الفقرة المعترف بها حيث كان من المتوقع وجود هذا N-gram. تمت إزالة الفجوات من المجموعة الفرعية المختارة من الكلمات وتم تشكيل سلسلة من الأحرف. كلمات N-gram متسلسلة ، وتشكل سلسلة فرعية للبحث. بعد ذلك ، بحثنا عن سلاسل فرعية ، على سبيل المثال ، باستخدام خوارزمية bitup معدلة باستخدام مسافة Levenshtein المعدلة. يسمح هذا بتقليل عدد الأخطاء في عمليات فحص N-gram المرتبطة بأخطاء في البحث عن حدود الكلمات بمقدار 2-3 مرات.

استنتاج موجز


تحدثنا عن أداة واحدة للبحث عن وثائق العقد المزورة. بالطبع ، لا تحل هذه الأداة المشكلة تمامًا ، ويلزم إجراء فحوصات يدوية للكلمات التي يُفترض أنها معدلة. تسمح لك الطريقة بأتمتة البحث عن التعديلات بشكل موثوق به وتقليل عدد عمليات الفحص اليدوي الروتينية بشكل كبير. كان تعقيد تطوير الطريقة الموصوفة هو صعوبة الحصول على مجموعات بيانات حقيقية مزيفة.

قائمة المراجع
  1. Sidere N. et al. A dataset for forgery detection and spotting in document images // 2017 Seventh International Conference on Emerging Security Technologies (EST). – IEEE, 2017. – P. 26-31.
  2. Bertrand R. et al. A conditional random field model for font forgery detection // 2015 13th International Conference on Document Analysis and Recognition (ICDAR). – IEEE, 2015. – P. 576-580.
  3. . . , // . – , 1965. – . 163. – №. 4. – . 845-848.
  4. Bezmaternykh P. V., Nikolaev D. P. A document skew detection method using fast Hough transform // Twelfth International Conference on Machine Vision (ICMV 2019). – International Society for Optics and Photonics, 2020. – Vol. 11433. – P. 114330J.
  5. Bulatov K. et al. Smart IDReader: Document recognition in video stream // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). – IEEE, 2017. – Vol. 6. – P. 39-44.


All Articles