🐜 🙎🏼 🐗 استخدام خوارزميات ML لتصنيف المستندات متعددة الصفحات: تجربة VTB 🛌🏾 🚴🏿 💵

كجزء من ناقلات الائتمان للكيانات القانونية ، تطلب البنوك أصول المستندات المختلفة من الشركات. غالبًا ما تأتي عمليات المسح لهذه المستندات في شكل ملف متعدد الصفحات واحد - "دفق". لسهولة الاستخدام ، يجب تقسيم التدفقات إلى مستندات منفصلة (صفحة واحدة أو صفحات متعددة) وتصنيفها. تحت الخفض ، نتحدث عن تطبيق خوارزميات التعلم الآلي في تصنيف المستندات المقسمة بالفعل.

يتم تحديد نوع المستند من خلال معلومات نصية ومرئية. على سبيل المثال ، يسهل تمييز جواز السفر أو كتاب العمل بصريًا دون تحليل النص الموجود بداخله. علاوة على ذلك ، فإن جودة التعرف على النص في هذه المستندات منخفضة نوعًا ما إذا تم استخدام حلول غير متخصصة. لذلك ، يحمل المكون البصري معلومات أكثر صلة بالتصنيف. قد تكون اتفاقية الإيجار وميثاق الشركة متشابهة بصريًا ، ومع ذلك ، فإن المعلومات النصية التي تحتوي عليها تختلف اختلافًا كبيرًا. ونتيجة لذلك ، يتم تقليل مهمة تصنيف المستندات إلى نموذج دمج البيانات ، والذي يجب أن يجمع بين مصدرين للبيانات غير المهيكلة: تمثيل مرئي للمستند ونتائج التعرف على معلومات النص.

لاحظ أنه في الأعمال المصرفية ، يتم استخدام تصنيف المستندات أيضًا في ناقلات الأفراد في عمليات المسح أو صور المستندات ، لفرز الأموال المتراكمة من المستندات ، لتصفية مراجعات العملاء من أجل تحسين جودة الخدمة ، لفرز مستندات الدفع ، لتصفية إضافية لتدفقات الأخبار ، إلخ. .

نموذج بيرت

لحل مشكلتنا ، استخدمنا نموذج BERT (تمثيلات التشفير ثنائية الاتجاه من محول) - نموذج لغة يعتمد على محول ترميز ثنائي الاتجاه متعدد الطبقات . يتلقى المحول سلسلة من الرموز المميزة (رموز الكلمات أو أجزاء من الكلمات) كمدخل ، وبعد التحويلات الداخلية ، ينتج تمثيلًا مشفرًا لهذا التسلسل - مجموعة من التضمينات. علاوة على ذلك ، يمكن استخدام هذه التضمينات لحل مشاكل مختلفة.

هندسة نموذج المحولات

إذا كان بمزيد من التفصيل ، يتم تغذية سلسلة من الرموز المميزة للمدخلات ، ويتم تلخيصها برموز مواضع هذه الرموز المميزة ورموز الأجزاء (العروض) التي توجد فيها الرموز المميزة. لكل تسلسل إدخال ، يولد المحول تمثيلًا حساسًا للسياق (مجموعة من التضمينات للتسلسل بأكمله) استنادًا إلى الآلية التكيفية لـ "الانتباه". كل ناتج من تضمين ترميز "انتباه" بعض الرموز المميزة بالنسبة إلى الآخرين.

نقوم بتشفير الكلمة ، جزء من آلية "الانتباه" التي تركز على الحيوان وجزء ثابت من تمثيلها في ترميزها (من مدونة The Transated Transfomer )

تم بناء نموذج BERT في خطوتين: التدريب المسبق وضبط الملف. أثناء التدريب المسبق ، يحل النموذج مشكلتين: MLM (نموذج لغة مقنع) و NSP (توقع الجملة التالية). في مهمة الامتيازات ، يتم تصنيف نسبة معينة من الرموز المميزة في تسلسل الإدخال بشكل عشوائي (مقنع) ، وتتمثل المهمة في استعادة قيم الرموز المميزة التي تم إخفاؤها. مهمة NSP هي تصنيف ثنائي على أزواج الجمل عندما يكون من الضروري التنبؤ بما إذا كانت الجملة الثانية هي استمرار منطقي للأول. أثناء الضبط ، تتراجع المحولات المدربة مسبقًا على هذه المهام المحددة. وقد ثبت ضبط مقرها محول نفسها في العديد من البرمجة اللغوية العصبية ( معالجة اللغات الطبيعية ) المهام : السير دردشة تلقائية والمترجمين وتحليل النص، وغيرها محول

الدوائرلمترجم تلقائي من الفرنسية إلى الإنجليزية (من مدونة The Illustrated Transfomer )

قبل ظهور نموذج BERT ، تم استخدام طرق المسح الضوئي للصفحات: إشارات تلافيفية من الصور (تم الحصول عليها باستخدام الشبكات العصبية التلافيفية CNN ) ، سمات نص التردد ( TF-IDF ) وعلامات النص المواضيعي ( موضوعات LDA ) وعلامات النص التلافيفي (الالتفاف 1-D) وتضمين الكلمات ( WordToVec و GloVe ) ومجموعاتها.

الطرق التي تم تطويرها مسبقًا تعطي جودة جيدة. ولكن كلما اقتربت الجودة من الحد الأقصى ، زادت صعوبة تحسينها. كما سنوضح لاحقًا ، عندما كانت لدينا بالفعل جودة قريبة من الحد الأقصى ، ساعد استخدام نموذج BERT على جعله أعلى.

نظرًا لأننا نعمل بشكل أساسي مع النصوص الروسية ، فقد استخدمنا نموذج BERT ، الذي تم تدريبه مسبقًا على بعض حالات النصوص الروسية ( RuBERT ، الروسية ، المرفقة من DeepPavlov).

مجموعة البيانات الخاصة بنا

وصف

يتكون اختيار المستندات التي قمنا بحل مشكلة التصنيف من مسح مستندات الشركات للشركات التي جمعها بنك VTB على مدار سنوات عديدة. تم تقسيم مستندات الشركات متعددة الصفحات بشكل شبه تلقائي من التدفق الممسوح ضوئيًا ، وتم تصنيف صفحاتها حسب الحلول المدفوعة.

معظم عمليات المسح هي بالأبيض والأسود ، ونسبة صغيرة من الألوان (ويرجع ذلك أساسًا إلى المطبوعات الملونة).

حدد عملاء وحدات الأعمال 10 فئات رئيسية من المستندات (حوالي 30،000 مستند متعدد الصفحات مقسم بالفعل ، ~ 129،000 صفحة). يجب تنظيف المستندات يدويًا بسبب الأخطاء أثناء التجزئة. كما تم إدخال فئة "أخرى" ، حيث تم دمج جميع الفئات الأخرى للوثائق الأقل أهمية (حوالي 300 فئة ، ~ 43000 وثيقة متعددة الصفحات مقسمة بالفعل ، ~ 128000 صفحة). نتيجة لذلك ، سنقوم ببناء مصنف مع 11 فئة. أضفنا أيضًا حوالي 18000 صورة من مجموعة بيانات ImageNet إلى فئة "أخرى" ("للحماية من الأحمق").

الفئات العشر الرئيسية هي:

عقد الإيجار
مقتطف من سجل المشاركين
ميثاق الشركة
شهادة التسجيل لدى مصلحة الضرائب
استبيان للكيانات القانونية
جواز سفر روسي
ورقة التأسيس
شهادة تسجيل الدولة للكيان القانوني
أوامر / أوامر
القرارات / البروتوكولات

تم تضمين العديد من بطاقات الهوية الأخرى (جوازات السفر الأجنبية ، وبطاقات الهجرة ، وما إلى ذلك) ، وشهادات أخرى ، واستبيانات IP ، والبيانات ، والأفعال ، والتوكيلات ، والاستبيانات ، وقرارات هيئة التحكيم ، والصور من ImageNet ، وغيرها في الفئة الأخرى.
تم أخذ القطار حوالي 81٪ من المستندات متعددة الصفحات المقسمة بالفعل (من إجمالي عدد هذه الوثائق) ، dev - 9٪ ، اختبار - 10٪. من أجل نقاء التجربة ، تم تقسيم التحديد بحيث تقع صفحات أي مستند متعدد الصفحات المقسم بالكامل في جزء واحد: إما تدريب ، أو تطوير ، أو اختبار.

صفحات مخيط مصدق

في كثير من الأحيان ، لا يقدم عملاء الشركات نسخًا أصلية ، ولكن نسخًا من المستندات ، والعديد منها مصدق عليها من قبل كاتب العدل أو من قبل المسؤولين التنفيذيين في الشركة. بالإضافة إلى ذلك ، غالبًا ما يتم تدبيس المستندات متعددة الصفحات ، وتصف تاريخ البرنامج الثابت ، ومصدقة مرة أخرى في الصفحة الأخيرة.

لذلك ، توجد في مجموعة البيانات لدينا العديد من هذه المستندات متعددة الصفحات ، حيث توجد في الأختام الأخيرة (الصفحة) أختام وتواريخ ومعلومات أخرى تتعلق بالبرامج الثابتة أو تفاصيل الشهود ، ولكنها لا تتعلق بفئة المستند. فيما يلي الصفحات الأخيرة لوثيقتين مختلفتين مختلفتين مقسمتين من الدفق ، ويكاد يكون من المستحيل تصنيفهما بشكل صحيح إذا لم تنظر إلى باقي الصفحات.

الصفحات الأخيرة متطابقة من وثائق من فئات مختلفة

جودة المسح

على الرغم من أن مسح المستندات يتم عادةً في المكاتب المصرفية (باستخدام معدات نسخ جيدة) ، إلا أن العملاء غالبًا ما يجلبون نسخًا ممسوحة ضوئيًا من المستندات. وتعاني جودة هذه النسخ إلى حد كبير: في عمليات المسح ، هناك الكثير من الضوضاء والتحف التي يمكن أن تظهر من جودة أحبار ضعيفة ، من الصور المجسمة والقوام في العديد من المستندات ولأسباب أخرى.

اتجاه

هناك الكثير من المستندات في مجموعة البيانات ذات الاتجاه الخاطئ للمسح الضوئي ، وهذا ينطبق بشكل خاص على بطاقات الهوية والمستندات النصية التي تم إنشاؤها في الوضع الأفقي. ولكن بشكل أساسي ، يتم تدوير النص بمضاعفات 90 درجة (± 5 درجات). عند استخراج النص ، حددنا أيضًا الاتجاه "الصحيح" للصورة بحيث يتم توجيه معظم النص عموديًا.

حدود

نظرًا لأن معظم المستندات تبدأ في المسح الضوئي من الصفحة الأولى ، فعادة ما تكون هناك معلومات كافية عنها لتحديد الفصل ، وتختلف العديد من المستندات متعددة الصفحات بشكل جيد في الصفحة الأولى.

لذلك ، سنقوم ببناء المصنف الأساسي للمستندات متعددة الصفحات فقط على صفحاتهم الأولى.

لاحظ أنه على الرغم من أننا لا نعتبر مشكلة تقسيم الدفق متعدد الصفحات (PSS - تقسيم دفق الصفحة) في هذه المقالة ، ولكن إذا أضفنا إلى تدريب المصنف الصفحات المتبقية من المستندات ، وليس الأول فقط ، فيمكننا بسهولة الحصول على حل لمشكلة تقسيم PSS مع التصنيف الثنائي : بالنسبة للصفحات من الدفق ، يتم توقع فصلين بدورهما: "مستند جديد" أو "نفس المستند".

المعالجة المسبقة

نظرًا لأن العديد من الصور الممسوحة ضوئيًا كبيرة ، وهذا يؤثر على سرعة المعالجة ، فإننا نقوم في البداية بضغط جميع عمليات المسح حتى لا يزيد حجم الصورة (العرض والارتفاع) عن 2000 بكسل.

لاستخراج نص من الصور ، استخدمنا حزمة Tesseract 4.0 المجانية من Google. يعمل الإصدار 4.0 (وأعلى) من هذه الحزمة بشكل جيد مع الضوضاء (بخلاف الإصدارات السابقة) ، لذلك لم نزيل الضوضاء من النصوص ، ولكننا حددنا الاتجاه "الصحيح" قبل استخراج النص من صورة المسح ، والذي استخدمنا فيه أيضًا وظائف خاصة في Tesseract 4.0.

مصنف تلافيفي في الصور

من كل وثيقة ، حصلنا على علامات تلافيفية باستخدام شبكة عصبية تلافيفية مدربة مسبقًا ( ResNet34 ). لهذا ، تم أخذ مخرجات الطبقة التلافيفية الأخيرة - ناقل 512 علامات تلافيفية. قبل الجري عبر شبكة عصبية ، خضعت صور المسح من القطار لبعض التعزيز لمقاومة إعادة التدريب.

كنموذج للمصنف على العلامات التلافيفية ، تم محاولة الانحدار اللوجستي والتعزيزات مع اختيار المعلمات على dev.

كانت جودة أفضل نموذج مصنف تلافيفي في الاختبار حوالي 76.1٪ (الدقة) في الانحدار اللوجستي.

سمحت لنا هذه الطريقة بتصنيف عمليات المسح التي تبدو مختلفة تمامًا عن بعضها البعض. ولكن لتشغيل الصور من خلال الشبكة العصبية ، تم ضغطها إلى حجم إدخال الشبكة العصبية (ResNet34 بحجم 224 × 224 بكسل عند الإدخال) ، وبالتالي فإن جودة التصنيف منخفضة: تصبح الطباعة الدقيقة للوثائق غير قابلة للقراءة ، ويمكن للمصنف "الإمساك" ببعض العلامات التلافيفية فقط ، تم الحصول عليها من خط كبير ، بعض الكائنات على الصفحة بترتيب خاص ، وما إلى ذلك ، ولكن هذا المصنف لا يأخذ في الاعتبار جوهر النص.

يختلف مسح الصفحة الأولى من عقد الإيجار والصفحة الأولى من ميثاق الشركة بشكل جيد

ولكننا نحل مشكلة تصنيف مستندات الشركة ، حيث تحتوي أنواع كثيرة من المستندات على معلومات نصية في الغالب ويصعب تمييزها بصريًا - من الصعب "الالتقاط" بصريًا فقط على "النقاط المطولة" من السطور ذات رؤوس المستندات المتطابقة:

نسخ مخفضة من عمليات مسح الشهادات من فئتين مختلفتين بصريًا لا يمكن تمييزه تقريبًا

نحن نفترض أن سمات النص ستحسن الجودة ، وبالتالي تضيف سمات النص ، أو بالأحرى ، إنشاء مصنف نص لنموذج الخط الأساسي.

مصنف النص

بالنسبة لنموذج خط الأساس ، سنقوم ببناء مصنف نص فقط على لافتات TF-IDF (تكرار المصطلح - تردد المستند المعكوس) على النصوص المستخرجة من عمليات المسح. قبل تجميع المصفوفة الحرارية TF-IDF ، تم تقليل النصوص إلى أحرف صغيرة ؛ علامات الترقيم ، تم حذف كلمات التوقف من النصوص ؛ تم فحص الكلمات للتهجئة وتم اختزالها إلى الشكل الأولي عن طريق lemmatization (حزمة Pymystem3).

كنموذج مصنف ، حاولنا مرة أخرى الانحدار والتعزيزات اللوجستية ، تم اختيار المعلمات على dev. نظرًا لأن المصفوفات الحرارية كبيرة الحجم ومتفرقة للغاية ، أظهر الانحدار اللوجستي جودة جيدة ، وكانت الجودة 85.4٪ (الدقة) لكل اختبار.

مجموعة المصنفات

للحصول على المجموعة ، أخذنا مزيجًا من المصنفات التلافيفية والنصية مع الأوزان المحددة في عينة مطور البرامج. أي أنه لكل مسح S نأخذ بالوزن α مجموعة الاحتمال Y _CNN (11 رقمًا حسب عدد الفئات) ، الصادرة عن المصنف التلافيفي ، نأخذ أيضًا مجموعة الاحتمالات المكونة من 11 رقمًا Y _TF-IDF ، الصادرة عن مصنف النص ، مع الوزن 1 - α ، و لخص هذه المجموعات المرجحة للحصول على خرج المصنف الأساسي المختلط:

Y _{CNN + TF-IDF} (S) = α Y _CNN + (1 - α) Y _TF-IDF

ونتيجة لذلك ، حصلنا على جودة المصنف المختلط 90.2٪ (الدقة) في الاختبار.
نتائج المصنف: تلافيفي (Y _CNN ) ، نص يعتمد على tf-idf (Y_TF-IDF ) ومجموعتهم (Y _{CNN + TF-IDF} ):

Y _CNN - 76.1٪
Y _tf-idf - 85.4٪
Y _{CNN + TF-IDF} - 90.2٪

تصنيف من خطوتين

عند تحليل نتائج مجموعة المصنفات ، اتضح أنه غالبًا ما يرتكب أخطاء في عمليات المسح من فئة "جواز السفر (RF)" ، وتصنيف جوازات السفر على أنها "أخرى" ، لأن هذه الفئة تحتوي على الكثير من بطاقات الهوية. علاوة على ذلك ، فإن عمليات المسح الخاصة بهم ، بالإضافة إلى عمليات فحص جوازات السفر ، غالبًا ما تكون ذات نوعية رديئة ، مما يتعارض مع التصنيف النوعي.
لذلك ، قررنا إجراء التصنيف في خطوتين.

الخطوة 1

لقد نقلنا إلى فئة "جواز سفر الاتحاد الروسي" جميع بطاقات الهوية من فئة "أخرى" وفقًا للانقسام الأولي في القطار ، التطوير والاختبار.

الفئات العشر الرئيسية:

عقد الإيجار
مقتطف من سجل المشاركين
ميثاق الشركة
شهادة التسجيل لدى مصلحة الضرائب
استبيان للكيانات القانونية
جواز سفر الاتحاد الروسي + العديد من بطاقات الهوية (جوازات السفر الأجنبية ، بطاقات الهجرة ، إلخ.)
ورقة التأسيس
شهادة تسجيل الدولة للكيان القانوني
أوامر / أوامر
القرارات / البروتوكولات

فئة "أخرى":

أدلة أخرى
استبيانات IP
صياغات
أعمال
تفويض
الاستبيانات
قرارات محكمة التحكيم ، إلخ.

قمنا بتدريب مجموعة من المصنفات على مثل هذه العينة المعدلة.

الخطوة 2

كخطوة ثانية ، أجرينا تصنيفًا ثنائيًا ضمن الفئة 6 تم الحصول عليه في الخطوة الأولى: "جواز سفر الاتحاد الروسي" (الفئة 1) مقابل "بطاقات الهوية المختلفة" (الفئة 0). للقيام بذلك ، عن طريق القياس ، قمنا بتدريب المصنفات التلافيفية والنصية (في كلا النموذجين كان هناك انحدار لوجستي) ووزن مخرجاتهم ، بعد استلام المجموعة.

وتبين أن جودة التصنيف الإجمالية بخطوتين بلغت 95.7٪ (الدقة) لكل اختبار. في هذه الحالة ، تلبي الجودة متطلبات عملائنا من رجال الأعمال (الحد الأدنى - 95٪).

علامات BERT

قمنا ببناء تصنيف من خطوتين ، على غرار ما فعلناه أعلاه ، ولكن في كل خطوة ، بدلاً من ميزات TF-IDF ، استخدمنا تضمين النص للصفحات التي تم الحصول عليها من نموذج RuBERT. لكل صفحة ، تم ترميز النص ، وتم توفير سلسلة من 256 رمزًا مميزًا لإدخال نموذج RuBERT (مع حشو الوسادة حتى 512 ، أي إلى حجم إدخال النموذج).

لزيادة الكفاءة ، قبل تلقي تضمين النص ، قمنا بتدريب نموذج نموذج اللغة المقنع (MLM) مسبقًا على النصوص من مجموعة البيانات الخاصة بنا ، على غرار الطريقة التي قام بها مؤلفو نموذج BERT: عندما قمنا بتغذية سلسلة من الرموز المميزة لإدخال نموذج RuBERT ، قمنا باستبدال جزء معين برمز [MASK] تم أخذ الرموز. من أجل نقاء التجربة ، تم التدريب المسبق فقط على النصوص من القطار. تم أخذ تسلسل الرمز المميز في جميع صفحات المستندات المقسمة ، وليس في الصفحة الأولى فقط. تم اختيار بداية التسلسل بشكل عشوائي من النص المميز.
في مرحلة التضمين ، تم أخذ متوسط المتجه للمخرجات الناتجة من نموذج RuBERT كنص لتضمين الصفحة.

أعطى التدريب المسبق تحسنًا في التصنيف المكون من خطوتين: عند استخدام التضمين النصي الذي تم الحصول عليه من نموذج RuBERT ، زادت الجودة إلى 96.3٪ (الدقة) عن طريق الاختبار. لاحظ حقيقة أنه كلما كانت الدقة أقرب إلى 100٪ ، كلما كان من الصعب تحسينها. لذلك ، يمكن اعتبار الزيادة الناتجة بنسبة 0.6٪ كبيرة.

لم ينتج عن زيادة طول تتابعات رمز الإدخال إلى 512 (حتى حجم إدخال نموذج BERT) زيادة ملحوظة.

ما حصلنا عليه

المخطط النهائي للنموذج:

جودة جميع النماذج المختبرة:

Y _CNN - 76.1٪ ،
Y _TF-IDF - 85.4٪ ،
Y _{CNN + TF-IDF} - 90.2٪ ،
Y _{CNN + TF-IDF + خطوتين} - 95.7٪ ،
Y _{CNN + RuBERT + 2 خطوات} - 96.3٪ ،

حيث Y _CNN هو مصنف تلافيفي ، Y _TF-IDF هو مصنف نصي على سمات TF-IDF.

Y _{CNN + TF-IDF} - مجموعة المصنفات (Y _{CNN + TF-IDF} (S) = α Y _CNN + (1 - α) Y _TF-IDF، α = 0.45).

Y _{CNN + TF-IDF +} 2 خطوات - تصنيف من خطوتين: 1) يتم طرح بطاقات الهوية في فئة "جوازات السفر للاتحاد الروسي + بطاقات الهوية" ، ويتم إنشاء مجموعة من المصنّفين على العينة الناتجة مع 11 فئة ؛ 2) في فئة "جوازات السفر للاتحاد الروسي + بطاقات الهوية" ، يتم إنشاء مجموعة من المصنفات مع فئتين: الفئة 1 - جواز سفر الاتحاد الروسي ، الفئة 0 - بطاقات الهوية.

Y _{CNN + RuBERT + 2 خطوات}- تصنيف من خطوتين ؛ بدلاً من لافتات TF-IDF ، يتم أخذ التضمين النصي لنموذج RuBERT الذي تم تدريبه مسبقًا على مجموعة البيانات الخاصة بنا.

استخدام خوارزميات ML لتصنيف المستندات متعددة الصفحات: تجربة VTB