كيف تتعلم ABLYY NLP Technologies كيفية مراقبة الأخبار وإدارة المخاطر

تم تجديد مجموعة المهام التي يمكن حلها باستخدام تقنيات ABBYY بفرصة أخرى مثيرة للاهتمام. لقد دربنا محركنا في عمل مكتتب بنك - شخص يراقب الأحداث على الأطراف المقابلة من تيار ضخم من الأخبار ويقيم المخاطر.

الآن ، يتم استخدام هذه الأنظمة القائمة على تقنيات ABBYY بالفعل من قبل العديد من البنوك الروسية الكبيرة. نريد أن نتحدث عن الفروق الدقيقة في تنفيذ هذا الحل - بدلاً من التحديات غير التقليدية وغير المتوقعة التي واجهها أخصائيو الأورام لدينا.

كبح تدفق الأخبار


لتحقيق النجاح ، يحتاج البنك إلى معرفة بالضبط من يتعامل معه والاستجابة بسرعة للتغييرات المهمة في حياة نظرائه. خاصة عندما تكون هذه بنوك أخرى أو عملاء الشركات الكبيرة - شركات تكنولوجيا المعلومات ، والمؤسسات الزراعية وغيرها. لهذا ، فإن معظم البنوك الروسية لديها خبراء خاصين - وكلاء. يحللون المعلومات من مصادر مختلفة ، بما في ذلك التقارير الإخبارية ، لعوامل الخطر للبنك. من الضروري ليس فقط قراءة الأخبار ، ولكن أيضًا لتقييم كيفية تأثيرها على البنك وعملائه.

قد تختلف عوامل الخطر:

  • إفلاس،
  • صراع المساهمين
  • التغييرات في الملكية أو الهيكل الإداري ،
  • حقائق الاحتيال ، والتهديد بفقدان الأعمال من قبل العميل ،
  • معلومات حول المطالبات وعمليات التفتيش غير المجدولة من قبل الهيئات التنظيمية ،
  • وجود مطالبات
  • ,
  • .

إذا حدد المكتتب عامل خطر ، فإن التعاون على المدى الطويل مع هذا الطرف المقابل يمكن أن يؤدي إلى مشاكل للبنك ، حتى المحاكمة. واحتمالية النتيجة السلبية مهمة لمعرفة أسرع وقت ممكن. لماذا ليس بهذه البساطة؟ في الأخبار ، ليس فقط ذكر الأطراف المقابلة مهمًا ، ولكن أيضًا السياق. عليك أن تفهم ما هي علاقة الشخص أو الشركة بالعوامل التي يتصل بها البنك بمصادر المخاطر.

وفي الوقت نفسه ، فإن تدفق الأخبار ، ولا سيما النظر في وسائل الإعلام الفيدرالية ولكن الإقليمية أيضًا ، ضخم ويستمر في النمو. Medialogy وحدها ، خدمة رصد الأخبار ، تجمع المحتوى من 52 ألف مصدر. وفقًا لـ Roskomnadzor ، اعتبارًا من سبتمبر 2019 ، تم تسجيله في سجل وسائل الإعلام الروسيةأكثر من 67 ألف وسائط نشطة. الشخص غير قادر جسديًا على قراءة جميع الأخبار بسرعة ، حتى لو كانت مجرد موضوع يهمه. لذا يتعين على البنوك إما تجديد موارد شركات التأمين باستمرار ، أو البحث عن حل بديل في مجال تكنولوجيا المعلومات.

خيارات الحل


الطريقة الأكثر وضوحًا هي تضييق تدفق الرسائل من خلال الاشتراكات المدفوعة إلى قنوات الأخبار المغلقة حول مواضيع مختلفة. يتم تقديم هذه الأشرطة من قبل إنترفاكس ، برايم ، طومسون رويترز ، بلومبرج ووكالات أنباء أخرى. إن الأخبار فيها منظمة جزئياً بالفعل: هناك علامات بأسماء الشركات والأشخاص الرئيسيين المشاركين في الأخبار. لكن هذا لا يحل المشكلة تمامًا: العمل مع السياق لا يزال يقع على عاتق المؤمنين.


تعمل العديد من أنظمة مراقبة الوسائط الموجودة في الشركات من خلال البحث عن الكلمات الرئيسية في النص. هذا النهج يعطي الكثير من "الضجيج" المعلوماتي ولا يعمل بدون حيل إضافية في شكل مرشحات. اكتمال ودقة السيناريو مع الكلمات الرئيسية يترك الكثير مما هو مرغوب فيه ، لأنه:

  1. قد يتم ذكر الكلمة الأساسية وأشكالها المعرفية في النص ، ولكن ليس ذي صلة. على سبيل المثال ، قد يتم إدراج شركة في مرجع تاريخي لا يرتبط ارتباطًا مباشرًا بالرسالة.
  2. في الأخبار ، من المهم ليس فقط ذكر الأطراف المقابلة ، ولكن أيضًا السياق. عليك أن تفهم ما هي علاقة الشخص أو الشركة بالعوامل التي يتصل بها البنك بمصادر المخاطر. إذا نظرت إلى أمثلة لعوامل الخطر في نصوص الرسائل ، يمكنك معرفة عدد الأخبار التي يحتمل أن تكون مهمة عند البحث عن الكلمات الرئيسية. لذا ، فإن عبارة "صراع المساهمين" لا يتم ذكرها دائمًا في الأخبار. في هذه الأثناء ، إذا نظرت إلى المثال أدناه ، بالنسبة إلى المؤمن عليه ، فإن الصراع أو إمكاناته واضحة:


بالإضافة إلى ذلك ، هناك العديد من الأخبار السلبية الأخرى التي يجب مراعاتها عند تحليل أنشطة الشركة. ومع ذلك ، فإنها لا تندرج في فئة واحدة وتختلف اعتمادًا على تفاصيل عمل العميل:


يمكنك بسرعة فهم وتحليل السياق بطريقة أخرى. إنه الوقت المناسب لاستدعاء تقنيات البرمجة اللغوية العصبية لدينا ، والتي يمكنها تحديد نوع المحتوى تلقائيًا واستخراج كيانات ذات معنى منه.

العينات الأولى


لذا ، قرر أحد أكبر البنوك الروسية تحديد أي من التقنيتين سيتعامل بشكل أفضل مع مهمة العثور على المخاطر. حدد مصنف وثيقة ذكي عوامل الخطر على أساس محتوى الأخبار. الحل القائم على تحليلات النص استخرج البيانات اللازمة من الأخبار. ونتيجة لذلك ، كما اتضح ، فإن أفضل خيار هو تكافل بين حلين: ساعد المصنف على تضييق عدد المستندات التي تأتي من الشريط ، وإزالة المعلومات غير ذات الصلة تمامًا ، ثم تم تضمين تقنيات استخراج البيانات في العمل.

في المرحلة الأولى - إثبات المفهوم (POC) - تم اختبار إمكانية استخدام هذه الأدوات للبحث عن المخاطر. اختار العميل عامل خطر واحد - حالة صراع. كان من المفترض أن تحدد التكنولوجيا الرسائل التي تحدثت عن تضارب بين المساهمين - الأفراد أو الكيانات القانونية ، أو كبار المديرين في البنك أو تضارب البنك مع الوكالات التنظيمية. أنشأ ABBYY Onto-Engineers نموذجًا تجريبيًا لتطوير تم استخدام مجموعة مختارة من 1000 أخبار. استخرجت نص النزاع وتاريخ الخبر وقائمة المشاركين فيه. أثبت النموذج جدوى النهج المقترح: في مرحلة POC ، على عينة المراقبة المقدمة من أحد البنوك (الأخبار التي لم تستخدم في التطوير) ، تم الحصول على النتائج التالية من 50 وثيقة:


يحدد الاكتمال النسبة المئوية للعوامل في العينة التي وجدناها ، والدقة - ما هي النسبة المئوية للعوامل التي حددناها بالفعل. المقياس F هو الوسط التوافقي بين الدقة والاكتمال.

بعد الانتهاء بنجاح من POC ، تم إطلاق تجريبي ، وأظهر نتائج جيدة. فيما يلي نتائج التجربة في أحد مشاريعنا. مقارنةً بالبحث عن الأخبار عن طريق الكلمات الرئيسية ، يمكن لوحدة ABLYY NLP تصفية ثلاث مرات العديد من الرسائل غير ذات الصلة. وهذا يعني أن مدير المخاطر سيحتاج إلى تحليل الأخبار أقل بثلاث مرات.


تحسين النتيجة


في عملية تطوير النماذج ، يسترشد أخصائيو الأورام بنتائج الاختبارات الذاتية المنتظمة ، والتي يتم فيها تسجيل جميع الاختلافات بين الهدف والقيم التي تم الحصول عليها. لإنشاء مثل هذه التقارير ، تم وضع علامة على الأخبار وفقًا للتعليمات المقدمة من العميل. تمت مقارنة الملفات المميزة بتنسيق xml التي تحتوي على القيم المستهدفة بملفات xml التي تم الحصول عليها نتيجة استخدام الإصدار الحالي من ontomodel. توفر نتائج الاختبار التلقائي معلومات موجزة تحتوي على مؤشرات الجودة لتحليل مجموعة الأخبار بالكامل ، بالإضافة إلى معلومات خاصة لكل كائن مستخرج ووثيقة بشكل منفصل. حتى تتمكن من تقييم كيفية زيادة دقة النموذج في الديناميكيات.

هنا مثال لمثل هذا الجدول:
صورة

يمكن أيضًا قياس نتائج النماذج باستخدام مقياس الدقة ، وهو مشتق من الاكتمال والدقة:


متري الدقة يمكن أن يسمى القاعدة. يقيس عدد العناصر المصنفة بشكل صحيح بالنسبة إلى العدد الإجمالي لجميع الكائنات. يحتوي مقياس الدقة على بعض العيوب: فهو ليس مثاليًا للفصول غير المتوازنة ، حيث يمكن أن يكون هناك العديد من الأمثلة لفئة واحدة وعدد قليل من الآخرين.

يتم استخدام هذا المقياس من قبل بنك كبير آخر ، وكذلك عميلنا. كان مقياس الدقة 85٪.

في المستقبل ، قامت البنوك بشكل مستقل بدمج منتجات ABBYY ، التي عمل فيها نموذجنا ، واستخدمتها في دائرتها. تتكامل منتجاتنا مع نظام إدارة المخاطر المصرفية: فهي تقوم بتحويل المستندات لتحليلها وجمع النتائج.

كيف يعمل النظام


من وجهة نظر فنية ، يعمل النظام على هذا النحو: عندما تتم معالجة النص في حل ABBYY ، يتم إجراء التحليل اللغوي متعدد المراحل. في المرحلة المورفولوجية المعجمية ، يتم تحديد أبسط خصائص الكلمات: الجنس ، العدد ، الحالة. ثم ، في مرحلة التحليل ، يتم تحديد مكان الموضوع ، المسند ، كيف ترتبط الكلمات ببعضها البعض. تتيح لك معرفة البنية الانتقال إلى تحديد الدلالات. لكل كلمة ، يتم تحديد معناها. على رأس هذا التحليل اللغوي ، تعمل قواعد استخراج المعلومات التي تم تطويرها من قبل أخصائيي الأورام لدينا. يتضمن ontomodel وصفًا لبنية البيانات التي يتم الحصول عليها من مستندات العملاء ، والقواعد التي تسمح باسترداد بنية البيانات هذه.



من وجهة نظر المستخدم ، يبدو كل شيء بسيطًا قدر الإمكان. في حسابك الشخصي ، هناك روابط لأخبار عن عملاء محددين ، شهدت التكنولوجيا مخاطر. بجانب الرابط يوجد نص عامل الخطر نفسه. لذلك لا يحتاج المستخدم لقراءة الأخبار بأكملها. اختياريًا ، يمكنك تلقي روابط للأخبار عبر البريد تلقائيًا.

بعد التعرف على جزء من النص ، يقرر المكتتب نفسه ما يجب القيام به بعد ذلك مع هذه المعلومات.

صعوبات غير متوقعة


المخاطرة مفهوم مجرد. هذا مجال مهني محدد للغاية ، ومن المهم أن تأخذ في الاعتبار آراء المتخصصين الذين يعملون مع المخاطر كل يوم. يمكن لمستخدمي عملائنا التصويت للأخبار ووضع "أعجبني" شرطيًا: ما إذا كان النظام قد حدد بشكل صحيح وجود المخاطر في الأخبار أم لا.

في عملية تصحيح النظام ، واجهنا حقيقة أن المؤمنين غالبًا ما يفسرون معنى الأخبار ووجود عامل خطر فيها. يريد أحد المستخدمين ظهور نوع معين من الأخبار في خلاصته ، وآخر - يعتبر هذه الرسائل غير مهمة. يتم حل هذه المشكلة على النحو التالي: يجمع البنك من المؤمنين قائمة من الأخبار ، والتي قدم الخبراء تفسيرًا مختلفًا لها ، ويتخذ القرار النهائي بشأن تفسير أخبار معينة: هل هناك عامل خطر فيها أم لا. يتم إجراء تعديلات على نموذج ontomodel اعتمادًا على التعليقات.

ماذا لو كانت الأخبار باللغة الإنجليزية؟


تستخدم العديد من البنوك الروسية مصادر مثل Dow Jones و Bloomberg و Financial Times. اتضح أن إحدى مزايا نهجنا في تطوير النماذج المعتمدة على تقنيات ABLYY NLP هي التكيف السريع للنماذج التي تم تطويرها لتحليل الأخبار باللغة الروسية للعمل مع النصوص الإنجليزية. هذا يتطلب تصحيح النموذج على الأخبار الإنجليزية الأصلية.

قيم النتائج


الآن ، يمكن للمكتتبين متابعة الأخبار في الوقت الحقيقي ، دون الحاجة إلى قراءة جميع 100500 رسالة. من حيث المبدأ ، لست مضطرًا حتى لقراءة الأخبار بأكملها حيث وجد النظام عامل خطر: يتم تمييز الجزء الذي يحتوي على أهم (مقتطف) في البرنامج. في غضون دقيقتين ، يمكنك إنشاء تقرير تلقائيًا لبنك واحد ، وتسليط الضوء على عامل خطر واحد فقط أو عدة عوامل مهمة. مع هذا النهج ، من الصعب تفويت شيء مهم. علاوة على ذلك ، يمكن للمكتتب فتح بطاقة الطرف المقابل واختيار الرسائل التي يعتبرها مهمة. وبناءً عليه ، يمكن مراجعة التصنيف الائتماني للشركة ، أو تغيير سعر الفائدة ، أو قد يكون هناك سبب للاتصال بإدارة الشركة. يتم تمرير هذه الرسائل إلى نظام سير العمل.

يمكنك أن تسأل كم الأخبار التي تعالجها التكنولوجيا. كل هذا يتوقف على تدفق الأخبار: في شهري يناير ومايو ، على سبيل المثال ، هناك عدد أقل من الرسائل. يمكن لمصرف واحد التحقق من ما يصل إلى 2.5 مليون عنصر إخباري شهريًا من خلال نظامنا. ويقتصر هذا الرقم فقط على الترخيص والقدرة الحاسوبية.

بالمناسبة ، تقنيات مماثلةيمكن أن يعمل ليس فقط في البنوك ، ولكن أيضًا في أي شركة تتعقب تدفقًا كبيرًا من الرسائل حول المنافسين والعملاء والشركاء وقراءة مراجعات المستخدمين على الشبكات الاجتماعية. على سبيل المثال ، يمكن لصناديق المغامرات التي تستخدم تقنيات البرمجة اللغوية العصبية أن تتعقب المعلومات حول الشركات الناشئة الواعدة من حيث الاستثمارات المحتملة ، والمؤسسات الحكومية - الأخبار الرئيسية حول ما يحدث في منطقة معينة ، وما هي المشاكل ، ومن المسؤول ، وما إلى ذلك. علاوة على ذلك ، يمكنك تحليل ليس فقط الرسائل في وسائل الإعلام ، ولكن أيضًا المدونات والمراجعات على الشبكات الاجتماعية.



وما المهام التي واجهتها عند التعامل مع مشاريع معالجة المستندات غير المنظمة لكل من البنوك والشركات في الصناعات الأخرى؟

Source: https://habr.com/ru/post/undefined/


All Articles