Bagaimana ABLYY NLP Technologies Belajar Memantau Berita dan Mengelola Risiko

Berbagai tugas yang dapat diselesaikan dengan menggunakan teknologi ABBYY telah diisi ulang dengan peluang menarik lainnya. Kami melatih mesin kami dalam pekerjaan penjamin emisi bank - seseorang yang menangkap peristiwa di pihak lawan dari arus berita besar dan menilai risiko.

Sekarang, sistem semacam itu yang didasarkan pada teknologi ABBYY sudah digunakan oleh beberapa bank besar Rusia. Kami ingin berbicara tentang nuansa penerapan solusi ini - tantangan yang agak tidak trivial dan tak terduga yang dihadapi para ahli ontologi kami.

Kendalikan arus berita


Agar berhasil, bank perlu tahu persis dengan siapa ia berhadapan dan merespons dengan cepat terhadap perubahan penting dalam kehidupan para mitranya. Terutama ketika ini adalah bank lain atau klien perusahaan besar - perusahaan IT, perusahaan pertanian dan lainnya. Untuk ini, sebagian besar bank Rusia memiliki ahli khusus - penjamin emisi. Mereka menganalisis informasi dari berbagai sumber, termasuk laporan berita, untuk faktor risiko bagi bank. Penting tidak hanya untuk membaca berita, tetapi juga untuk mengevaluasi bagaimana itu akan mempengaruhi bank dan pelanggannya.

Faktor risiko dapat bervariasi:

  • kebangkrutan,
  • konflik pemegang saham
  • Perubahan dalam kepemilikan atau struktur manajemen,
  • fakta penipuan, ancaman kehilangan bisnis oleh klien,
  • informasi tentang klaim dan inspeksi tidak terjadwal oleh badan pengatur,
  • adanya klaim
  • ,
  • .

Jika penjamin emisi mengidentifikasi faktor risiko, maka dalam kerja sama jangka panjang dengan pihak rekanan dapat membawa masalah ke bank, hingga persidangan. Dan probabilitas hasil negatif penting untuk diketahui secepat mungkin. Mengapa tidak sesederhana itu? Dalam berita, tidak hanya penyebutan rekanan adalah penting, tetapi juga konteksnya. Anda perlu memahami apa hubungan seseorang atau perusahaan dengan faktor-faktor yang terkait dengan sumber risiko bank.

Sementara itu, aliran berita, terutama mengingat tidak hanya media federal tetapi juga regional, sangat besar dan terus tumbuh. Medialogy sendiri, layanan pemantauan berita, mengumpulkan konten dari 52 ribu sumber. Menurut Roskomnadzor, pada September 2019, itu terdaftar dalam daftar media Rusialebih dari 67 ribu media aktif. Seseorang secara fisik tidak dapat dengan cepat membaca semua berita, bahkan jika itu hanya topik yang menarik baginya. Jadi bank harus terus mengisi staf penjamin emisi, atau mencari solusi alternatif di bidang teknologi informasi.

Opsi solusi


Cara yang paling jelas adalah mempersempit aliran pesan melalui langganan berbayar ke feed berita tertutup pada berbagai topik. Kaset semacam itu ditawarkan oleh Interfax, Prime, Thomson Reuters, Bloomberg dan kantor berita lainnya. Berita di dalamnya sudah sebagian terstruktur: ada tag dengan nama perusahaan, orang-orang kunci yang terlibat dalam berita. Tapi ini tidak menyelesaikan masalah sepenuhnya: bekerja dengan konteks masih ada pada penjamin emisi.


Banyak sistem pemantauan media yang ada di perusahaan bekerja dengan mencari kata kunci dalam teks. Pendekatan ini memberikan banyak "kebisingan" informasi dan tidak bekerja tanpa trik tambahan dalam bentuk filter. Kelengkapan dan akurasi dalam skenario dengan kata kunci menyisakan banyak yang diinginkan, karena:

  1. Kata kunci dan variasi serumpunnya dapat disebutkan dalam teks, tetapi tidak relevan. Misalnya, perusahaan dapat dicantumkan dalam referensi historis yang tidak terkait langsung dengan pesan tersebut.
  2. Dalam berita, penting untuk tidak hanya menyebutkan rekanan, tetapi juga konteksnya. Anda perlu memahami apa hubungan seseorang atau perusahaan dengan faktor-faktor yang terkait dengan sumber risiko bank. Jika Anda melihat contoh faktor risiko dalam teks pesan, Anda dapat melihat berapa banyak berita penting yang berpotensi terlewatkan saat mencari berdasarkan kata kunci. Jadi, frasa "konflik pemegang saham" tidak selalu disebutkan dalam berita. Sementara itu, jika Anda melihat contoh di bawah ini, untuk penjamin emisi konflik atau potensinya jelas:


Selain itu, ada banyak berita negatif lain yang harus dipertimbangkan ketika menganalisis aktivitas perusahaan. Namun, mereka tidak termasuk dalam satu kategori dan berbeda tergantung pada spesifikasi bisnis klien:


Anda dapat dengan cepat memahami dan menganalisis konteks dengan cara lain. Ini saat yang tepat untuk mengingat teknologi NLP kami, yang secara otomatis dapat menentukan jenis konten dan mengekstraksi entitas yang bermakna darinya.

Sampel pertama


Jadi, salah satu bank terbesar Rusia memutuskan untuk menentukan mana dari kedua teknologi yang akan lebih baik dalam mengatasi tugas mencari risiko. Klasifikasi dokumen yang cerdas menentukan faktor risiko berdasarkan konten berita. Solusi berdasarkan analisis teks mengekstraksi data yang diperlukan dari berita. Akibatnya, ternyata, pilihan terbaik adalah simbiosis dari dua solusi: pengklasifikasi membantu mempersempit jumlah dokumen yang berasal dari rekaman itu, dan menghapus informasi yang sama sekali tidak relevan, dan kemudian teknologi ekstraksi data dimasukkan dalam pekerjaan.

Pada tahap pertama - Bukti konsep (POC) - sangat mungkin menggunakan alat ini untuk mencari risiko diuji. Pelanggan memilih satu faktor risiko - situasi konflik. Teknologi itu seharusnya mengidentifikasi pesan yang berbicara tentang konflik pemegang saham - individu atau badan hukum, manajer puncak bank atau konflik bank dengan badan pengatur. ABBYY Onto-Engineers menciptakan model uji coba untuk pengembangan yang digunakan 1000 pilihan berita. Dia mengekstraksi teks konflik, tanggal berita dan daftar pesertanya. Model ini membuktikan kelayakan pendekatan yang diusulkan: pada tahap POC, pada sampel kontrol yang disediakan oleh salah satu bank (berita yang tidak digunakan untuk pengembangan), hasil berikut diperoleh dari 50 dokumen:


Kelengkapan menentukan berapa persen faktor dalam sampel yang kami temukan, dan akurasi - berapa persen faktor yang kami tentukan memang seperti itu. Ukuran-F adalah rata-rata harmonik antara akurasi dan kelengkapan.

Setelah berhasil menyelesaikan POC, sebuah pilot diluncurkan, dan ia menunjukkan hasil yang baik. Di bawah ini adalah hasil uji coba di salah satu proyek kami. Dibandingkan dengan mencari berita dengan kata kunci, modul ABLYY NLP dapat menyaring tiga kali lebih banyak pesan yang tidak relevan. Ini berarti bahwa manajer risiko perlu menganalisis berita tiga kali lebih sedikit.


Memperbaiki hasilnya


Dalam proses pengembangan model, ahli ontologi dipandu oleh hasil tes mandiri reguler, di mana semua perbedaan antara target dan nilai yang diperoleh dicatat. Untuk membuat laporan seperti itu, berita itu ditandai sesuai dengan instruksi yang diberikan oleh pelanggan. File yang ditandai dalam format xml yang mengandung nilai target dibandingkan dengan file xml yang diperoleh sebagai hasil dari menggunakan versi ontomodel saat ini. Hasil autotest memberikan informasi ringkasan yang berisi indikator kualitas dari analisis seluruh koleksi berita, serta informasi pribadi untuk setiap objek dan dokumen yang diekstraksi secara terpisah. Jadi, Anda dapat mengevaluasi bagaimana akurasi model dalam dinamika meningkat.

Berikut ini adalah contoh dari tabel tersebut:
gambar

Hasil model juga dapat diukur menggunakan Metrik Akurasi, turunan dari kelengkapan dan akurasi:


Metrik Akurasi dapat disebut basis. Ini mengukur jumlah objek yang diklasifikasikan dengan benar relatif terhadap jumlah total semua objek. Metrik Akurasi memiliki beberapa kelemahan: tidak ideal untuk kelas yang tidak seimbang, di mana ada banyak contoh satu kelas dan beberapa lainnya.

Metrik ini digunakan oleh bank besar lain, juga klien kami. Metrik Akurasi adalah 85%.

Di masa depan, bank secara mandiri melakukan integrasi produk ABBYY, di mana model kami bekerja, dan menggunakannya dalam sirkuit mereka. Produk kami terintegrasi dengan sistem manajemen risiko perbankan: mereka mentransfer dokumen untuk dianalisis dan mengumpulkan hasilnya.

Bagaimana sistem bekerja


Dari sudut pandang teknis, sistem bekerja seperti ini: ketika teks diproses menjadi solusi ABBYY, analisis linguistik multi-tahap dilakukan. Pada tahap leksikal-morfologis, sifat kata yang paling sederhana ditentukan: jenis kelamin, jumlah, kasus. Kemudian, pada tahap penguraian, ditentukan di mana subjek, predikat, bagaimana kata-kata tersebut terkait satu sama lain. Mengetahui sintaks memungkinkan Anda untuk beralih ke mendefinisikan semantik. Untuk setiap kata, artinya ditentukan. Di atas analisis linguistik ini, aturan untuk mengekstraksi informasi yang dikembangkan oleh ahli ontologi kami berfungsi. Ontomodel mencakup uraian tentang struktur data yang akan diperoleh dari dokumen pelanggan, dan aturan yang memungkinkan struktur data ini diambil.



Dari sudut pandang pengguna, semuanya terlihat sesederhana mungkin. Di akun pribadi Anda, ada tautan ke berita tentang pelanggan terpilih, di mana teknologi melihat risiko. Di sebelah tautan adalah teks dari faktor risiko itu sendiri. Jadi pengguna tidak perlu membaca seluruh berita. Secara opsional, Anda dapat secara otomatis menerima tautan ke berita melalui surat.

Setelah terbiasa dengan sebuah fragmen teks, penjamin emisi sendiri memutuskan apa yang harus dilakukan selanjutnya dengan informasi ini.

Kesulitan yang tidak terduga


Risiko adalah konsep abstrak. Ini adalah bidang profesional yang sangat spesifik, dan penting untuk memperhitungkan pendapat spesialis yang bekerja dengan risiko setiap hari. Pengguna pelanggan kami dapat memilih berita dan menempatkan "suka" bersyarat: apakah sistem menentukan dengan benar adanya risiko dalam berita atau tidak.

Dalam proses debugging sistem, kami dihadapkan dengan fakta bahwa penjamin emisi sering menafsirkan makna berita dan adanya faktor risiko di dalamnya. Satu pengguna ingin jenis berita tertentu muncul di umpannya, dan yang lain - menganggap pesan tersebut tidak penting. Masalah ini diselesaikan sebagai berikut: bank mengumpulkan dari penjamin emisi sebuah daftar berita, yang oleh para ahli memberikan interpretasi yang berbeda, dan membuat keputusan akhir tentang interpretasi berita tertentu: apakah ada faktor risiko di dalamnya atau tidak. Modifikasi dibuat untuk ontomodel tergantung pada umpan baliknya.

Bagaimana jika beritanya berbahasa Inggris?


Banyak bank Rusia menggunakan sumber seperti Dow Jones, Bloomberg, Financial Times. Salah satu keuntungan dari pendekatan kami terhadap pengembangan ontomodel berdasarkan teknologi ABLYY NLP adalah adaptasi cepat dari model yang dikembangkan untuk menganalisis berita dalam bahasa Rusia untuk bekerja dengan teks-teks bahasa Inggris. Ini membutuhkan debugging model pada berita bahasa Inggris asli.

Nilai hasilnya


Sekarang, penjamin emisi dapat mengikuti berita secara real time, tanpa harus membaca semua 100.500 pesan. Pada prinsipnya, Anda bahkan tidak perlu membaca seluruh berita di mana sistem menemukan faktor risiko: fragmen dengan yang paling penting (cuplikan) disorot dalam program. Dalam beberapa menit, Anda dapat secara otomatis membuat laporan untuk satu bank, menyoroti hanya satu faktor risiko atau beberapa yang signifikan. Dengan pendekatan ini, sulit untuk melewatkan sesuatu yang penting. Selanjutnya, penjamin emisi dapat membuka kartu rekanan dan memilih pesan-pesan yang menurutnya penting. Berdasarkan mereka, peringkat kredit perusahaan dapat direvisi, suku bunga dapat diubah, atau mungkin ada alasan untuk menghubungi manajemen perusahaan. Pesan-pesan ini diteruskan ke sistem alur kerja.

Anda mungkin bertanya berapa banyak berita proses teknologi. Itu semua tergantung pada alur berita: pada bulan Januari dan Mei, misalnya, secara tradisional ada lebih sedikit pesan. Satu bank dapat memeriksa hingga 2,5 juta item berita per bulan melalui sistem kami. Dan jumlah ini hanya dibatasi oleh lisensi dan daya komputasi.

By the way, teknologi serupadapat bekerja tidak hanya di bank, tetapi juga di perusahaan mana pun yang melacak aliran besar pesan tentang pesaing, pelanggan, mitra, dan membaca ulasan pengguna di jejaring sosial. Misalnya, dana ventura menggunakan teknologi NLP dapat melacak informasi tentang perusahaan baru yang menjanjikan dalam hal investasi potensial, dan organisasi pemerintah - berita utama tentang apa yang terjadi di wilayah tertentu, apa masalahnya, siapa yang bertanggung jawab, dll. Selain itu, Anda dapat menganalisis tidak hanya pesan di media, tetapi juga blog dan ulasan di jejaring sosial.



Dan tugas apa yang Anda hadapi ketika berhadapan dengan proyek untuk memproses dokumen tidak terstruktur untuk bank dan perusahaan di industri lain?

Source: https://habr.com/ru/post/undefined/


All Articles