Bagaimana sistem DLP dan modul OCR mencegah karyawan memalsukan pemindaian paspor

Ingat kisah kebocoran data paspor dari 500 juta pelanggan jaringan hotel Marriott? Para penyerang bisa menemukan data, dan kelompok hotel bahkan berjanji untuk membayar biaya penggantian paspor kepada para tamu yang terkena dampak. Ada banyak kasus serupa. Dapat dimengerti alasannya: saat ini lebih dari 50% perusahaan menyimpan lebih dari setengah dokumen mereka dalam bentuk pemindaian, tangkapan layar, dan PDF. Tiga tahun lalu , tidak lebih dari sepertiga dari dokumen semacam itu ada di organisasi . Menurut survei baru oleh SearchInform , 51% perusahaan mengatakan bahwa jumlah dokumen dalam format gambar meningkat.

Baru-baru ini, paling sering kebocoran dalam bentuk gambar dikenakan dokumen yang relevan secara hukum, misalnya kontrak. Di tempat kedua dalam "kelompok risiko" adalah dokumen keuangan: neraca, laporan laba rugi dan sebagainya. Hilangnya data tersebut tidak hanya mengancam risiko reputasi bagi perusahaan, tetapi juga dapat menyebabkan gangguan transaksi. Untuk melindungi data penting dari pihak luar dan pengganggu, DLP - sistem pencegahan kebocoran informasi dipasang di sistem informasi perusahaan .

Kami sudah berbicara di Habr tentang bagaimana "Sirkuit Keamanan Informasi Penelusuran " (CIB) dan modul OCR berdasarkan pada produk teknologi ABBYY FineReader Engine. Sekarang, bersama dengan karyawan departemen implementasi produk SearchInform, kami telah mengumpulkan empat cerita tentang kebocoran berbagai jenis data melalui kotak surat perusahaan dan pribadi. Dan kami menemukan cara mengidentifikasi mereka menggunakan sistem DLP dengan modul OCR.



Di satu perusahaan perjalanan, seorang karyawan mengirim file dalam format grafik ke surat pribadi. Dengan menggunakan teknologi ABBYY, dimungkinkan untuk membuktikan bahwa lampiran tersebut adalah pemindaian paspor , dan ini merupakan pelanggaran berat terhadap pekerjaan dengan dokumen identitas. Selain itu, ini merupakan pelanggaran serius terhadap kebijakan keamanan perusahaan perjalanan ini.

Bagaimana tepatnya ternyata file grafik itu adalah scan paspor? Menggunakan teknologi OCR bawaan, sistem DLP mengenali teks pada pemindaian, menganalisisnya dan menentukan bahwa dokumen tersebut memiliki nomor paspor. Ada karakteristik lain yang khusus hanya untuk paspor, misalnya, keberadaan frasa seperti "Paspor dikeluarkan", "kode Departemen", dll. Selain itu, sistem DLP menggunakan penggolong ABBYY untuk mengenali sejumlah dokumen, termasuk paspor. Dia memperbaiki pekerjaan teknologi OCR, dan ini pada akhirnya meningkatkan akurasi hasilnya.

Spesialis layanan IB mulai menyelidiki insiden itu dan mengetahui bahwa file rahasia ditransfer dari bawah akun perancang perusahaan, dari komputernya. Semua dokumen memiliki nama yang mirip - "Pemindaian", "Scans_new", "Scans_1": Merekam dari monitor stasiun kerja perancang dalam mode tangkapan layar terpisah yang dibuat modul sistem MonitorController DLP menunjukkan bahwa perancang bekerja di Photoshop dengan pemindaian paspor. Dia memotong foto dari mereka dan kemudian memasukkan yang baru sebagai gantinya:







Setelah menganalisis semua tindakan perancang, dinas keamanan menemukan bahwa karyawan memalsukan dokumen. Pemalsuan berkualitas tinggi dapat digunakan untuk mendaftar di layanan Internet ketika penyerang tidak ingin "menyinari" identitas aslinya. Akan sulit bagi sistem verifikasi otomatis untuk menentukan keaslian informasi dalam gambar semacam itu.

Dengan demikian, teknologi membantu melacak situasi dengan kebocoran data dan pemindaian paspor palsu. Berkat ini, perusahaan menghilangkan risiko merusak reputasinya.



Perusahaan petrokimia menyimpan kuesioner yang diisi tangan dengan data karyawan . Sistem DLP mencatat fakta pengiriman kuesioner ini di luar organisasi: kebijakan keamanan untuk mengirim data pribadi berfungsi. Sistem DLP memberi sinyal karena fakta bahwa modul OCR bawaan dapat bekerja dengan teks tulisan tangan dan mengenalinya dengan akurasi lebih dari 88%. Ini dilakukan dengan menggunakan classifier struktural. Secara lebih rinci tentang teknologi pengenalan karakter cerdas ABBYY - intelligent character recognition (ICR) - kami sudah memberi tahu HabrΓ© .





Kehadiran data pribadi dalam kuesioner menjadi sinyal untuk memeriksa kejadian tersebut. Ternyata kuesioner juga berisi telepon, serta informasi terperinci tentang status kesehatan karyawan. Jika data bocor, maka seseorang membutuhkannya. Misalnya, mereka mungkin menarik bagi mereka yang mengiklankan layanan medis dan terlibat dalam rekayasa sosial .

Pemindaian profil dapat dengan mudah berada dalam domain publik dan ini akan menyebabkan konsekuensi yang tidak dapat diperbaiki. Penyerang dapat mengekstraksi data ini dan dengan demikian tidak hanya membahayakan karyawan, tetapi juga reputasi seluruh perusahaan. Dalam hal ini, karyawan yang kuesionernya berada di tangan yang salah dapat mengeluh kepada inspektorat tenaga kerja, Roskomnadzor atau menceritakan tentang kisah tersebut di jejaring sosial.

Kompleksitas dari kasus ini adalah bahwa jauh dari semua teknologi dapat mengenali teks tulisan tangan, tetapi modul OCR ABBYY dapat melakukan ini. Kami memberi contoh. Di bawah ini adalah kuesioner yang diisi tangan:


Dan hasil dari pengenalan profil semacam itu:





Modul pengenalan teks ABBYY membantu mengungkap pola spionase industri. Salah satu manajer top perusahaan yang disewa, yang pindah ke Rusia dari luar negeri, mengirim file grafik dari surat pribadinya ke mantan rekannya. Sistem DLP telah menemukan fakta ini.

Berkat modul OCR, sistem DLP mengekstraksi teks dari foto dan menemukan bahwa karyawan mengirimkan foto dokumentasi teknis untuk perkembangan perusahaan saat ini. Kemudian DLP menganalisis teks menggunakan algoritma "cari yang serupa". Dia mampu mengidentifikasi teks yang dekat dengan konten atau bahkan makna standar.

Kesulitannya adalah bahwa dokumen rahasia itu dalam bahasa salah satu negara CIS. Tetapi baik sistem DLP dan modul OCR dapat bekerja dengan bahasa ini. Modul OCR mengenali dokumen dalam 210 bahasa (dalam format teks cetak) dan 126 bahasa (dalam format tulisan tangan) - misalnya, bahasa dengan abjad berdasarkan karakter Latin, Sirilik, Yunani dan Armenia dan banyak lainnya. Anda bahkan dapat bekerja dengan dokumen dalam bahasa campuran, jika, misalnya, kata-kata dalam bahasa CIS dan nama-nama dalam bahasa Inggris digunakan di sana.

Selain itu, semua dokumentasi teknis berisi banyak tabel, gambar, grafik dan diagram. Seringkali Anda perlu memahami apa yang tertulis di dalamnya, karena informasi ini dapat memainkan peran penting. Modul OCR mengenali tabel dan struktur kompleks lainnya dalam dokumen dengan baik. Berkat ini, ia dapat mengekstraksi semua informasi dari grafik, misalnya, untuk memahami apakah data saat ini atau sudah usang.

Sistem DLP mengisyaratkan kebocoran dokumentasi teknis kepada karyawan layanan IB, mereka menganalisis insiden itu dan mengkonfirmasi bahwa sinyal itu tidak salah dan foto itu benar-benar diambil dari dokumen rahasia. Akibatnya, verifikasi korespondensi kerja manajer ini dimulai. Pakar keamanan informasi menemukan bahwa ia menggabungkan teman-temannya di luar negeri dengan data berharga yang dapat digunakan pesaing dari negara lain (spoiler: dan menggunakannya). Sebagai contoh, dalam surat-suratnya ada percakapan informal dengan membual tentang bagaimana "teman-temannya akan menaklukkan pasar pertama dan berkeliling semua orang", termasuk perusahaan di mana manajer puncak bekerja pada waktu itu.

Tapi ceritanya tidak berakhir di situ. Layanan keamanan terus menyelidiki kasus ini, menggunakan kemampuan sistem DLP. Program ini membantu menemukan korespondensi dengan pelanggan. Ternyata manajer puncak membuka badan hukumnya sendiri dan menyatakannya sebagai pusat layanan resmi perusahaan "asli". Dia mengambil sebagian dari pesanan perbaikan dari majikan, tetapi pada saat yang sama menggunakan bukan yang baru, tetapi membuang bagian-bagian. Hal ini menyebabkan keluhan pelanggan tentang perusahaan utama dan hilangnya reputasi. Pertama, perusahaan kehilangan keunggulan kompetitifnya, dan kedua, perusahaan itu tidak menerima laba, ketika pesanan pergi.



Kepala departemen teknik sebuah perusahaan besar mengeluarkan sertifikat cuti sakit. Fakta ini tidak akan menarik perhatian jika kebijakan keamanan yang memperbaiki transfer tiket pesawat tidak bekerja sebelumnya dalam sistem DLP . Faktanya adalah bahwa sebelumnya surat dikirim ke surat karyawan dengan lampiran grafik dalam format PDF. Berkat modul OCR, teks pada PDF dikenali,







dan modul analitik pencarian frasa DLP menentukan bahwa file terlampir adalah tiket. Ini dilakukan dengan menggunakan serangkaian frasa, yang hanya khas untuk tiket elektronik, misalnya, "waktu keberangkatan", "kode pemesanan", "penerbangan", "tiket elektronik", dll. Hasilnya, ternyata tanggal penerbangan bertepatan dengan cuti sakit.

Penyelidikan lebih lanjut menunjukkan bahwa kepala departemen teknik akan pergi ke kota lain untuk wawancara, yang dikonfirmasi oleh korespondensi selanjutnya dengan pesaing SDM, yang ditemukan dan dianalisis oleh dinas keamanan. Dengan demikian, sistem DLP membantu manajemen perusahaan menempatkan situasi di bawah kendali khusus dan mempersiapkan pemberhentian karyawan. Dimungkinkan untuk menghentikan potensi kebocoran data penting bagi pesaing dan menjaga kesinambungan proses kerja di perusahaan.


Seperti yang Anda lihat, kasusnya berbeda, tetapi dalam semua kasus, dokumen dapat dikenali dan dianalisis. Jika Anda memiliki contoh kebocoran dokumen yang tidak biasa dalam bentuk gambar atau foto, bagikan dalam komentar. Kami akan membantu mengatasi situasi ini.

All Articles