Kecerdasan buatan pertama-tama akan menciptakan kumpulan naskah kuno Slavik

gambar

"Di masa-masa keraguan, di hari-hari pikiran menyakitkan tentang nasib Tanah Air", yang khususnya sulit dalam beberapa minggu terakhir, apa yang mendukung dan mendukung kita? :) Itu benar, hebat dan perkasa. Dan sementara nilai tukar dan pandemi secara tak terelakkan menahan kesadaran massa, para ilmuwan tidak berhenti bekerja. Tentang siapa dan mengapa akan membuat corpus - "DBMS" unik dari naskah kuno Slavia - dalam berita kami.

Kolaborasi para ilmuwan dari NUST "MISiS, Institut Bahasa Rusia dinamai V.V. Vinogradova RAN, HSE, dengan dukungan Komisi untuk Bekerja dengan Universitas dan Komunitas Ilmiah di bawah Dewan Keuskupan Moskow, telah meluncurkan proyek berskala besar untuk menciptakan, menggunakan kecerdasan buatan dan teknologi pembelajaran mesin, basis unik dari naskah kuno Slavonic - corpus. Membuat korpus bahasa Slavia Lama akan memberi para peneliti dan sejarawan linguistik alat yang ampuh untuk mempelajari semua bahasa dan budaya Slavia nasional modern dan akan menjadi kunci unik untuk memahami warisan mereka.

Korpus adalah basis data bahasa terstruktur, sistem informasi dan referensi berdasarkan kumpulan teks dalam bahasa tertentu dalam bentuk elektronik. Ini dipilih dan diolah secara khusus (ditandai ) set teks yang digunakan sebagai dasar untuk studi kosa kata dan tata bahasa.

gambar

Teks-teks Slavia Kuno adalah beragam monumen naskah dari abad ke-11 - 17, fondasi dari semua bahasa dan budaya Slavia nasional modern. Penciptaan sistem corpus bahasa dikaitkan dengan pekerjaan yang melelahkan, halus dan melelahkan, membutuhkan upaya gabungan dari para profesional dari berbagai bidang dan, menurut para ilmuwan, adalah tugas yang bersifat nasional.

Hieromonk Rodion (Larionov), Wakil Ketua Komisi untuk Bekerja dengan Universitas dan Komunitas Ilmiah di Dewan Keuskupan Moskow:
ยซ , . โ€“ , , XI โ€“ XVII , โ€“ . . , -, , , , -, . , โ€“ , , , , , , . , ยป.
Kecerdasan buatan akan mencakup seluruh rangkaian data raksasa ini, mensistematisasikan dan membuat algoritma untuk mengatur markup linguistik - karakteristik utama dari corpus. Dialah yang membedakan kasus dari perpustakaan sederhana.
Proyek-proyek tentang penggunaan pendekatan digital untuk analisis warisan budaya secara aktif berkembang di negara-negara Eropa dan merupakan contoh interaksi interdisipliner yang sangat baik.

Berkenaan dengan monumen linguistik, dua bidang kerja utama dapat dicatat - konversi gambar yang dipindai menjadi bentuk yang "dapat dibaca mesin" dan konstruksi model bahasa yang menyederhanakan analisis dan pemahaman teks. Dengan teks-teks Slavik, ejaan huruf (grafem) yang dicirikan oleh kemunduran dan meluasnya penggunaan diakritik, perkembangan sistemik seperti itu belum dilakukan.

gambar

, MegaScience ยซยป, - :
ยซ . , . , . , โ€“ ยป.

gambar

Tahap pertama dari proyek ini adalah digitalisasi dan penandaan kompleks Old Slavic Mena dari abad XI-XVII di Rusia, Bulgaria dan Serbia - buku-buku resmi gereja yang berisi jadwal layanan untuk semua hari tahun gereja, manuskrip yang disimpan dalam koleksi Museum Sejarah Negara, Perpustakaan Nasional Rusia dan Perpustakaan Negara, Rusia Arsip Negara tentang Kisah Kuno, Tritunggal Mahakudus St. Sergius Lavra.

Seseorang akan berkata, baik, apa naskah kuno Slavia lainnya ada di sana, dunia sedang dalam penutupan total. Namun, perlu diingat bahwa setelah semua "pada mulanya adalah Firman" ...

All Articles