Künstliche Intelligenz wird zunächst ein Korpus alter slawischer Manuskripte erstellen

Bild

"In den Tagen des Zweifels, in den Tagen schmerzhafter Gedanken über das Schicksal des Mutterlandes", die in den letzten Wochen besonders schwierig sind, was ist Unterstützung und Unterstützung für uns? :) Das stimmt, großartig und mächtig. Und während Wechselkurse und eine Pandemie unaufhaltsam das Massenbewusstsein halten, hören Wissenschaftler nicht auf zu arbeiten. Über wer und warum wird das Korpus - ein einzigartiges "DBMS" alter slawischer Manuskripte - in unseren Nachrichten erstellt.

Zusammenarbeit von Wissenschaftlern von NUST “MISiS, Russian Language Institute benannt nach V.V. Vinogradova RAN, HSE, hat mit Unterstützung der Kommission für die Arbeit mit Universitäten und der wissenschaftlichen Gemeinschaft im Rahmen des Moskauer Diözesanrates ein Großprojekt gestartet, um mithilfe künstlicher Intelligenz und Technologien für maschinelles Lernen eine einzigartige Basis antiker slawischer Manuskripte zu schaffen - das Korpus. Die Schaffung eines Korpus der altslawischen Sprache bietet Sprachforschern und Historikern ein leistungsfähiges Instrument zum Studium aller modernen slawischen Nationalsprachen und -kulturen und ist ein einzigartiger Schlüssel zum Verständnis ihres Erbes.

Ein Korpus ist eine strukturierte Sprachdatenbank, ein Informations- und Referenzsystem, das auf einer Sammlung von Texten in einer bestimmten Sprache in elektronischer Form basiert. Es ist eine handverlesene und speziell verarbeitete (markiert ) Satz von Texten, die als Grundlage für das Studium des Wortschatzes und der Grammatik der Sprache dienen.

Bild

Antike slawische Texte sind eine Vielzahl von Manuskriptdenkmälern des 11. bis 17. Jahrhunderts, die die Grundlage aller modernen slawischen Nationalsprachen und -kulturen bilden. Die Schaffung des Systemkorpus der Sprache ist mit mühsamer, subtiler und sorgfältiger Arbeit verbunden, die die gemeinsamen Anstrengungen von Fachleuten aus verschiedenen Bereichen erfordert und laut Wissenschaftlern eine Aufgabe nationaler Natur ist.

Hieromonk Rodion (Larionov), stellvertretender Vorsitzender der Kommission für die Arbeit mit Universitäten und der wissenschaftlichen Gemeinschaft beim Diözesanrat von Moskau:
« , . – , , XI – XVII , – . . , -, , , , -, . , – , , , , , , . , ».
Künstliche Intelligenz wird dieses gesamte gigantische Datenfeld abdecken, Algorithmen zur Anordnung des sprachlichen Markups systematisieren und erstellen - das Hauptmerkmal des Korpus. Sie unterscheidet den Fall von einer einfachen Bibliothek.
Projekte zur Nutzung digitaler Ansätze zur Analyse des kulturellen Erbes entwickeln sich in europäischen Ländern aktiv und sind ein hervorragendes Beispiel für interdisziplinäre Interaktion.

In Bezug auf sprachliche Denkmäler lassen sich zwei Hauptarbeitsbereiche feststellen: die Umwandlung gescannter Bilder in eine "maschinenlesbare" Form und die Konstruktion von Sprachmodellen, die die Analyse und das Verständnis von Texten vereinfachen. Bei slawischen Texten, der Schreibweise von Buchstaben (Graphemen), die durch Floridität und weit verbreitete Verwendung von Diakritika gekennzeichnet ist, wurden solche systemischen Entwicklungen noch nicht durchgeführt.

Bild

, MegaScience «», - :
« . , . , . , – ».

Bild

Die erste Phase des Projekts wird die Digitalisierung und Kennzeichnung des Komplexes der altslawischen Mena des XI-XVII Jahrhunderts in altrussischer, bulgarischer und serbischer Sprache sein - offizielle Kirchenbücher mit dem Gottesdienstplan für alle Tage des Kirchenjahres, deren Manuskripte in den Sammlungen des Staatlichen Historischen Museums, der Russischen Nationalbibliothek und der Russischen Staatsbibliothek aufbewahrt werden Staatsarchiv der Antiken, Heilige Dreifaltigkeit St. Sergius Lavra.

Jemand wird sagen, welche anderen alten slawischen Manuskripte es gibt, die Welt ist in einem völligen Stillstand. Es sei jedoch daran erinnert, dass schließlich „am Anfang das Wort war“ ...

All Articles