L'intelligence artificielle créera d'abord un corpus d'anciens manuscrits slaves

image

«Aux jours de doute, aux jours de pensées douloureuses sur le sort de la patrie», qui sont particulièrement difficiles ces dernières semaines, qu'est-ce que le soutien et le soutien pour nous? :) C'est vrai, génial et puissant. Et tandis que les taux de change et une pandémie tiennent inexorablement la conscience de masse, les scientifiques ne cessent de travailler. A propos de qui et pourquoi créera le corpus - un "SGBD" unique d'anciens manuscrits slaves - dans nos actualités.

Collaboration des scientifiques de NUST «MISiS, Russian Language Institute nommé d'après V.V. Vinogradova RAN, HSE, avec le soutien de la Commission pour le travail avec les universités et la communauté scientifique dans le cadre du Conseil diocésain de Moscou, a lancé un projet à grande échelle pour créer, en utilisant l'intelligence artificielle et les technologies d'apprentissage automatique, une base unique d'anciens manuscrits slaves - le corpus. La création du corps linguistique de l'ancien slave fournira aux chercheurs et historiens linguistiques un outil puissant pour étudier toutes les langues et cultures slaves nationales modernes et deviendra une clé unique pour comprendre leur patrimoine.

Un corpus est une base de données linguistiques structurée, un système d'information et de référence basé sur une collection de textes dans une langue particulière sous forme électronique. C'est un produit trié sur le volet et spécialement traité (balisé ) ensemble de textes servant de base à l'étude du vocabulaire et de la grammaire de la langue.

image

Les textes slaves anciens sont une variété de monuments manuscrits des XIe et XVIIe siècles, fondement de toutes les langues et cultures slaves nationales modernes. La création du corpus système de la langue est associée à un travail laborieux, subtil et minutieux, nécessitant les efforts combinés de professionnels de divers domaines et, selon les scientifiques, est une tâche de nature nationale.

Hiéromonk Rodion (Larionov), vice-président de la Commission pour le travail avec les universités et la communauté scientifique au Conseil diocésain de Moscou:
« , . – , , XI – XVII , – . . , -, , , , -, . , – , , , , , , . , ».
L'intelligence artificielle couvrira toute cette gigantesque gamme de données, systématisera et créera des algorithmes pour organiser le balisage linguistique - la principale caractéristique du corpus. C'est elle qui distingue le cas d'une simple bibliothèque.
Les projets sur l'utilisation d'approches numériques pour l'analyse du patrimoine culturel se développent activement dans les pays européens et sont un excellent exemple d'interaction interdisciplinaire.

En ce qui concerne les monuments linguistiques, on peut noter deux principaux domaines de travail - la conversion des images numérisées en une forme "lisible par machine" et la construction de modèles linguistiques qui simplifient l'analyse et la compréhension des textes. Avec les textes slaves, l'orthographe des lettres (graphèmes) qui se caractérise par la floridité et l'utilisation répandue des diacritiques, de tels développements systémiques n'ont pas encore été entrepris.

image

, MegaScience «», - :
« . , . , . , – ».

image

La première étape du projet sera la numérisation et le marquage du complexe de l'ancienne Mena slave des XI-XVII siècles en vieux russe, bulgare et serbe - livres officiels de l'église contenant le calendrier des services pour tous les jours de l'année de l'église, dont les manuscrits sont stockés dans les collections du State Historical Museum, des bibliothèques nationales et d'État russes, du russe Archives d'État des actes anciens, Sainte Trinité Saint-Serge Lavra.

Quelqu'un dira, eh bien, quels sont les autres anciens manuscrits slaves, le monde est en arrêt complet. Cependant, il convient de se rappeler qu'après tout «au commencement était la Parole» ...

All Articles