La inteligencia artificial creará primero un corpus de manuscritos eslavos antiguos.

imagen

"En los días de duda, en los días de pensamientos dolorosos sobre el destino de la patria", que son especialmente difíciles en las últimas semanas, ¿qué es el apoyo y el apoyo para nosotros? :) Así es, genial y poderoso. Y aunque los tipos de cambio y una pandemia mantienen inexorablemente una conciencia de masas, los científicos no dejan de trabajar. Sobre quién y por qué creará el corpus, un "DBMS" único de manuscritos eslavos antiguos, en nuestras noticias.

Colaboración de científicos de NUST "MISiS, Instituto de Lengua Rusa que lleva el nombre de V.V. Vinogradova RAN, HSE, con el apoyo de la Comisión para el Trabajo con las Universidades y la Comunidad Científica bajo el Consejo Diocesano de Moscú, lanzó un proyecto a gran escala para crear, utilizando inteligencia artificial y tecnologías de aprendizaje automático, una base única de manuscritos eslavos antiguos: el corpus. La creación de un corpus de la antigua lengua eslava dará a los investigadores e historiadores lingüísticos una herramienta poderosa para estudiar todas las lenguas y culturas eslavas nacionales modernas y será una clave única para comprender su herencia.

Un corpus es una base de datos de lenguaje estructurado, un sistema de información y referencia basado en una colección de textos en un idioma particular en forma electrónica. Es un producto recogido a mano y especialmente procesado (marcado ) conjunto de textos que se utilizan como base para el estudio del vocabulario y la gramática del idioma.

imagen

Los antiguos textos eslavos son una variedad de monumentos manuscritos de los siglos XI-XVII, la base de todas las lenguas y culturas eslavas nacionales modernas. La creación del corpus del sistema del lenguaje está asociada con un trabajo laborioso, sutil y minucioso, que requiere el esfuerzo combinado de profesionales de diversos campos y, según los científicos, es una tarea de carácter nacional.

Hieromonk Rodion (Larionov), Vicepresidente de la Comisión de Trabajo con Universidades y la Comunidad Científica del Consejo Diocesano de Moscú:
« , . – , , XI – XVII , – . . , -, , , , -, . , – , , , , , , . , ».
La inteligencia artificial cubrirá toda esta gigantesca matriz de datos, sistematizará y creará algoritmos para organizar el marcado lingüístico, la característica principal del corpus. Es ella quien distingue el caso de una simple biblioteca.
Los proyectos sobre el uso de enfoques digitales para el análisis del patrimonio cultural se están desarrollando activamente en los países europeos y son un excelente ejemplo de interacción interdisciplinaria.

Con respecto a los monumentos lingüísticos, se pueden observar dos áreas principales de trabajo: la conversión de imágenes escaneadas en una forma "legible por máquina" y la construcción de modelos de lenguaje que simplifican el análisis y la comprensión de los textos. Con los textos eslavos, la ortografía de las letras (grafemas) que se caracteriza por la floridez y el uso generalizado de los diacríticos, aún no se han llevado a cabo tales desarrollos sistémicos.

imagen

, MegaScience «», - :
« . , . , . , – ».

imagen

La primera etapa del proyecto será la digitalización y el marcado del complejo de la antigua Mena eslava de los siglos XI-XVII en ruso antiguo, búlgaro y serbio: libros oficiales de la iglesia que contienen el calendario de servicios para todos los días del año eclesiástico, cuyos manuscritos se almacenan en las colecciones del Museo Estatal de Historia, las Bibliotecas Nacionales y Estatales de Rusia, el ruso Archivo Estatal de Actos Antiguos, Santísima Trinidad San Sergio Lavra.

Alguien dirá, bueno, qué otros manuscritos eslavos antiguos hay, el mundo está en completo cierre. Sin embargo, vale la pena recordar que después de todo "en el principio era la Palabra" ...

All Articles