A inteligência artificial criará primeiro um corpus de manuscritos eslavos antigos

imagem

“Nos dias de dúvida, nos dias de pensamentos dolorosos sobre o destino da pátria”, que são especialmente difíceis nas últimas semanas, o que é apoio e apoio para nós? :) Isso mesmo, ótimo e poderoso. E enquanto as taxas de câmbio e uma pandemia mantêm inexoravelmente a consciência de massa, os cientistas não param de trabalhar. Sobre quem e por que criará o corpus - um "DBMS" único dos antigos manuscritos eslavos - em nossas notícias.

Colaboração de cientistas do NUST “MISiS, Instituto de Língua Russa em homenagem a V.V. Vinogradova RAN, HSE, com o apoio da Comissão para o Trabalho com Universidades e a Comunidade Científica do Conselho Diocesano de Moscou, lançou um projeto em larga escala para criar, usando inteligência artificial e tecnologias de aprendizado de máquina, uma base única de manuscritos eslavônicos antigos - o corpus. A criação do corpo de línguas eslavas antigas dará a pesquisadores e historiadores lingüísticos uma ferramenta poderosa para estudar todas as línguas e culturas nacionais eslavas modernas e se tornará uma chave única para entender sua herança.

Um corpus é um banco de dados de linguagem estruturada, um sistema de informação e referência baseado em uma coleção de textos em um idioma específico em formato eletrônico. É um escolhido a dedo e especialmente processado (marcado ) conjunto de textos usados ​​como base para o estudo do vocabulário e gramática da língua.

imagem

Os textos eslavos antigos são uma variedade de monumentos manuscritos dos séculos 11 a 17, o fundamento de todas as línguas e culturas nacionais eslavas modernas. A criação do corpus do sistema da linguagem está associada a trabalhos trabalhosos, sutis e meticulosos, exigindo o esforço conjunto de profissionais de diversas áreas e, segundo os cientistas, é uma tarefa de natureza nacional.

Hieromonk Rodion (Larionov), Vice-Presidente da Comissão de Trabalho com Universidades e Comunidade Científica do Conselho Diocesano de Moscou:
« , . – , , XI – XVII , – . . , -, , , , -, . , – , , , , , , . , ».
A inteligência artificial cobrirá todo esse gigantesco conjunto de dados, sistematizará e criará algoritmos para organizar a marcação linguística - a principal característica do corpus. É ela quem distingue o caso de uma biblioteca simples.
Projetos sobre o uso de abordagens digitais para a análise do patrimônio cultural estão se desenvolvendo ativamente nos países europeus e são um excelente exemplo de interação interdisciplinar.

No que diz respeito aos monumentos linguísticos, duas áreas principais de trabalho podem ser observadas - a conversão de imagens digitalizadas em um formato "legível por máquina" e a construção de modelos de linguagem que simplificam a análise e a compreensão de textos. Nos textos eslavos, a grafia das letras (grafemas), caracterizada pela floridez e uso generalizado de diacríticos, tais desenvolvimentos sistêmicos ainda não foram realizados.

imagem

, MegaScience «», - :
« . , . , . , – ».

imagem

A primeira etapa do projeto será a digitalização e marcação do complexo da velha eslava eslava dos séculos XI-XVII nos idiomas russo antigo, búlgaro e sérvio - livros oficiais da igreja contendo a programação dos serviços de todos os dias do ano da igreja, cujos manuscritos estão armazenados nas coleções do Museu Histórico do Estado, nas Bibliotecas Nacionais e Estatais da Rússia. Arquivo Estadual de Atos Antigos, Santa Trindade São Sérgio Lavra.

Alguém dirá, bem, que outros manuscritos eslavos antigos existem, o mundo está completamente fechado. No entanto, vale lembrar que afinal "no princípio era a Palavra" ...

All Articles