Conheça o idioma Chuvash em Yandex.Translate: como resolvemos o principal problema de tradução automática

As regiões da Rússia não são apenas fronteiras no mapa. Cada região tem suas próprias tradições culturais, e muitas têm suas próprias línguas. A tradução automática poderia ajudar a preservar e aplicar esses idiomas - em particular, publicar artigos na Wikipedia. Mas e se os dados para aprender inteligência de máquina não forem suficientes?


Hoje falaremos sobre nossa abordagem usando o exemplo da linguagem Chuvash que ensinamos ao Yandex.Translator. Segundo o último censo, mais de um milhão de pessoas consideram esse idioma nativo.




Mas, para começar, um pouco de experiência.


. , : — , . . . , . , . . .


, . . , — , . .


, . . , , . , , . .


, , , ( ). ( , ), . , , , . , ?



, . . , . , , 250 . . , , .


. (, ), . - , : - . , — .



— —


: , - (!) . .

?



. , , , . , .


. : , , , , , , — . . , . , «»: gümüş — өө — ө — үі — үү — gümüş — kumush — ӗӗ. , , , «» . SMT, / — .



, . . . , back-translation. ?


, , . , . : ( ). , - , . , . , , , . , .


, , , «» . tagged back-translation: «» — (pun intended) - .


!


, , . - ., : [ -].


, -, . , . .

Source: https://habr.com/ru/post/undefined/


All Articles