🙈 🤴🏻 😽 Normalisation du texte dans les tâches de reconnaissance vocale 🗃️ 👩🏻‍🤝‍👨🏽 🍌

Lors de la résolution de tâches liées à la reconnaissance (Speech-To-Text) et à la génération (Text-To-Speech) de la parole, il est important que la transcription corresponde à ce que le locuteur a dit - c'est-à-dire le vrai langage parlé . Cela signifie qu'avant qu'un discours écrit ne devienne notre transcription, il doit être normalisé .

En d'autres termes, le texte doit être fait en plusieurs étapes:

Remplacer le nombre par des mots: 1984 -> mille neuf cent quatre-vingt-quatrième année ;
Explication des abréviations: 2 . -> deux minutes de haine ;
Transcription latine: Orwell-> etc.

Normalisation

Dans cet article, je parlerai brièvement de la façon dont la normalisation s'est développée dans l'ensemble de données de la langue russe Open_STT , des outils utilisés et de notre approche de la tâche.

Comme une cerise sur un gâteau, nous avons décidé de mettre notre normaliseur basé sur seq2seq dans le domaine public: un lien vers github . Il est aussi simple que possible à utiliser et s'appelle par une méthode:

norm = Normalizer()
result = norm.norm_text(' 9  11   whiskas')

>>> '      '

En savoir plus sur la tâche

, , ? , . , .

, , :

2 — (), . 2 — ;
2 — , 2 — ;
2 — , 2 — ;
= 2/5 — , . 2/5 — — .

: - ( — ) ( — ?). , , . .

. - . , , ~20% , ~80% .

Open_STT : — . STT , - 2020 , .

. 2020 . "" — .

Sequence to Sequence

- , sequence-to-sequence (seq2seq) . , seq2seq , "" , :

— ;
— ;
, — ;

Attention

attention "5 ". , "" "5", "".

seq2seq PyTorch . — . + + + , — + .

— , . ( , ) .

, :

— Russian Text Normalization;
-, .;
, — , , ..

TorchScript

, , Torchscript.

TorchScript — PyTorch, Python C++.

, PyTorch :

, TorchScript , ;
torch.jit.script ( torch.jit.trace), .

, , , , . , : , .. .

, . , .

norm.norm_string(" — — 27 38 %.")

' — — .'

norm.norm_string(" 22 1939 ")

' '

norm.norm_string(" «The Crying Game»")

' « »'

norm.norm_string(" XVIII ")

' '

norm.norm_string(" 2012 6,6 ")

Normalisation du texte dans les tâches de reconnaissance vocale

En savoir plus sur la tâche

Sequence to Sequence

TorchScript

More articles: