Normalización de texto en tareas de reconocimiento de voz.

Al resolver tareas relacionadas con el reconocimiento de voz (Voz a texto) y la generación (Texto a voz) de voz, es importante que la transcripción coincida con lo que dijo el hablante, es decir, el lenguaje hablado real . Esto significa que antes de que el discurso escrito se convierta en nuestra transcripción, debe normalizarse .


En otras palabras, el texto debe hacerse a través de varios pasos:


  • Reemplazando el número en palabras: 1984 -> mil novecientos ochenta y cuatro años ;
  • Explicación de abreviaturas: 2 . -> dos minutos de odio ;
  • Transcripción latina: Orwell-> etc.

Normalización


En este artículo, hablaré brevemente sobre cómo se desarrolló la normalización en el conjunto de datos del idioma ruso Open_STT , qué herramientas se usaron y sobre nuestro enfoque de la tarea.


Como una cereza en un pastel, decidimos poner nuestro normalizador basado en seq2seq en el dominio público: un enlace a github . Es lo más simple posible de usar y se llama por un método:


norm = Normalizer()
result = norm.norm_text(' 9  11   whiskas')

>>> '      '

Más sobre la tarea


, , ? , . , .


, , :


  • 2(), . 2;
  • 2, 2;
  • 2, 2;
  • = 2/5, . 2/5.

: - () (?). , , . .



. - . , , ~20% , ~80% .


Open_STT : — . STT , - 2020 , .


. 2020 . "" — .


Sequence to Sequence


- , sequence-to-sequence (seq2seq) . , seq2seq , "" , :


  • — ;
  • — ;
  • , — ;

Atención


attention "5 ". , "" "5", "".

seq2seq PyTorch . — . + + + , — + .


— , . ( , ) .


, :



TorchScript


, , Torchscript.


TorchScript — PyTorch, Python C++.


, PyTorch :


  1. , TorchScript , ;
  2. torch.jit.script ( torch.jit.trace), .

, , , , . , : , .. .



, . , .


  • norm.norm_string(" — — 27 38 %.")

' — — .'


  • norm.norm_string(" 22 1939 ")

' '


  • norm.norm_string(" «The Crying Game»")

' « »'


  • norm.norm_string(" XVIII ")

' '


  • norm.norm_string(" 2012 6,6 ")

All Articles