рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рдХрд╛рд░реНрдпреЛрдВ рдореЗрдВ рдкрд╛рда рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг

рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ (рд╕реНрдкреАрдЪ-рдЯреВ-рдЯреЗрдХреНрд╕реНрдЯ) рдФрд░ рдЬрдирд░реЗрд╢рди (рдЯреЗрдХреНрд╕реНрдЯ-рдЯреВ-рд╕реНрдкреАрдЪ) рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рд╣рд▓ рдХрд░рддреЗ рд╕рдордп, рдпрд╣ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ рдХрд┐ рдЯреНрд░рд╛рдВрд╕рдХреНрд░рд┐рдкреНрдЯ рдореИрдЪ рд╕реЗ рдХреНрдпрд╛ рдХрд╣рддрд╛ рд╣реИ - рдЬреЛ рдХрд┐ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдмреЛрд▓реА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рднрд╛рд╖рд╛ рд╣реИред рдЗрд╕рдХрд╛ рдорддрд▓рдм рдпрд╣ рд╣реИ рдХрд┐ рд▓рд┐рдЦрд┐рдд рднрд╛рд╖рдг рд╣рдорд╛рд░реЗ рдкреНрд░рддрд┐рд▓реЗрдЦ рдмрдирдиреЗ рд╕реЗ рдкрд╣рд▓реЗ , рдЗрд╕реЗ рд╕рд╛рдорд╛рдиреНрдпреАрдХреГрдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ ред


рджреВрд╕рд░реЗ рд╢рдмреНрджреЛрдВ рдореЗрдВ, рдкрд╛рда рдХреЛ рдХрдИ рдЪрд░рдгреЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ:


  • рд╢рдмреНрджреЛрдВ рдореЗрдВ рд╕рдВрдЦреНрдпрд╛ рдХреА рдЬрдЧрд╣: 1984 -> рдПрдХ рд╣рдЬрд╛рд░ рдиреМ рд╕реМ рдЕрд╕реНрд╕реА-рдЪреМрдереЗ рд╡рд░реНрд╖ ;
  • рд╕рдВрдХреНрд╖рд┐рдкреНрддрд┐рдХрд░рдг рдХрд╛ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг: 2 . -> рдШреГрдгрд╛ рдХреЗ рджреЛ рдорд┐рдирдЯ ;
  • рд▓реИрдЯрд┐рди рдЯреНрд░рд╛рдВрд╕рдХреНрд░рд┐рдкреНрд╢рди: Orwell-> рдЖрджрд┐ред

рдорд╛рдирдХреАрдХрд░рдг


рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рдореИрдВ рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ рд░реВрд╕реА рднрд╛рд╖рд╛ Open_STT рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХреИрд╕реЗ рд╡рд┐рдХрд╕рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ , рдХрд┐рд╕ рдЯреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ рдФрд░ рдХрд╛рд░реНрдп рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣рдорд╛рд░реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдХреЗ рдмрд╛рд░реЗ рдореЗрдВред


рдХреЗрдХ рдкрд░ рдЪреЗрд░реА рдХреА рддрд░рд╣, рд╣рдордиреЗ рдЕрдкрдиреЗ рд╕рд╛рдорд╛рдиреНрдпрдХ рдХреЛ рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рдбреЛрдореЗрди рдореЗрдВ seq2seq рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд░рдЦрдиреЗ рдХрд╛ рдлреИрд╕рд▓рд╛ рдХрд┐рдпрд╛: рдЬреАрдердм рдХрд╛ рд▓рд┐рдВрдХ ред рдпрд╣ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЬрд┐рддрдирд╛ рдЖрд╕рд╛рди рд╣реИ рдФрд░ рдЗрд╕реЗ рдПрдХ рд╡рд┐рдзрд┐ рджреНрд╡рд╛рд░рд╛ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ:


norm = Normalizer()
result = norm.norm_text(' 9  11   whiskas')

>>> '      '

рдХрд╛рд░реНрдп рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЕрдзрд┐рдХ


, , ? , . , .


, , :


  • 2 тАФ (), . 2 тАФ ;
  • 2 тАФ , 2 тАФ ;
  • 2 тАФ , 2 тАФ ;
  • = 2/5 тАФ , . 2/5 тАФ тАФ .

: - ( тАФ ) ( тАФ ?). , , . .



. - . , , ~20% , ~80% .


Open_STT : тАФ . STT , - 2020 , .


. 2020 . "" тАФ .


Sequence to Sequence


- , sequence-to-sequence (seq2seq) . , seq2seq , "" , :


  • тАФ ;
  • тАФ ;
  • , тАФ ;

рдзреНрдпрд╛рди


attention "5 ". , "" "5", "".

seq2seq PyTorch . тАФ . + + + , тАФ + .


тАФ , . ( , ) .


, :



TorchScript


, , Torchscript.


TorchScript тАФ PyTorch, Python C++.


, PyTorch :


  1. , TorchScript , ;
  2. torch.jit.script ( torch.jit.trace), .

, , , , . , : , .. .



, . , .


  • norm.norm_string(" тАФ тАФ 27 38 %.")

' тАФ тАФ .'


  • norm.norm_string(" 22 1939 ")

' '


  • norm.norm_string(" ┬лThe Crying Game┬╗")

' ┬л ┬╗'


  • norm.norm_string(" XVIII ")

' '


  • norm.norm_string(" 2012 6,6 ")

All Articles