рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ (рд╕реНрдкреАрдЪ-рдЯреВ-рдЯреЗрдХреНрд╕реНрдЯ) рдФрд░ рдЬрдирд░реЗрд╢рди (рдЯреЗрдХреНрд╕реНрдЯ-рдЯреВ-рд╕реНрдкреАрдЪ) рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рд╣рд▓ рдХрд░рддреЗ рд╕рдордп, рдпрд╣ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ рдХрд┐ рдЯреНрд░рд╛рдВрд╕рдХреНрд░рд┐рдкреНрдЯ рдореИрдЪ рд╕реЗ рдХреНрдпрд╛ рдХрд╣рддрд╛ рд╣реИ - рдЬреЛ рдХрд┐ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдмреЛрд▓реА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рднрд╛рд╖рд╛ рд╣реИред рдЗрд╕рдХрд╛ рдорддрд▓рдм рдпрд╣ рд╣реИ рдХрд┐ рд▓рд┐рдЦрд┐рдд рднрд╛рд╖рдг рд╣рдорд╛рд░реЗ рдкреНрд░рддрд┐рд▓реЗрдЦ рдмрдирдиреЗ рд╕реЗ рдкрд╣рд▓реЗ , рдЗрд╕реЗ рд╕рд╛рдорд╛рдиреНрдпреАрдХреГрдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ ред
рджреВрд╕рд░реЗ рд╢рдмреНрджреЛрдВ рдореЗрдВ, рдкрд╛рда рдХреЛ рдХрдИ рдЪрд░рдгреЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ:
- рд╢рдмреНрджреЛрдВ рдореЗрдВ рд╕рдВрдЦреНрдпрд╛ рдХреА рдЬрдЧрд╣:
1984
-> рдПрдХ рд╣рдЬрд╛рд░ рдиреМ рд╕реМ рдЕрд╕реНрд╕реА-рдЪреМрдереЗ рд╡рд░реНрд╖ ; - рд╕рдВрдХреНрд╖рд┐рдкреНрддрд┐рдХрд░рдг рдХрд╛ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг:
2 .
-> рдШреГрдгрд╛ рдХреЗ рджреЛ рдорд┐рдирдЯ ; - рд▓реИрдЯрд┐рди рдЯреНрд░рд╛рдВрд╕рдХреНрд░рд┐рдкреНрд╢рди:
Orwell
->
рдЖрджрд┐ред

рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рдореИрдВ рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ рд░реВрд╕реА рднрд╛рд╖рд╛ Open_STT рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХреИрд╕реЗ рд╡рд┐рдХрд╕рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ , рдХрд┐рд╕ рдЯреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ рдФрд░ рдХрд╛рд░реНрдп рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣рдорд╛рд░реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдХреЗ рдмрд╛рд░реЗ рдореЗрдВред
рдХреЗрдХ рдкрд░ рдЪреЗрд░реА рдХреА рддрд░рд╣, рд╣рдордиреЗ рдЕрдкрдиреЗ рд╕рд╛рдорд╛рдиреНрдпрдХ рдХреЛ рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рдбреЛрдореЗрди рдореЗрдВ seq2seq рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд░рдЦрдиреЗ рдХрд╛ рдлреИрд╕рд▓рд╛ рдХрд┐рдпрд╛: рдЬреАрдердм рдХрд╛ рд▓рд┐рдВрдХ ред рдпрд╣ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЬрд┐рддрдирд╛ рдЖрд╕рд╛рди рд╣реИ рдФрд░ рдЗрд╕реЗ рдПрдХ рд╡рд┐рдзрд┐ рджреНрд╡рд╛рд░рд╛ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ:
norm = Normalizer()
result = norm.norm_text(' 9 11 whiskas')
>>> ' '
рдХрд╛рд░реНрдп рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЕрдзрд┐рдХ
, , ? , . , .
, , :
2
тАФ (), . 2
тАФ ;2
тАФ , 2
тАФ ;2
тАФ , 2
тАФ ;= 2/5
тАФ , . 2/5
тАФ тАФ .
: - (
тАФ ) (
тАФ ?). , , . .
. - . , , ~20% , ~80% .
Open_STT : тАФ . STT , - 2020
, .
.
2020
. "" тАФ .
Sequence to Sequence
- , sequence-to-sequence (seq2seq) . , seq2seq , "" , :

attention "5 ". , "" "5", "".
seq2seq PyTorch . тАФ . + + + , тАФ + .
тАФ , . ( , ) .
, :
TorchScript
, , Torchscript.
TorchScript тАФ PyTorch, Python C++.
, PyTorch :
- , TorchScript , ;
torch.jit.script
( torch.jit.trace
), .
, , , , . , : , .. .
, . , .
norm.norm_string(" тАФ тАФ 27 38 %.")
' тАФ тАФ .'
norm.norm_string(" 22 1939 ")
' '
norm.norm_string(" ┬лThe Crying Game┬╗")
' ┬л ┬╗'
norm.norm_string(" XVIII ")
' '
norm.norm_string(" 2012 6,6 ")