
рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ (рдПрд╕рдЯреАрдЯреА рдпрд╛ рдПрдПрд╕рдЖрд░) рдиреЗ рд╕реБрдзрд╛рд░ рдореЗрдВ рдПрдХ рд▓рдВрдмрд╛ рд╕рдлрд░ рддрдп рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдЗрд╕рдХрд╛ рд╡реНрдпрд╛рдкрдХ рдЗрддрд┐рд╣рд╛рд╕ рд╣реИред рдкрд╛рд░рдВрдкрд░рд┐рдХ рдЬреНрдЮрд╛рди рдпрд╣ рд╣реИ рдХрд┐ рдХреЗрд╡рд▓ рд╡рд┐рд╢рд╛рд▓ рдирд┐рдЧрдо рдХрдо рдпрд╛ рдЬреНрдпрд╛рджрд╛ "рд╕рд╛рдорд╛рдиреНрдп" рд╕рдорд╛рдзрд╛рди рдмрдирд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реИрдВ, рдЬреЛ рдбреЗрдЯрд╛ рд╕реНрд░реЛрдд (рд╡рд┐рднрд┐рдиреНрди рдЖрд╡рд╛рдЬрд╝реЗрдВ, рд▓рд╣рдЬреЗ, рдбреЛрдореЗрди) рдХреА рдкрд░рд╡рд╛рд╣ рдХрд┐рдП рдмрд┐рдирд╛ рд╕рдордЭрджрд╛рд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рджрд┐рдЦрд╛рдПрдЧрд╛ред рдЗрд╕ рдЧрд▓рдд рдзрд╛рд░рдгрд╛ рдХреЗ рдХреБрдЫ рдореБрдЦреНрдп рдХрд╛рд░рдг рдЗрд╕ рдкреНрд░рдХрд╛рд░ рд╣реИрдВ:
- рдХрдВрдкреНрдпреВрдЯрд┐рдВрдЧ рд╢рдХреНрддрд┐ рдХреЗ рд▓рд┐рдП рдЙрдЪреНрдЪ рдЖрд╡рд╢реНрдпрдХрддрд╛рдПрдВ;
- рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдЖрд╡рд╢реНрдпрдХ рдмрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рдбреЗрдЯрд╛;
- рдкреНрд░рдХрд╛рд╢рди рдЖрдорддреМрд░ рдкрд░ рдХреЗрд╡рд▓ рддрдерд╛рдХрдерд┐рдд рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рд╕рдорд╛рдзрд╛рдиреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд▓рд┐рдЦрддреЗ рд╣реИрдВ, рдЬрд┐рдирдореЗрдВ рдЙрдЪреНрдЪ рдЧреБрдгрд╡рддреНрддрд╛ рд╡рд╛рд▓реЗ рд╕рдВрдХреЗрддрдХ рд╣реЛрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдмрд┐рд▓реНрдХреБрд▓ рдЕрд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рд╣реИрдВред
рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рд╣рдо рдХреБрдЫ рдЧрд▓рдд рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рджреВрд░ рдХрд░реЗрдВрдЧреЗ рдФрд░ рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рдХреЗ рд▓рд┐рдП "рд╡рд┐рд▓рдХреНрд╖рдгрддрд╛" рдХреЗ рдмрд┐рдВрджреБ рдХреЛ рдереЛрдбрд╝рд╛ рд╕рдордЭрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реЗрдВрдЧреЗред рдЕрд░реНрдерд╛рддреН:
- , , NVIDIA GeForce 1080 Ti;
- Open STT 20 000 ;
- , STT .
3 тАФ , .
PyTorch, тАФ Deep Speech 2.
:
- GPU;
- . Python PyTorch , ;
- . ;
, PyTorch "" , , (, C++ JAVA).
Open STT
20 000 . (~90%), .
, , , тАЬтАЭ (. Google, Baidu, Facebook). , STT тАЬтАЭ тАЬтАЭ.
, , STT, :
.
Deep Speech 2 (2015) :
WER (word error rate, ) . : 9- 2 2D- 7 68 . , Deep Speech 2.
: , . , . STT LibriSpeech ASR (LibriSpeech) .
, Google, Facebook, Baidu 10 000 тАФ 100 000 . , , Facebook, , , , .
. 1 2 10 ( , , STT ).
, (LibriSpeech), , - . open-source , Google, . , , STT-. , , Common Voice, .
( ) тАФ . , STT, /, PyTorch TensorFlow. , , .
/ ( ), , :
- ( );
- (end-to-end , , ) ;
- ( тАФ 10GB- );
- LibriSpeech, , ;
- STT , , , , ;
- , PR, тАЬ тАЭ тАЬтАЭ. , , , , , ( , , , );
- - , , , , , ;
, FairSeq EspNet, , . , ?
LibriSpeech, 8 GPU US $10 000 .
тАФ . , .
, - "" Common Voice Mozilla.
ML: - (state-of-the-art, SOTA) , .
, , , , .
, c тАЬ тАЭ тАЬ, тАЭ .
, :
- - , (. Goodhart's Law);
- тАЬтАЭ , ( , );
- , ;
- , ;
- , 95% , . . тАЬ тАЭ (тАЬpublish or perishтАЭ), , , , ;
, , , , . , , , . , .
, ML :
, :
- -;
- semi-supervised unsupervised (wav2vec, STT-TTS) , , ;
- end-to-end (LibriSpeech), , 1000 ( LibriSpeech);
- MFCC . . , STFT. , - SincNet.
, , , . :
STT
STT :
тАФ "" . , ( ). , тАФ .
, , тАФ . тАФ . .
, AWS NVIDIA Tesla GPU, , 5-10 GPU.
:
, [ ] x [ ]. , , : 1) 2) ? , , ;
, .

, "L-"
тАФ . , , "". ;
. ) ; ) , ;
, , . , , Mobilenet/EfficientNet/FBNet ;
, ML : 1) : , , ; 2) Ceteris paribus: , , .. , ;
, , ( ) , . 10 20 , , , "" .
( ):

тАФ . тАФ . "" тАФ Wav2Letter. DeepSpeech , 2-3 . GPU тАФ , . , .
Deep Speech 2 Pytorch. LSTM GRU , . , . , , :
тДЦ1: .
тДЦ2: .
тДЦ3: Byte-Pair-Encoding .
. BPE , , WER ( ) . , : BPE . , BPE , .
.
тДЦ4: .
encoder-decoder. , , state-of-the-art .
, , GPU . , 500-1000 GPU , 3-4 CPU ( , ). , 2-4 , , .
тДЦ5: .
, , , 1080Ti , , , , 4 8 GPU ( GPU). , .
тДЦ6: .
, , тАФ . , , .
curriculum learning. , , .
тДЦ7. .
, тАФ . :
- Sequence-to-sequence ;
- Beam search тАФ AM.
beam search KenLM 25 CPU .
:
, ( ) , , . , , .
, :
- . тАФ . , ;
- (). . , ;
- . , , ;
- . , , ;
- . , , ;
- . , , ;
- YouTube. , , . тАФ ;
- (e-commerce). , ;
- "Yellow pages". . , , ;
- . - . , "" . , ;
- (). , , , .
:
- Tinkoff ( , );
- (, , , , );
- Yandex SpeechKit;
- Google;
- Kaldi 0.6 / Kaldi 0.7 ( ,
vosk-api
); - wit.ai;
- stt.ai;
- Azure;
- Speechmatics;
- Voisi;
тАФ Word error rate (WER).
. ("" -> "1-"), . , WER ~1 .
2019 2020 . , . WER ~1 . , , .
рд▓реЗрдЦ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдмрд╣реБрдд рдмрдбрд╝рд╛ рд╣реИред рдпрджрд┐ рдЖрдк рдкреНрд░рддреНрдпреЗрдХ рдбреЛрдореЗрди рдкрд░ рдЕрдзрд┐рдХ рд╡рд┐рд╕реНрддреГрдд рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рд╕рд┐рд╕реНрдЯрдо рдХреА рд╕реНрдерд┐рддрд┐ рдореЗрдВ рд░реБрдЪрд┐ рд░рдЦрддреЗ рд╣реИрдВ, рддреЛ рдЖрдкрдХреЛ рдпрд╣рд╛рдВ рд╕рд┐рд╕реНрдЯрдо рддреБрд▓рдирд╛ рдХрд╛ рдПрдХ рд╡рд┐рд╕реНрддрд╛рд░рд┐рдд рд╕рдВрд╕реНрдХрд░рдг рдорд┐рд▓реЗрдЧрд╛ , рдФрд░ рдпрд╣рд╛рдВ рддреБрд▓рдирд╛ рдкрджреНрдзрддрд┐ рдХрд╛ рд╡рд░реНрдгрди рд╣реЛрдЧрд╛ ред