рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рдХреЗ рд▓рд┐рдП рдмрд╛рдзрд╛рдУрдВ рдХреЛ рдХрдо рдХрд░рдирд╛

рдЫрд╡рд┐


рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ (рдПрд╕рдЯреАрдЯреА рдпрд╛ рдПрдПрд╕рдЖрд░) рдиреЗ рд╕реБрдзрд╛рд░ рдореЗрдВ рдПрдХ рд▓рдВрдмрд╛ рд╕рдлрд░ рддрдп рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдЗрд╕рдХрд╛ рд╡реНрдпрд╛рдкрдХ рдЗрддрд┐рд╣рд╛рд╕ рд╣реИред рдкрд╛рд░рдВрдкрд░рд┐рдХ рдЬреНрдЮрд╛рди рдпрд╣ рд╣реИ рдХрд┐ рдХреЗрд╡рд▓ рд╡рд┐рд╢рд╛рд▓ рдирд┐рдЧрдо рдХрдо рдпрд╛ рдЬреНрдпрд╛рджрд╛ "рд╕рд╛рдорд╛рдиреНрдп" рд╕рдорд╛рдзрд╛рди рдмрдирд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реИрдВ, рдЬреЛ рдбреЗрдЯрд╛ рд╕реНрд░реЛрдд (рд╡рд┐рднрд┐рдиреНрди рдЖрд╡рд╛рдЬрд╝реЗрдВ, рд▓рд╣рдЬреЗ, рдбреЛрдореЗрди) рдХреА рдкрд░рд╡рд╛рд╣ рдХрд┐рдП рдмрд┐рдирд╛ рд╕рдордЭрджрд╛рд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рджрд┐рдЦрд╛рдПрдЧрд╛ред рдЗрд╕ рдЧрд▓рдд рдзрд╛рд░рдгрд╛ рдХреЗ рдХреБрдЫ рдореБрдЦреНрдп рдХрд╛рд░рдг рдЗрд╕ рдкреНрд░рдХрд╛рд░ рд╣реИрдВ:


  • рдХрдВрдкреНрдпреВрдЯрд┐рдВрдЧ рд╢рдХреНрддрд┐ рдХреЗ рд▓рд┐рдП рдЙрдЪреНрдЪ рдЖрд╡рд╢реНрдпрдХрддрд╛рдПрдВ;
  • рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдЖрд╡рд╢реНрдпрдХ рдмрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рдбреЗрдЯрд╛;
  • рдкреНрд░рдХрд╛рд╢рди рдЖрдорддреМрд░ рдкрд░ рдХреЗрд╡рд▓ рддрдерд╛рдХрдерд┐рдд рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рд╕рдорд╛рдзрд╛рдиреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд▓рд┐рдЦрддреЗ рд╣реИрдВ, рдЬрд┐рдирдореЗрдВ рдЙрдЪреНрдЪ рдЧреБрдгрд╡рддреНрддрд╛ рд╡рд╛рд▓реЗ рд╕рдВрдХреЗрддрдХ рд╣реЛрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдмрд┐рд▓реНрдХреБрд▓ рдЕрд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рд╣реИрдВред

рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рд╣рдо рдХреБрдЫ рдЧрд▓рдд рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рджреВрд░ рдХрд░реЗрдВрдЧреЗ рдФрд░ рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рдХреЗ рд▓рд┐рдП "рд╡рд┐рд▓рдХреНрд╖рдгрддрд╛" рдХреЗ рдмрд┐рдВрджреБ рдХреЛ рдереЛрдбрд╝рд╛ рд╕рдордЭрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реЗрдВрдЧреЗред рдЕрд░реНрдерд╛рддреН:


  • , , NVIDIA GeForce 1080 Ti;
  • Open STT 20 000 ;
  • , STT .

3 тАФ , .





PyTorch, тАФ Deep Speech 2.


:


  • GPU;
  • . Python PyTorch , ;
  • . ;

, PyTorch "" , , (, C++ JAVA).


Open STT


20 000 . (~90%), .



, , , тАЬтАЭ (. Google, Baidu, Facebook). , STT тАЬтАЭ тАЬтАЭ.


, , STT, :


  • , ;
  • ;
  • ;
  • .

.


,


Deep Speech 2 (2015) :


, %,WER, %WER, %
112029,2350,97
10120013,8022,99
20240011,6520,41
5060009,5115,90
100120008,4613,59

WER (word error rate, ) . : 9- 2 2D- 7 68 . , Deep Speech 2.

: , . , . STT LibriSpeech ASR (LibriSpeech) .


, Google, Facebook, Baidu 10 000 тАФ 100 000 . , , Facebook, , , , .


. 1 2 10 ( , , STT ).


, (LibriSpeech), , - . open-source , Google, . , , STT-. , , Common Voice, .



/
Wav2Letter++25621C++
FairSeq956111PyTorch
OpenNMT2 401138PyTorch
EspNet5 44151PyTorch
ML300-5001 тАФ 10PyTorch

( ) тАФ . , STT, /, PyTorch TensorFlow. , , .


/ ( ), , :


  • ( );
  • (end-to-end , , ) ;
  • ( тАФ 10GB- );
  • LibriSpeech, , ;
  • STT , , , , ;
  • , PR, тАЬ тАЭ тАЬтАЭ. , , , , , ( , , , );
  • - , , , , , ;

, FairSeq EspNet, , . , ?



LibriSpeech, 8 GPU US $10 000 .


тАФ . , .


, - "" Common Voice Mozilla.



ML: - (state-of-the-art, SOTA) , .


, , , , .


, c тАЬ тАЭ тАЬ, тАЭ .



, :


  • - , (. Goodhart's Law);
  • тАЬтАЭ , ( , );
  • , ;
  • , ;
  • , 95% , . . тАЬ тАЭ (тАЬpublish or perishтАЭ), , , , ;
  • , , , , . , , , . , .


    , ML :


    • / / ;
    • ;
    • .



, :


  • -;
  • semi-supervised unsupervised (wav2vec, STT-TTS) , , ;
  • end-to-end (LibriSpeech), , 1000 ( LibriSpeech);
  • MFCC . . , STFT. , - SincNet.


, , , . :


  • , ;
  • open-source ( , ).

STT


STT :


  • ;
  • ;
  • ;
  • , 2-4 1080Ti.


тАФ "" . , ( ). , тАФ .


, , тАФ . тАФ . .


, AWS NVIDIA Tesla GPU, , 5-10 GPU.

:


  • , [ ] x [ ]. , , : 1) 2) ? , , ;


    , .


    l_curve


    , "L-"

  • тАФ . , , "". ;


  • . ) ; ) , ;


  • , , . , , Mobilenet/EfficientNet/FBNet ;


  • , ML : 1) : , , ; 2) Ceteris paribus: , , .. , ;


  • , , ( ) , . 10 20 , , , "" .



( ):




рдореЙрдбрд▓


тАФ . тАФ . "" тАФ Wav2Letter. DeepSpeech , 2-3 . GPU тАФ , . , .

Deep Speech 2 Pytorch. LSTM GRU , . , . , , :


  • ~3-5 ;
  • 5-10 ;
  • 1080Ti .

тДЦ1: .


( ) .


тДЦ2: .


, тАФ . , : , separable convolutions.


, , . , . , 3-4 , 3-4 .


тДЦ3: Byte-Pair-Encoding .


. BPE , , WER ( ) . , : BPE . , BPE , .
.


тДЦ4: .


encoder-decoder. , , state-of-the-art .


, , GPU . , 500-1000 GPU , 3-4 CPU ( , ). , 2-4 , , .


тДЦ5: .


, , , 1080Ti , , , , 4 8 GPU ( GPU). , .


тДЦ6: .


, , тАФ . , , .


curriculum learning. , , .


тДЦ7. .


, тАФ . :


  • Sequence-to-sequence ;
  • Beam search тАФ AM.

beam search KenLM 25 CPU .



:


  • , ;
  • . ;
  • / . "" ;
  • .

, ( ) , , . , , .



, :


  • . тАФ . , ;
  • (). . , ;
  • . , , ;
  • . , , ;
  • . , , ;
  • . , , ;
  • YouTube. , , . тАФ ;
  • (e-commerce). , ;
  • "Yellow pages". . , , ;
  • . - . , "" . , ;
  • (). , , , .


:


  • Tinkoff ( , );
  • (, , , , );
  • Yandex SpeechKit;
  • Google;
  • Kaldi 0.6 / Kaldi 0.7 ( , vosk-api);
  • wit.ai;
  • stt.ai;
  • Azure;
  • Speechmatics;
  • Voisi;

тАФ Word error rate (WER).


. ("" -> "1-"), . , WER ~1 .


2019 2020 . , . WER ~1 . , , .

WERWERWER
21410%3%29%
()01713%13%86%
01615%15%60%
01618%18%70%
рдХреЛрд░реНрдЯ рдХреА рд╕реБрдирд╡рд╛рдИ0721%21%53%
рдСрдбрд┐рдпреЛ рдкреБрд╕реНрддрдХреЗрдВ41427%22%70%
рдпреВрдЯреНрдпреВрдм11731%рддреАрд╕%73%
рдХреЙрд▓ (рдИ-рдХреЙрдорд░реНрд╕)2рддреЗрд░рд╣32%29%76%
рдкреАрдд рдкреГрд╖реНрда1633%31%72%
рдЪрд┐рдХрд┐рддреНрд╕рд╛ рд╢рд░реНрддреЗрдВ1640%39%72%
рдХреЙрд▓ (рд╢рд░рд╛рд░рдд)31441%38%85%

рд▓реЗрдЦ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдмрд╣реБрдд рдмрдбрд╝рд╛ рд╣реИред рдпрджрд┐ рдЖрдк рдкреНрд░рддреНрдпреЗрдХ рдбреЛрдореЗрди рдкрд░ рдЕрдзрд┐рдХ рд╡рд┐рд╕реНрддреГрдд рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рд╕рд┐рд╕реНрдЯрдо рдХреА рд╕реНрдерд┐рддрд┐ рдореЗрдВ рд░реБрдЪрд┐ рд░рдЦрддреЗ рд╣реИрдВ, рддреЛ рдЖрдкрдХреЛ рдпрд╣рд╛рдВ рд╕рд┐рд╕реНрдЯрдо рддреБрд▓рдирд╛ рдХрд╛ рдПрдХ рд╡рд┐рд╕реНрддрд╛рд░рд┐рдд рд╕рдВрд╕реНрдХрд░рдг рдорд┐рд▓реЗрдЧрд╛ , рдФрд░ рдпрд╣рд╛рдВ рддреБрд▓рдирд╛ рдкрджреНрдзрддрд┐ рдХрд╛ рд╡рд░реНрдгрди рд╣реЛрдЧрд╛ ред


All Articles