
Die automatische Spracherkennung (STT oder ASR) hat einen langen Weg zur Verbesserung zurĂŒckgelegt und eine ziemlich lange Geschichte. Die gĂ€ngige Meinung ist, dass nur groĂe Unternehmen in der Lage sind, mehr oder weniger funktionierende "allgemeine" Lösungen zu erstellen, die unabhĂ€ngig von der Datenquelle (verschiedene Stimmen, Akzente, DomĂ€nen) vernĂŒnftige QualitĂ€tsmetriken anzeigen. Hier sind einige HauptgrĂŒnde fĂŒr dieses MissverstĂ€ndnis:
- Hohe Anforderungen an die Rechenleistung;
- Eine groĂe Datenmenge, die fĂŒr das Training benötigt wird;
- Veröffentlichungen schreiben in der Regel nur ĂŒber die sogenannten State-of-the-Art-Lösungen, die qualitativ hochwertige Indikatoren aufweisen, aber absolut unpraktisch sind.
In diesem Artikel werden wir einige MissverstĂ€ndnisse zerstreuen und versuchen, den Punkt der "SingularitĂ€t" fĂŒr die Spracherkennung leicht anzunĂ€hern. NĂ€mlich:
- , , NVIDIA GeForce 1080 Ti;
- Open STT 20 000 ;
- , STT .
3 â , .
PyTorch, â Deep Speech 2.
:
- GPU;
- . Python PyTorch , ;
- . ;
, PyTorch "" , , (, C++ JAVA).
Open STT
20 000 . (~90%), .
, , , ââ (. Google, Baidu, Facebook). , STT ââ ââ.
, , STT, :
.
Deep Speech 2 (2015) :
WER (word error rate, ) . : 9- 2 2D- 7 68 . , Deep Speech 2.
: , . , . STT LibriSpeech ASR (LibriSpeech) .
, Google, Facebook, Baidu 10 000 â 100 000 . , , Facebook, , , , .
. 1 2 10 ( , , STT ).
, (LibriSpeech), , - . open-source , Google, . , , STT-. , , Common Voice, .
( ) â . , STT, /, PyTorch TensorFlow. , , .
/ ( ), , :
- ( );
- (end-to-end , , ) ;
- ( â 10GB- );
- LibriSpeech, , ;
- STT , , , , ;
- , PR, â â ââ. , , , , , ( , , , );
- - , , , , , ;
, FairSeq EspNet, , . , ?
LibriSpeech, 8 GPU US $10 000 .
â . , .
, - "" Common Voice Mozilla.
ML: - (state-of-the-art, SOTA) , .
, , , , .
, c â â â, â .
, :
- - , (. Goodhart's Law);
- ââ , ( , );
- , ;
- , ;
- , 95% , . . â â (âpublish or perishâ), , , , ;
, , , , . , , , . , .
, ML :
, :
- -;
- semi-supervised unsupervised (wav2vec, STT-TTS) , , ;
- end-to-end (LibriSpeech), , 1000 ( LibriSpeech);
- MFCC . . , STFT. , - SincNet.
, , , . :
STT
STT :
â "" . , ( ). , â .
, , â . â . .
, AWS NVIDIA Tesla GPU, , 5-10 GPU.
:
, [ ] x [ ]. , , : 1) 2) ? , , ;
, .

, "L-"
â . , , "". ;
. ) ; ) , ;
, , . , , Mobilenet/EfficientNet/FBNet ;
, ML : 1) : , , ; 2) Ceteris paribus: , , .. , ;
, , ( ) , . 10 20 , , , "" .
( ):

â . â . "" â Wav2Letter. DeepSpeech , 2-3 . GPU â , . , .
Deep Speech 2 Pytorch. LSTM GRU , . , . , , :
â1: .
â2: .
â3: Byte-Pair-Encoding .
. BPE , , WER ( ) . , : BPE . , BPE , .
.
â4: .
encoder-decoder. , , state-of-the-art .
, , GPU . , 500-1000 GPU , 3-4 CPU ( , ). , 2-4 , , .
â5: .
, , , 1080Ti , , , , 4 8 GPU ( GPU). , .
â6: .
, , â . , , .
curriculum learning. , , .
â7. .
, â . :
- Sequence-to-sequence ;
- Beam search â AM.
beam search KenLM 25 CPU .
:
, ( ) , , . , , .
, :
- . â . , ;
- (). . , ;
- . , , ;
- . , , ;
- . , , ;
- . , , ;
- YouTube. , , . â ;
- (e-commerce). , ;
- "Yellow pages". . , , ;
- . - . , "" . , ;
- (). , , , .
:
- Tinkoff ( , );
- (, , , , );
- Yandex SpeechKit;
- Google;
- Kaldi 0.6 / Kaldi 0.7 ( ,
vosk-api
); - wit.ai;
- stt.ai;
- Azure;
- Speechmatics;
- Voisi;
â Word error rate (WER).
. ("" -> "1-"), . , WER ~1 .
2019 2020 . , . WER ~1 . , , .
Der Artikel ist schon ziemlich groĂ. Wenn Sie in einer detaillierteren Methodik und die Positionen der einzelnen Systeme auf jeder Domain interessiert sind, dann werden Sie eine erweiterte Version von Systemvergleich finden hier , und eine Beschreibung der Vergleichsmethode hier .