Abbau der Hindernisse fĂŒr die Spracherkennung

Bild


Die automatische Spracherkennung (STT oder ASR) hat einen langen Weg zur Verbesserung zurĂŒckgelegt und eine ziemlich lange Geschichte. Die gĂ€ngige Meinung ist, dass nur große Unternehmen in der Lage sind, mehr oder weniger funktionierende "allgemeine" Lösungen zu erstellen, die unabhĂ€ngig von der Datenquelle (verschiedene Stimmen, Akzente, DomĂ€nen) vernĂŒnftige QualitĂ€tsmetriken anzeigen. Hier sind einige HauptgrĂŒnde fĂŒr dieses MissverstĂ€ndnis:


  • Hohe Anforderungen an die Rechenleistung;
  • Eine große Datenmenge, die fĂŒr das Training benötigt wird;
  • Veröffentlichungen schreiben in der Regel nur ĂŒber die sogenannten State-of-the-Art-Lösungen, die qualitativ hochwertige Indikatoren aufweisen, aber absolut unpraktisch sind.

In diesem Artikel werden wir einige MissverstĂ€ndnisse zerstreuen und versuchen, den Punkt der "SingularitĂ€t" fĂŒr die Spracherkennung leicht anzunĂ€hern. NĂ€mlich:


  • , , NVIDIA GeForce 1080 Ti;
  • Open STT 20 000 ;
  • , STT .

3 — , .





PyTorch, — Deep Speech 2.


:


  • GPU;
  • . Python PyTorch , ;
  • . ;

, PyTorch "" , , (, C++ JAVA).


Open STT


20 000 . (~90%), .



, , , “” (. Google, Baidu, Facebook). , STT “” “”.


, , STT, :


  • , ;
  • ;
  • ;
  • .

.


,


Deep Speech 2 (2015) :


, %,WER, %WER, %
112029,2350,97
10120013,8022,99
20240011,6520,41
5060009,5115,90
100120008,4613,59

WER (word error rate, ) . : 9- 2 2D- 7 68 . , Deep Speech 2.

: , . , . STT LibriSpeech ASR (LibriSpeech) .


, Google, Facebook, Baidu 10 000 — 100 000 . , , Facebook, , , , .


. 1 2 10 ( , , STT ).


, (LibriSpeech), , - . open-source , Google, . , , STT-. , , Common Voice, .



/
Wav2Letter++25621C++
FairSeq956111PyTorch
OpenNMT2 401138PyTorch
EspNet5 44151PyTorch
ML300-5001 — 10PyTorch

( ) — . , STT, /, PyTorch TensorFlow. , , .


/ ( ), , :


  • ( );
  • (end-to-end , , ) ;
  • ( — 10GB- );
  • LibriSpeech, , ;
  • STT , , , , ;
  • , PR, “ ” “”. , , , , , ( , , , );
  • - , , , , , ;

, FairSeq EspNet, , . , ?



LibriSpeech, 8 GPU US $10 000 .


— . , .


, - "" Common Voice Mozilla.



ML: - (state-of-the-art, SOTA) , .


, , , , .


, c “ ” “, ” .



, :


  • - , (. Goodhart's Law);
  • “” , ( , );
  • , ;
  • , ;
  • , 95% , . . “ ” (“publish or perish”), , , , ;
  • , , , , . , , , . , .


    , ML :


    • / / ;
    • ;
    • .



, :


  • -;
  • semi-supervised unsupervised (wav2vec, STT-TTS) , , ;
  • end-to-end (LibriSpeech), , 1000 ( LibriSpeech);
  • MFCC . . , STFT. , - SincNet.


, , , . :


  • , ;
  • open-source ( , ).

STT


STT :


  • ;
  • ;
  • ;
  • , 2-4 1080Ti.


— "" . , ( ). , — .


, , — . — . .


, AWS NVIDIA Tesla GPU, , 5-10 GPU.

:


  • , [ ] x [ ]. , , : 1) 2) ? , , ;


    , .


    l_kurve


    , "L-"

  • — . , , "". ;


  • . ) ; ) , ;


  • , , . , , Mobilenet/EfficientNet/FBNet ;


  • , ML : 1) : , , ; 2) Ceteris paribus: , , .. , ;


  • , , ( ) , . 10 20 , , , "" .



( ):




Modelle


— . — . "" — Wav2Letter. DeepSpeech , 2-3 . GPU — , . , .

Deep Speech 2 Pytorch. LSTM GRU , . , . , , :


  • ~3-5 ;
  • 5-10 ;
  • 1080Ti .

№1: .


( ) .


№2: .


, — . , : , separable convolutions.


, , . , . , 3-4 , 3-4 .


№3: Byte-Pair-Encoding .


. BPE , , WER ( ) . , : BPE . , BPE , .
.


№4: .


encoder-decoder. , , state-of-the-art .


, , GPU . , 500-1000 GPU , 3-4 CPU ( , ). , 2-4 , , .


№5: .


, , , 1080Ti , , , , 4 8 GPU ( GPU). , .


№6: .


, , — . , , .


curriculum learning. , , .


№7. .


, — . :


  • Sequence-to-sequence ;
  • Beam search — AM.

beam search KenLM 25 CPU .



:


  • , ;
  • . ;
  • / . "" ;
  • .

, ( ) , , . , , .



, :


  • . — . , ;
  • (). . , ;
  • . , , ;
  • . , , ;
  • . , , ;
  • . , , ;
  • YouTube. , , . — ;
  • (e-commerce). , ;
  • "Yellow pages". . , , ;
  • . - . , "" . , ;
  • (). , , , .


:


  • Tinkoff ( , );
  • (, , , , );
  • Yandex SpeechKit;
  • Google;
  • Kaldi 0.6 / Kaldi 0.7 ( , vosk-api);
  • wit.ai;
  • stt.ai;
  • Azure;
  • Speechmatics;
  • Voisi;

— Word error rate (WER).


. ("" -> "1-"), . , WER ~1 .


2019 2020 . , . WER ~1 . , , .

WERWERWER
21410%3%29%
()01713%13%86%
01615%15%60%
01618%18%70%
Gerichtsverhandlungen0721%21%53%
HörbĂŒcher41427%22%70%
Youtube11731%dreißig%73%
Anrufe (E-Commerce)2dreizehn32%29%76%
Gelbe Seiten1633%31%72%
Medizinische Begriffe1640%39%72%
Anrufe (Streiche)31441%38%85%

Der Artikel ist schon ziemlich groß. Wenn Sie in einer detaillierteren Methodik und die Positionen der einzelnen Systeme auf jeder Domain interessiert sind, dann werden Sie eine erweiterte Version von Systemvergleich finden hier , und eine Beschreibung der Vergleichsmethode hier .


All Articles