🌗 🥊 🚤 Zeichnen Sie eine Rede: Software Automatic Mouth 🥗 🎤 ⁉️

Ich habe den letztjährigen Artikel "Wir zeichnen Ton" mit der Anerkennung abgeschlossen: "Ist es möglich, Ton von einem leeren Blatt zu zeichnen, ohne das Spektrogramm der Audioaufnahme zu verfolgen? Ehrlich gesagt war ich nicht erfolgreich. " Aber kürzlich habe ich von SAM erfahren - es wurde 1982 von Don't Ask Software veröffentlicht und war das erste kommerziell erfolgreiche PC-Sprachsyntheseprogramm. Mitte der 2000er Jahre nahmen die deutschen Demo-Gutachter Tobias Korbmacher und Sebastian Macke eine SAM-Assembler-Liste für Commodore 64 und wandelten sie in unlesbaren, aber funktionsfähigen C-Code um. dann in 2014 die versuchten britische Vidar Hokstad den C - Code in eine lesbare Form zu bringen - manuell den Variablen sinnvolle Namen geben und ersetzengotoauf Schleifen und Zweigen; und schließlich schrieb 2017 ein anderer deutscher Christian Schiffler Code von C nach JavaScript um. Sie können es in Aktion als "Black Box" auf discordier.imtqy.com/sam ausprobieren .

Meiner Meinung nach ist ein primitiver JavaScript-Sprachsynthesizer das bequemste experimentelle Modell für diejenigen, die verstehen möchten, wie die Sprachsynthese im Allgemeinen funktioniert. Meine SAM-Gabel mit im Wesentlichen bereinigtem Code und Kommentaren ist unter github.com/tyomitch/sam verfügbar . Leider ist es den früheren Autoren gelungen, das Interesse an SAM zu verringern, und jetzt sind sie nicht mehr in der Lage, Pull-Anfragen in einem Hobbyprojekt von vor vielen Jahren zu analysieren.

SAM besteht aus vier Funktionskomponenten:

Reciter übersetzt den englischen Text in ein Phonem Datensatz: beispielsweise „ein wenig zu niedrig“ (ein Beispiel aus dem Demo - Programm zu SAM befestigt ) wird zu „AH LIHTUL TUW5 LOW“.
Parser verwandelt eine phonemische Aufzeichnung in eine phonetische: aus "AH LIHTUL TUW5 LOW" stellt sich heraus " AH, ,L,IH,DX,AX,LX, ,T,*,*,UX,WX, ,L,OW,WX". Für jeden angezeigten Hintergrund legt Parser auch die Dauer und den Ton fest.
Der Renderer erstellt aus der phonetischen Aufzeichnung eine Reihe von Frequenzen, Amplituden und anderen akustischen Eigenschaften.
Die letzte anonyme Komponente (Funktion ProcessFrames) wandelt ein Array von Frequenzen und Amplituden in einen PCM-Stream für die Audioausgabe um.

In diesem Artikel werde ich nacheinander alle vier Komponenten analysieren.

Rezitator

Reciter wurde als separates Programm an SAM angehängt: Die Ersteller gaben an, dass die im Reciter festgelegten Ausspracheregeln von Reciter 469 etwa 90% der englischen Wörter korrekt transkribieren. Dies bedeutet, dass die Transkription jedes zehnten Wortes manuell bearbeitet werden muss, bevor es an die Eingabe der folgenden Komponenten gesendet wird.

SAM verwendet ein eigenes Transkriptionssystem , bei dem englische Phoneme durch separate Zeichen aus einem Satz [A-Z/]oder in Paaren von zwei solchen Zeichen angezeigt werden :

_Phonem	_Bezeichnung	_Phonem	_Bezeichnung	_Phonem	_Bezeichnung	_Phonem	_Bezeichnung
/ b /	`B`	/ p /	`P`	/ v /	`V`	/ f /	`F`
/ d /	`D`	/ t /	`T`	/ z /	`Z`	/ s /	`S`
/ dʒ /	`J`	/ tʃ /	`CH`	/ ʒ /	`ZH`	/ ʃ /	`SH`
/ g /	`G`	/ k /	`K`	/ h /	`/H`	/ ð /	`DH`
/ m /	`M`	/ n /	`N`	/ ŋ /	`NX`	/ θ /	`TH`
/ l /	`L`	/ r /	`R`	/ j /	`Y`	/ w /	`W`
/ æ /	`AE`	/ ɛ /	`EH`	/ ɪ /	`IH`	/ ich /	`IY`
/ ʌ /	`AH`	/ ɔ /	`AO`	/ ʊ /	`UH`	/ u /	`UX`
/ ɒ /	`OH`	/ ɑ /	`AA`	/ ə /	`AX`	/ ɜ /	`ER`
/ eɪ /	`EY`	/ aɪ /	`AY`	/ ɔɪ /	`OY`	/ aʊ /	`AW`
/ oʊ /	`OW`	[l̩]	`UL`	[m̩]	`UM`	[n̩]	`UN`

Zusätzlich zu den Phonemen werden in der SAM-Transkription die Zahlen 1–8 verwendet, um Stress und Ton zu bezeichnen : 1 bedeutet „sehr emotionalen“ Stress, 4 bedeutet normalen Stress, 6 bedeutet neutralen Ton, 8 bedeutet „extremer Abfall des Tons“.

Der Rezitator ist ganz einfach angeordnet: Kontextsensitive Regeln aus der Liste werden abwechselnd auf die Eingabezeile angewendet. Beispielsweise ersetzt die Regel " (IR)#=AYR" den Text "ir" vor dem Vokal durch / aɪr /; die Regel " .(S) =Z" ersetzt ⟨s⟩ zwischen dem stimmhaften Konsonanten und dem Leerzeichen (Wortende) durch / z /; Die Regel " (U)^^=AH5" ersetzt ⟨u⟩ vor zwei Konsonanten hintereinander durch / ʌ / und betont die Silbe. Es ist wichtig zu beachten, dass Reciter in vielen Worten keinen Vokal hervorhebt und in einigen Worten mehrere Vokale gleichzeitig notiert: zum Beispiel:das Wort "provozieren" wird zu "PRUW4VOW5KIHNX", dh / ˈpruˈvoʊkɪŋ /. Ein aufmerksamer Leser wird feststellen, dass unnötiger Stress nicht der einzige Fehler in dieser Transkription ist.

Ich entschied, dass die Transkription der am wenigsten interessante Teil des Sprachsynthesizers ist, und entschied mich angesichts der relativ geringen Qualität der Transkription am Reciter-Ausgang Es gibt mehrere frei verfügbare Internetdienste zum Transkribieren von Auszügen englischer Texte. Anstelle heuristischer Regeln verwenden diese Dienste ziemlich große Wörterbücher. Nach meiner Erfahrung ist die Transkription von bester Qualität für tophonetics.com und photransedit.com;; Gleichzeitig weist die zweite eine Reihe von Nachteilen auf: Sie verwendet nicht ganz die Standard-Phonemnotation, merkt Stress selbst in einsilbigen Wörtern an und ist am unpraktischsten - sie ist in ASP.NET geschrieben und erfordert korrekte Werte in POST-Anforderungen __VIEWSTATEund __EVENTVALIDATIONerschwert die Verwendung durch Dritte Websites. Daher habe ich bei meiner Demonstration des Geräts und der Arbeit von SAM, die auf tyomitch.imtqy.com verfügbar ist , die Transliteration über https://cors-anywhere.herokuapp.com/https://tophonetics.com/ verwendet.

Parser

Im Gegensatz zu Reciter, das von den Entwicklern von SAM so genannt wurde, wurden die Parser- und Renderer-Komponenten von deutschen Reverse Engineers benannt, sodass diese Namen den Zweck dieser Komponenten nicht ganz genau widerspiegeln.

Parser hat drei Hauptaufgaben:

«» (, ) . ( ) «-» UL, UM, UN, [l̩, m̩, n̩]. , /əl, əm, ən/; Parser , AXL, AXM, AXN .
, .. . «AH LIHTUL TUW LOW» , /t/ [ɾ] (DX) [t] (T,*,*) . ( .) , /l/ [ɫ] (LX) , [l] (L) .
.

SAM unterstützt 81 Hintergründe, von denen 61 Namen haben und in Phonemaufnahmen verwendet werden können, um Parser zu „überlisten“ und sofort den gewünschten Sound einzustellen. Die restlichen 20 Hintergründe sind namenlos. 18 von ihnen können nur als Ergebnis der Arbeit von Parser erscheinen, und Hintergründe mit den Codes 46 und 47 können in keiner Weise erscheinen und wurden wahrscheinlich durch ein Versehen der SAM-Entwickler unbestimmt.

Hintergründe mit den Codes 0-4 ( .?,-) entsprechen der Stille; Der Rest ist in der folgenden Tabelle zusammengefasst:

Der Code	Bezeichnung	Klang	Der Code	Bezeichnung	Klang
5	`IY`	[ich]	42	`CH`	[t] in der Zusammensetzung / tʃ /
6	`IH`	[ɪ]	43	`*`	[ʃ] als Teil von / tʃ /
7	`EH`	[ɛ]	44	`J`	[d] in der Zusammensetzung / dʒ /
8	`AE`	[æ]	45	`*`	[ʒ] von / dʒ /
9	`AA`	[ɑ]	48	`EY`	~ [ɜ] in / eɪ /
10	`AH`	[ʌ]	49	`AY`	~ [ɑ] in / aɪ /
elf	`AO`	[ɔ]	fünfzig	`OY`	[ɔ] von / ɔɪ /
12	`UH`	[ʊ]	51	`AW`	[ɑ] in / aʊ /
dreizehn	`AX`	[ə]	52	`OW`	[ɔ] als Teil von / oʊ /
14	`IX`	kürzer [ɪ]	53	`UW`	~ [u]
fünfzehn	`ER`	[ɜ]	54	`B`	[b]
Sechszehn	`UX`	[u]	55	`*`
17	`OH`	[Ö]	56	`*`
achtzehn	`RX`	[ɹ]	57	`D`	[d]
neunzehn	`LX`	[ɫ]	58	`*`
zwanzig	`WX`	kurz [ʊ] in Diphthongs	59	`*`
21	`YX`	kurz [ɪ] in Diphthongs	60	`G`	[G]
22	`WH`	länger [w]	61	`*`
23	`R`	[ɹ̠]	62	`*`
24	`L`	[l]	63	`GX`	[G]
25	`W`	[w]	64	`*`
26	`Y`	[j]	65	`*`
27	`M`	[m]	66	`P`	[p]
28	`N`	[n]	67	`*`
29	`NX`	[ŋ]	68	`*`
dreißig	`DX`	[ɾ]	69	`T`	[t]
31	`Q`	[ʔ]	70	`*`
32	`S`	[s]	71	`*`
33	`SH`	[ʃ]	72	`K`	[kʲ]
34	`F`	[f]	73	`*`
35	`TH`	[θ]	74	`*`
36	`/H`	[ç]	75	`KX`	[k]
37	`/X`	[h]	76	`*`
38	`Z`	[z]	77	`*`
39	`ZH`	[ʒ]	78	`UL`	[l̩]
40	`V`	[v]	79	`UM`	[m̩]
41	`DH`	[ð]	80	`UN`	[n̩]

Die von Parser ausgeführten Aktionen bestehen aus sieben Schritten:

Parsing selbst: In der Eingabezeile werden eine Liste von Hintergrundcodes und eine parallele Liste von Tönen gebildet, die durch Zahlen in der Eingabezeile angegeben werden.
Anwenden eines Satzes von zwei Dutzend Regeln auf die Liste der Hintergründe: zum Beispiel die Substitutionen / t / + / r / → [tʃ] + [ɹ̠] und / k / + / Nicht-Front-Vokal / → [k] + [Vokal]. (/ k / vor den vorderen Vokalen bleiben unverändert und stimmen mit dem Hintergrund überein [kʲ].)
CopyStress: Der für betonte Vokale eingestellte Ton erstreckt sich auf die Konsonanten, die ihnen vorangehen.
SetPhonemeLength: Die Dauer wird für jeden Hintergrund ersetzt (in bedingten "Frames"). Es werden zwei Hintergrundlängengradtabellen verwendet - eine für betonte Silben und eine für nicht betonte.
AdjustLengths: Wendet einen Satz von sieben Regeln zum Anpassen der Hintergrunddauer an. Beispielsweise werden Vokale vor stimmhaften Konsonanten eineinhalb Mal verlängert und aufeinanderfolgende explosive Konsonanten halbiert.
ProlongPlosiveStopConsonants: Explosive Konsonanten vor Vokalen, glatte und frikative Konsonanten werden in drei Hintergründe unterteilt. Der erste Hintergrund in den drei entspricht einer geringeren Schallintensität, der zweite der vollen Intensität, der dritte der Stille.
InsertBreath: Die Phrase wird durch "stille" Hintergründe ( .?,-) bis zu 232 Frames (dies sind ungefähr 2½ Sekunden) in "Ausatmen" unterteilt . In einer SAM-Implementierung für Retro-PCs war eine solche Partition erforderlich, um Speicherplatz zu sparen. In der JavaScript-Version macht es keinen Sinn, und in meiner Gabel wird es gelöscht.

Der Parser gibt drei parallele Listen aus: Hintergrundcodes, ihre Töne und ihre Dauer.

Renderer

Diese Komponente ist für die Sprachsynthese im engeren Sinne des Wortes verantwortlich. Am Eingang erhält es eine Liste von Hintergründen mit bestimmten Tönen und Dauern sowie Parametern, die sich auf die synthetisierte Stimme auswirken. Am Ausgang werden acht parallele Listen erstellt: die Frequenzen der Formanten F ₁ –F ₃ , ihre Intensitäten (Amplituden), die Hauptfrequenz F ₀ (Tonfall) und die Werte sampledConsonant, die nachstehend ausführlicher beschrieben werden.

Unter Bezugnahme auf den SAM-Befehl werden die folgenden Beispiele für Sprachparameterwerte bereitgestellt :

Abstimmung	Geschwindigkeit	Tonhöhe	Kehle	Mund
Elf	72	64	110	160
Kleiner Roboter	92	60	190	190
Stuffy Kerl	82	72	110	105
Kleine alte Frau	82	32	145	145
Außerirdisch	100	64	150	200
SAM	72	64	128	128
Dalek	120	100	100	200

Es ist anzumerken, dass der Geschwindigkeitsparameter nicht in Renderer verwendet wird, sondern bereits in der Phase der Audioerzeugung: Die Dauer des für ein Bild erzeugten Tons hängt von diesem Parameter ab. Zusätzlich zum Parameter Geschwindigkeit hängt die Bilddauer auch von der Art des Tons ab, wie nachstehend erläutert wird.

Die Formant-Sprachsynthese basiert auf der Tatsache, dass jeder Hintergrund den Frequenzen und Amplituden der ersten Formanten zugeordnet ist. Für die Synthese von Vokalen ist die Verwendung von zwei Formanten ausreichend - beispielsweise eine Tabelle mit Formantenhäufigkeiten, die für englische Vokale typisch ist und von der Website der Universität von Manitoba stammt :

Zur Synthese von Konsonanten werden zusätzliche Formanten benötigt. Darüber hinaus sind verrauschte Konsonanten , wie ich im letztjährigen Artikel erwähnt habe , durch "Bursts" in einem breiten Frequenzband gekennzeichnet:

Diese "Bursts" können nicht durch reine Formantensynthese erhalten werden, daher reproduziert SAM die Geräusche von verrauschten Konsonanten aus der Probentabelle. Die oben genannten Werte sampledConsonantwählen den Teil der Tabelle aus, der dem jeweiligen verrauschten Konsonanten entspricht.

Die vom Renderer ausgeführten Aktionen bestehen aus fünf Schritten:

SetMouthThroat: Für Vokale und Sonor-Hintergründe (Codes 5–29 und 48–53) werden die tabellarischen Werte der Frequenzen F ₁ und F ₂ mit den Parametern Mund bzw. Hals multipliziert.
CreateFrames: . , (1–8) Pitch (1 → −32, 6 → 0, 8 → +12). , ( 30 ) , .
CreateTransitions: F₀–F₃ F₁–F₃ . , , .
F₀ F₁, «pitch contour», .
, () , PCM.

Aus physikalischer Sicht ist Sprache eine Stimmritzenfolge, die von den Stimmbändern erzeugt wird (siehe Abb.), Die auf dem Weg nach draußen durch Mund und Nase ( Sprachpfad ) verläuft, und solche wie der Resonator verstärken bestimmte Harmonische in der Kehlkopfwelle. Die Frequenz der Kehlkopfwelle - dies ist die Hauptfrequenz der Stimme F ₀ . In der Regel liegen die Werte zwischen 100 und 400 Hz: niedriger für Männer, höher für Frauen, noch höher für Kinder. Das bei der Formantensynthese verwendete Sprachmodell besteht darin, dass mehrere Bandpassfilter auf die Kehlkopfwelle angewendet werden, von denen jedes einen Formanten unterscheidet. Die Breite des zugewiesenen Bandes hängt von der Frequenz des Formanten ab und beträgt nach experimentellen Daten bis zu 200 Hz: In meiner SAM-Demonstration auf tyomitch.imtqy.com

Dieser Ansatz wird verwendet: Mit dem Standardwert des Parameters Bandbreite = 3 führt jeder Formante innerhalb von ± 5,9% der Formantenfrequenz Harmonische F ₀ in das resultierende Audiosignal ein . Dies entspricht in etwa den obigen Grafiken: Der Formante mit einer Frequenz von 3 kHz weist eine Bandbreite von 177 Hz zu. In der klassischen SAM-Implementierung wurde die Erzeugung der erforderlichen Anzahl von Harmonischen erfinderischer angegangen: Für jeden Formanten wird eine Welle erzeugt, aber die Phase dieser Welle wird mit einer Frequenz F _{0 auf} Null gesetzt . In meiner Demo können Sie in einen Modus wechseln, der eine Welle für jeden Formanten synthetisiert (ohne jedoch die Phase auf Null zu setzen), indem Sie den Parameter Pitch deaktivieren.

Die Funktion ProcessFramesim klassischen SAM verarbeitet gehörlose und stimmhafte verrauschte Konsonanten getrennt von allen anderen Hintergründen:

. , Speed. ([s]) 105 , ([p] [t]) — 10.4 .
$\frac{Speed\cdot162}{50}$ PCM-, : () F₁ F₂, ( ) F₃. , Speed=72 10.6 .
, , $\frac34\cdot\frac{Speed\cdot162}{50}$ PCM-, . , Speed . , Pitch=64, 1.6 , .. 9.5 .

Für verrauschte Konsonanten werden fünf Probentabellen verwendet: eine für den Alveolar ([t, s, z]), eine für den Kammeralveolar ([ʃ, ʒ]), eine für den labialen und zahnmedizinischen ([p, f, v, θ, ð ]) und eine für [ç] und [h]. Proben, die sich auf dieselbe Tabelle beziehen, unterscheiden sich nur in Dauer und Intensität voneinander.

In meiner Demo wird der Einfachheit halber für alle Frames ein Sound von gleicher Dauer generiert, und diese Dauer hängt nur vom Parameter Speed ab: Mit seinem Standardwert entspricht ein Frame 10,4 ms Sound. Wie Experimente zeigen, entspricht dies "im Durchschnitt" dem klassischen SAM, obwohl sich in Bezug darauf einzelne Klänge in der synthetisierten Phrase für Einheiten von ms vorwärts oder rückwärts "bewegen" können.

Abschließend werde ich drei Spektrogramme der Begrüßungsphrase zeigen, die vom klassischen SAM-Audiogenerator und meinem Audiogenerator bei ein- und ausgeschalteter Tonsynthese erstellt wurden:

Wie Sie sehen, wird durch Ausschalten der Tonsynthese ein Kompromiss zwischen der Klangqualität und der Sichtbarkeit der Formanten auf dem Spektrogramm erzielt.

Zeichnen Sie eine Rede: Software Automatic Mouth

Rezitator

Parser

Renderer

More articles: