Detail práce

Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic

Disertační práce Student: Baskar Murali Karthick Akademický rok: 2023/2024 Vedoucí: Burget Lukáš, doc. Ing., Ph.D.
Název česky
Rozpoznávání řeči do textu s částečným dohledem a kritikem založeným na převodu z textu do řeči
Jazyk práce
anglický
Abstrakt

Modely pro automatické rozpoznávání řeči (ASR) vyžadují pro dosažení přijatelné přesnosti velké množství trénovacích dat. Z tohoto důvodu se v poslední době zvýšil zájem o trénování seq2seq modelů bez dohledu a s částečným dohledem. Tato práce vychází z nedávných výsledků, které ukázaly výrazné zlepšení trénování s částečným dohledem pomocí cyklické konzistence a souvisejících technik. Ty využívají trénovací postupy a kritéria schopná pomocí kombinace ASR s modely převodu textu na řeč (TTS) zužitkovat nesouvisející řečová a/nebo textová data. 

Tato práce nejprve navrhuje nový rámec pro modelování kombinující diferencovatelné end-to-end kritérium ASR->TTS s kritériem TTS->ASR. Tato metoda dokáže využít nesouvisející řečová a textová data a překonat související techniky ve slovní chybovosti (WER). Práce obsahuje rozsáhlou sadu výsledků analyzujících vliv množství dat i vliv podílu řeči a textu na opravách chyb. Výsledky dokládají konzistentní zlepšení na korpusech WSJ a LibriSpeech.  

Práce se rovněž zabývá omezeními modelu ASR<->TTS v podmínkách mimo doménu trénovacích dat (out-of-domain). Navrhujeme vylepšený model ASR<->TTS (EAT), zahrnující dva klíčové komponenty: 1) směr ASR->TTS je doplněn jazykovým model, který penalizuje hypotézy ASR před jejich vstupem do TTS; a 2) ve směru TTS->ASR je zavedena regularizace trénovaná bez dohledu tak, aby opravovala syntetizovanou řeč před vstupem do modelu ASR. Zkoumáme strategie trénování a účinnost modelu EAT a porovnáme jej s přístupy umělého zvyšování množství (augmentace) dat. Výsledky ukazují, že model EAT snižuje rozdíl v úspěšnosti mezi trénováním bez dohledu a trénováním s částečným dohledem absolutně o 2,6% WER na LibriSpeech datech a o 2,7% WER na BABEL datech.

Klíčová slova

Automatické rozpoznávání řeči, převod textu na řeč, trénování s částečným dohledem, cyklická konzistence, nesouvisející řeč a textová data, regularizace.

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
15. listopadu 2023
Citace
BASKAR, Murali. Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic. Brno, 2023. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2023-11-15. Vedoucí práce Burget Lukáš. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1044/
BibTeX
@phdthesis{FITPT1044,
    author = "Karthick Murali Baskar",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2023,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/1044/"
}
Nahoru