Detail práce

Out-of-Vocabulary Words Detection and Recovery

Disertační práce Student: Egorova Ekaterina Akademický rok: 2022/2023 Vedoucí: Černocký Jan, prof. Dr. Ing.
Název česky
Detekce a obnova slov mimo slovník
Jazyk práce
anglický
Abstrakt

Tato disertační práce zkoumá oblast zpracování slov mimo slovník (out-of-vocabulary word, OOV) v rámci úlohy automatického rozpoznávání řeči (automatic speech recognition, ASR). Definuje dvě samostatné úlohy zpracování OOV - detekci a obnovu - a pro obě úlohy navrhuje metriky úspěšnosti. Prezentuje několik přístupů k detekci a obnově OOV v rámci hybridních a end-to-end (E2E) ASR systémů. Experimentální práce a srovnání přístupů bylo provedeno na otevřené databázi LibriSpeech, aby byla zajištěna reprodukovatelnost experimentů. 

Hybridní přístup využívá upravený dekódovací graf s fonémovými podřetězci a pro detekci a obnovu opakujících se OOV využívá reprezentaci založenou na plných rozpoznávacích grafech (lattices). Obnovená OOV jsou přidána do slovníku a jazykového modelu (LM), což vede ke zlepšení úspěšnosti ASR systému.Druhý přístup využívá k řešení úlohy detekce OOV vnitřní reprezentace systému E2E architektury "Listen Attend and Spell" (LAS) s predikcí slov. Tato metoda oproti hybridnímu přístupu výrazně zlepšuje míru úplnosti a přesnosti (recall a precision). Obnova opakujících se OOV se provádí pomocí samostatného systému predikce znaků s využitím detekovaných časových rámců a pravděpodobnostního shlukování.Nakonec navrhujeme novou "speller" architekturu se schopností učit se reprezentace OOV společně s trénováním sítě pro predikci slov (word predicting network, WPN). Komponent "speller" ovlivňuje během trénování slovní embeddingy tak, aby dobře reprezentovaly i fonetickou podobu slov, a tím zajišťuje nejen možnost kvalitní obnovy OOV, ale i zlepšení výkonu sítě pro predikci slov.

Klíčová slova

Slova mimo slovník, automatické rozpoznávání řeči, hybridní ASR, E2E ASR, neurální architektury, Listen Attend and Spell.

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
16. prosince 2022
Citace
EGOROVA, Ekaterina. Out-of-Vocabulary Words Detection and Recovery. Brno, 2022. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-12-16. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/768/
BibTeX
@phdthesis{FITPT768,
    author = "Ekaterina Egorova",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Out-of-Vocabulary Words Detection and Recovery",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/768/"
}
Nahoru