Detail práce

Vliv akustiky prostředí na úspěšnost rozpoznávače řeči

Diplomová práce Student: Paliesek Jakub Akademický rok: 2020/2021 Vedoucí: Szőke Igor, Ing., Ph.D.
Název anglicky
Impact of Environment Acoustics on Speech Recognition Accuracy
Jazyk práce
český
Abstrakt

Táto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.

Klíčová slova

rozpoznávanie reči, akustika miestnosti, adaptácia, impulzná odozva

Ústav
Studijní program
Informační technologie, obor Bezpečnost informačních technologií
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
23. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. V práci ukazujete i analyzujete výraznou degradaci systému za předpokladu že nebyl trénován ve stejných nebo podobných podmínkách. Zvažoval jste užití de-reverbereračních technik jako například Weight Prediction Error (WPE)
  2. V případě použití alignmentů z čistých dat pro trénování sitě na augmentovaných datech, použil ste jen alignmenty nebo i lattice? Z pohledu LF-MMI objektivní funkce lze zvážit pouze čisté alignmenty (slouží pro cross-entropy regularizaci) a nechat lattice vygenerovat na cilových datech.
  3. r- a zejména x- vektory trénujete na malém množství dat (100h). Pro tuto architekturu je dobré mít aspoň 0.5-1k hodin (bez augmentace).  Můžete zdůvodnit proč?
Komise
Drahanský Martin, prof. Ing., Dipl.-Ing., Ph.D. (UITS FIT VUT), předseda
Hrubý Martin, Ing., Ph.D. (UITS FIT VUT), člen
Malinka Kamil, Mgr., Ph.D. (UITS FIT VUT), člen
Očenášek Pavel, Mgr. Ing., Ph.D. (UIFS FIT VUT), člen
Vojnar Tomáš, prof. Ing., Ph.D. (UITS FIT VUT), člen
Citace
PALIESEK, Jakub. Vliv akustiky prostředí na úspěšnost rozpoznávače řeči. Brno, 2021. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-23. Vedoucí práce Szőke Igor. Dostupné z: https://www.fit.vut.cz/study/thesis/23934/
BibTeX
@mastersthesis{FITMT23934,
    author = "Jakub Paliesek",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Vliv akustiky prost\v{r}ed\'{i} na \'{u}sp\v{e}\v{s}nost rozpozn\'{a}va\v{c}e \v{r}e\v{c}i",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23934/"
}
Nahoru