Detail práce

Nízko-dimenzionální faktorizace pro "End-To-End" řečové systémy

Diplomová práce Student: Gajdár Matúš Akademický rok: 2019/2020 Vedoucí: Karafiát Martin, Ing., Ph.D.
Jazyk práce
slovenský
Abstrakt

Práca sa zaoberá problematikou rozpoznávania reči s pomocou učenia neurónových sietí, na ktoré je aplikovaný algoritmus nízko-dimenzionálnej faktorizácie. V práci je popísaná implementácia časovo oneskorených neurónových sietí s faktorizáciou (TDNN-F) a bez nej (TDNN) v jazyku Pytorch. Následne je porovnávaná s už existujúcou implementáciou v nástroji Kaldi, kde boli dosiahnuté podobné výsledky v rámci experimentovania s rôznymi architektúrami. V poslednej kapitole popisujeme dopad nízko-dimenzionálnej faktorizácie na 'End-to-End' (E2E) rečové systémy a taktiež modifikovanie systému s TDNN(-F) sieťami. Pri experimentoch sa nám v určitých nastaveniach sietí s faktorizáciou podarilo zlepšiť výsledky.Súčasne sme pomocou TDNN(-F) sietí dokázali zmenšiť komplexnosť učenia redukciou veľkosti siete.

Klíčová slova

Automatické rozpoznávanie reči, konvolučné neurónové siete, TDNN, nízko-dimenzionálna faktorizácia, E2E, TDNN-F, Pytorch, Kaldi, ESPnet

Ústav
Studijní program
Informační technologie, obor Počítačová grafika a multimédia
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
15. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. Můžete uvést čas potřebný pro natrénování sítě TDNN-F+BLSTMP a BLSTMP (tabulka 6.19)? Krátce uveďte rozdíly mezi oběma topologiemi.
  2. Pytorch implementace TDNN se dle vašich výsledků trénuje 10x pomaleji než je tomu v Kadi. V čem jsou hlavní důvody tohoto rozdílu?
  3. V pytorch implementaci jste použil jinou topologii TDNN(-F) sítě než je topologie v Kaldi. Můžete porovnat výsledky Kadi a pytorch topologie?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bařina David, Ing., Ph.D. (UPGM FIT VUT), člen
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
GAJDÁR, Matúš. Nízko-dimenzionální faktorizace pro "End-To-End" řečové systémy. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-15. Vedoucí práce Karafiát Martin. Dostupné z: https://www.fit.vut.cz/study/thesis/23195/
BibTeX
@mastersthesis{FITMT23195,
    author = "Mat\'{u}\v{s} Gajd\'{a}r",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "N\'{i}zko-dimenzion\'{a}ln\'{i} faktorizace pro {"}End-To-End{"} \v{r}e\v{c}ov\'{e} syst\'{e}my",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "slovak",
    url = "https://www.fit.vut.cz/study/thesis/23195/"
}
Nahoru