Detail práce
Automatic Speech Recognition System Continually Improving Based on Subtitled Speech Data
V dnešnej dobe systémy rozpoznávania reči s veľkým slovníkom dosahujú pomerne vysoké presnosti. Za ich výsledkami však často stoja desiatky ba až stovky hodín manuálne oanotovaných trénovacích dát. Takéto dáta sú často bežne nedostupné alebo pre požadovaný jazyk vôbec neexistujú. Možným riešením je použitie bežne dostupných no menej kvalitných audiovizuálnych dát. Táto práca sa zaoberá technikou zpracovania práve takýchto dát a ich použitím pre trénovanie akustických modelov. Ďalej táto práca pojednáva o možnom využití týchto dát pre kontinuálne vylepšovanie modelov, kedže tieto dáta sú prakticky nevyčerpateľné. Pre tieto účely bol v rámci práce navrhnutý nový prístup pre výber dát.
Rozpoznávanie reči s veľkým slovníkom, trénovanie čiastočne s učiteľom, neuronové siete, otitulkovaná reč, akustické modelovanie
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Q1: Můžete okomentovat, proč je na obr. 6.3 lepší 'iterativní' trénovaní, když později v obr. 7.4 je lepší trénování 'od začátku = from scratch'?
Q2: Jakým způsobem by se dalo odhadnout, kolik řečových dat je nejméně potřeba pro 'dostatečně dobrý' odhad kovarianční matice z před-výstupní vrstvy neuronové sítě?
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Horák Aleš, doc. RNDr., Ph.D. (FI MUNI), člen
Hrubý Martin, Ing., Ph.D. (UITS FIT VUT), člen
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
@mastersthesis{FITMT22041, author = "Martin Kocour", type = "Diplomov\'{a} pr\'{a}ce", title = "Automatic Speech Recognition System Continually Improving Based on Subtitled Speech Data", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "english", url = "https://www.fit.vut.cz/study/thesis/22041/" }