Detail práce
Multi-modální přepis textu
Cieľom tejto práce je popísať a vytvoriť metódu pre korekciu výstupov rozpoznávača textu pomocou rozpoznávača reči. Práca popisuje prehľad súčasných metód pre rozpoznávanie textu a reči pomocou neurónových sietí. Popisuje tiež existujúce metódy prepájania výstupov dvoch modalít. V rámci práce je navrhnutých a implementovaných niekoľko prístupov pre korekciu rozpoznávačov, ktoré sú založené na algoritmoch, alebo neurónových sieťach. Ako najlepší prístup sa ukázal algoritmus založený na princípe prehľadávania výstupov rozpoznávačov zarovnaných pomocou levenshtainového zarovnania. Algoritmus prehľadáva výstupy v prípade že neistota znaku rozpoznávača textu je menšia ako predom zvolená hranica. V rámci práce bol ku textovým prepisom vytvorený anotačný server, pomocou ktorého sa robil zber nahrávok pre vyhodnotenie experimentov.
rozpoznávanie reči, rozpoznávanie textu, multimodálny prepis, neurónové siete, anotačný server, prepis textu, prepájanie písaného textu a reči, korekcia výstupu rozpoznávačov, multimodálny systém
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
- Všechny algoritmy vedly ke zhoršení výsledků oproti základnímu rozpoznávači textu. Výjimkou byl algoritmus 4. Jak si to vysvětlujete? Jak byste na základě výsledků navrhl nějaký "algoritmus 5", který by mohl být úspěšnější?
- Vaše neuronová síť ve srovnání s ručně navrženým algoritmem 4 výrazně propadla. V oboru, v němž se pohybujete, je zvykem, že neuronové sítě dosahují lepší úspěšnosti než ručně navržené algoritmy, protože se mohou učit z dat a jejich učení je hluboké. Čím si vysvětlujete tento rozpor?
- Jak dlouhé jsou získané nahrávky ve Vaší datové sadě?
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Kanich Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), člen
@mastersthesis{FITMT24870, author = "Michal Kab\'{a}\v{c}", type = "Diplomov\'{a} pr\'{a}ce", title = "Multi-mod\'{a}ln\'{i} p\v{r}epis textu", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2022, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/24870/" }