Detail práce

Multi-modální přepis textu

Diplomová práce Student: Kabáč Michal Akademický rok: 2021/2022 Vedoucí: Kišš Martin, Ing.
Název anglicky
Multi-Modal Text Recognition
Jazyk práce
český
Abstrakt

Cieľom tejto práce je popísať a vytvoriť metódu pre korekciu výstupov rozpoznávača textu pomocou rozpoznávača reči. Práca popisuje prehľad súčasných metód pre rozpoznávanie textu a reči pomocou neurónových sietí. Popisuje tiež existujúce metódy prepájania výstupov dvoch modalít. V rámci práce je navrhnutých a implementovaných niekoľko prístupov pre korekciu rozpoznávačov, ktoré sú založené na algoritmoch, alebo neurónových sieťach. Ako najlepší prístup sa ukázal algoritmus založený na princípe prehľadávania výstupov rozpoznávačov zarovnaných pomocou levenshtainového zarovnania. Algoritmus prehľadáva výstupy v prípade že neistota znaku rozpoznávača textu je menšia ako predom zvolená hranica. V rámci práce bol ku textovým prepisom vytvorený anotačný server, pomocou ktorého sa robil zber nahrávok pre vyhodnotenie experimentov.

Klíčová slova

rozpoznávanie reči, rozpoznávanie textu, multimodálny prepis, neurónové siete, anotačný server, prepis textu, prepájanie písaného textu a reči, korekcia výstupu rozpoznávačov, multimodálny systém

Ústav
Studijní program
Informační technologie a umělá inteligence, specializace Strojové učení
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
17. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Všechny algoritmy vedly ke zhoršení výsledků oproti základnímu rozpoznávači textu. Výjimkou byl algoritmus 4. Jak si to vysvětlujete? Jak byste na základě výsledků navrhl nějaký "algoritmus 5", který by mohl být úspěšnější?
  2. Vaše neuronová síť ve srovnání s ručně navrženým algoritmem 4 výrazně propadla. V oboru, v němž se pohybujete, je zvykem, že neuronové sítě dosahují lepší úspěšnosti než ručně navržené algoritmy, protože se mohou učit z dat a jejich učení je hluboké. Čím si vysvětlujete tento rozpor?
  3. Jak dlouhé jsou získané nahrávky ve Vaší datové sadě?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Kanich Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), člen
Citace
KABÁČ, Michal. Multi-modální přepis textu. Brno, 2022. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-17. Vedoucí práce Kišš Martin. Dostupné z: https://www.fit.vut.cz/study/thesis/24870/
BibTeX
@mastersthesis{FITMT24870,
    author = "Michal Kab\'{a}\v{c}",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Multi-mod\'{a}ln\'{i} p\v{r}epis textu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/24870/"
}
Nahoru