Detail práce

Aktivní učení pro rozpoznávání textu

Diplomová práce Student: Kohút Jan Akademický rok: 2018/2019 Vedoucí: Hradiš Michal, Ing., Ph.D.
Název anglicky
Active Learning for OCR
Jazyk práce
český
Abstrakt

Cílem této práce je navrhnout metody aktivního učení a provést experimenty nad datovou sadou historických dokumentů. Pro experimenty využívám rozsáhlý a rozmanitý dataset IMPACT o více než jednom milionu řádků. Pomocí neuronových sítí provádím kontrolu vhodnosti řádků, tzn. čitelnosti a správnosti přepisů. Nejprve srovnávám architektury neuronových sítí, a to jak sítě čistě konvoluční, tak sítě obsahující obousměrnou rekurentní vrstvu LSTM. Dále se zabývám přístupy k učení neuronových sítí pomocí aktivního učení a samotnými metodami aktivního učení. Aktivní učení využívám zejména pro adaptaci neuronových sítí na jiné textové dokumenty, než na kterých byla původní síť učena. Aktivní učení tedy slouží k výběru vhodných adaptačních dat. Čistě konvoluční neuronové sítě dosahují úspěšnosti 98.6 %, rekurentní sítě pak 99.5 %. Chyba při adaptaci s využitím aktivního učení je o 26 % nižší než chyba při náhodném výběru dat.

Klíčová slova

Aktivní učení, rozpoznávání textu, neuronové sítě, konvoluční neuronové sítě, rekurentní neuronové sítě, dataset IMPACT

Ústav
Studijní program
Informační technologie, obor Inteligentní systémy
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
19. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Kolik hodin jste strávil manuální anotací s aktivním učením?
  2. Jak rozezná CTC (Connectionist Temporal Classification) opakovaná písmena? Např.: met vs meet
  3. Jak proporce rozdílu validační a trénovací chybou v rovnici 4.1 zachycuje míru přetrénovanosti?
  4. Popište Obraz 6.7. Jaký si z něj čtenář má odnést poznatek?
Komise
Zbořil František V., doc. Ing., CSc. (UITS FIT VUT), předseda
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Horák Aleš, doc. RNDr., Ph.D. (FI MUNI), člen
Hrubý Martin, Ing., Ph.D. (UITS FIT VUT), člen
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Citace
KOHÚT, Jan. Aktivní učení pro rozpoznávání textu. Brno, 2019. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-19. Vedoucí práce Hradiš Michal. Dostupné z: https://www.fit.vut.cz/study/thesis/22021/
BibTeX
@mastersthesis{FITMT22021,
    author = "Jan Koh\'{u}t",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Aktivn\'{i} u\v{c}en\'{i} pro rozpozn\'{a}v\'{a}n\'{i} textu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/22021/"
}
Nahoru