Detail práce

Zlepšování kvality digitalizovaných textových dokumentů

Diplomová práce Student: Trčka Jan Akademický rok: 2019/2020 Vedoucí: Juránek Roman, Ing., Ph.D.
Název anglicky
Document Quality Enhancement
Jazyk práce
český
Abstrakt

Cílem této práce je zvýšení úspěšnosti při rozpoznávání textových dokumentů. Práce je zaměřena především na texty nacházející se na degradovaném materiálu jako jsou noviny nebo staré knihy. K řešení tohoto problému jsou analyzovány současné metody a problémy spojené s rozpoznáváním textu. Na základě získaných poznatků je zvolena implementovaná metoda založena na GAN sítích. Na těchto sítích jsou provedeny experimenty pro nalezení jejich vhodné velikosti a parametrů učení. Následně je provedeno testování pro porovnání různých metod učení a srovnání jejich výsledků. Trénování a testování je provedeno na umělém datovém setu, u kterého se zvýší přesnost přepisu z 65.61 % pro nezpracované řádky textu na 93.23 % u řádků zpracovaných sítí GAN.

Klíčová slova

Neuronové sítě, hluboké neuronové sítě, konvoluční neuronové sítě, GAN sítě, TensorFlow, zlepšování kvality obrazu

Ústav
Studijní program
Informační technologie, obor Inteligentní systémy
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
14. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby
  1. Jaké kritérium "přesnosti" používáte pro kvalitu výstupu systému "zlepšování kvality digitalizovaných textových dokumentů". Je to odlišnost od "ground truth" obrazu? Čitelnost textů prostřednictvím OCR třetích stran? Nebo je to skutečně přepis (čtení) dokumentů?
  2. Kterého výsledku práce si ceníte nejvíce, respektive který považujete za nejslibnější z pohledu možného nasazení?
  3. Jak se Vaše výsledky srovnávají s výsledky jiných systémů pro přepis textů? Jak se podařilo vylepšit texty, aby se případně dále dařilo je lépe využít?
  4. Použil jste pro zpracování obrazu nějaké knihovny?
  5. Jaká je výpočetní náročnost vašeho řešení?
  6. Používá vaše práce diakritiku?
  7. Máte představu, jak by probíhalo trénování na reálných datech?
Komise
Rogalewicz Adam, doc. Mgr., Ph.D. (UITS FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Hrubý Martin, Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Citace
TRČKA, Jan. Zlepšování kvality digitalizovaných textových dokumentů. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-14. Vedoucí práce Juránek Roman. Dostupné z: https://www.fit.vut.cz/study/thesis/23086/
BibTeX
@mastersthesis{FITMT23086,
    author = "Jan Tr\v{c}ka",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Zlep\v{s}ov\'{a}n\'{i} kvality digitalizovan\'{y}ch textov\'{y}ch dokument\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23086/"
}
Nahoru