Detail práce

Generativní neuronové sítě pro ručně psané písmo

Diplomová práce Student: Ševčík Pavel Akademický rok: 2021/2022 Vedoucí: Hradiš Michal, Ing., Ph.D.
Název anglicky
Generative Neural Networks for Handwritten Text
Jazyk práce
český
Abstrakt

Cílem této práce bylo vytvořit model pro generování řádků ručně psaného písma. Model na základě očekávaného stylu a libovolně dlouhého textu vytváří odpovídají obrázek s písmem. Navržené řešení překonává existující přístupy v kvalitě generovaného písma a umožňuje generování jak samostatných slov, tak i řádků. Kombinuje vyhledávání příznaků pro jednotlivé symboly pomocí attention a jejich rozmístění na řádek pomocí vkládání mezer. Nový přístup umožňuje specifikovat pozice symbolů na řádku jemněji než celými čísly, a tak vytvářet plynulejší interpolace mezi různými styly. Na rozdíl od předchozího řešení tento přístup využívá Gaussův filtr pro rozšíření jednotlivých příznaků symbolů do blízkého okolí. Současně tento přístup otevírá množnost trénování modelu pro odhad pozic symbolů na řádku adversariální chybou (GAN). Navíc byly vytvořeny anotace horizontálních pozic symbolů na řádcích datové sady ručně psaného písma IAM.

Klíčová slova

Příprava trénovacích dat, ručně psané písmo, generativní neuronové sítě, GAN, AdaIN, Transformer

Ústav
Studijní program
Informační technologie a umělá inteligence, specializace Strojové učení
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
21. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Do trénování celého modelu pro generování písma je zapojená i OCR síť (označená jako "R"). Je tato síť předtrénovaná, nebo se trénuje od začátku (společně se zbytkem modelu)?
    • Jak přesně probíhají jednotlivé iterace dekodéru v autoregresivní síti "S" (na obrázku 4.6 na straně 28)?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Zbořil František V., doc. Ing., CSc. (UITS FIT VUT), člen
Citace
ŠEVČÍK, Pavel. Generativní neuronové sítě pro ručně psané písmo. Brno, 2022. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-21. Vedoucí práce Hradiš Michal. Dostupné z: https://www.fit.vut.cz/study/thesis/24871/
BibTeX
@mastersthesis{FITMT24871,
    author = "Pavel \v{S}ev\v{c}\'{i}k",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Generativn\'{i} neuronov\'{e} s\'{i}t\v{e} pro ru\v{c}n\v{e} psan\'{e} p\'{i}smo",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/24871/"
}
Nahoru