Detail práce

Uspořádání fragmentů textu s pomocí jazykového modelu

Diplomová práce Student: Holubec Michael Akademický rok: 2021/2022 Vedoucí: Beneš Karel, Ing.
Název anglicky
Reordering Text Fragments Using a Language Model
Jazyk práce
český
Abstrakt

Cílem této práce je sestrojit a experimentálně ověřit účinnost jazykového modelu při identifikaci posloupnosti čtení (Reading Order). K tomuto účelu byl sestrojen jazykový model využívající rekurentní neuronovou síť LSTM. Práce dále navrhuje a implementuje celkem tři metody, jazykovou analýzu, prostorovou analýzu a kombinovanou analýzu, pomocí kterých je posloupnost čtení identifikována. Jazyková a kombinovaná analýza ke své činnosti přímo používají vytvořený jazykový model. Úspěšnost identifikace posloupnosti prostřednictvím všech tří metod byla změřena na třech datasetech obsahující novinové články s různým rozložením. Jazyková analýza dosahuje úspěšnosti 57,6 %, prostorová analýza dosahuje 91,6 %. Nejlepších výsledků dosahuje kombinovaná analýza, která vykazuje úspěšnost 92,9 %. Práce ukazuje, že jazykový model lze pro identifikaci posloupnosti čtení použít, avšak výsledky experimentů naznačují, že je vhodné zpracování odhadu posloupnosti doplnit o další informace, jako je to například v kombinované analýze, která pracuje jak s jazykovým modelem, tak s prostorovými informacemi.

Klíčová slova

Posloupnost čtení, Jazykový model, Jazyková analýza, Prostorová analýza

Ústav
Studijní program
Informační technologie a umělá inteligence, specializace Informační systémy a databáze
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
21. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. V technickej správe spomínate jazykový model založený na LSTM neurónovej sieti, experimentovali ste aj s inými typmi jazykových modelov?
  2. Jak jste získal dataset Europeana Newspapers Project? Proč jste tento dataset zvolil, a jak jste data očistil?
Komise
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT), člen
Hynek Jiří, Ing., Ph.D. (UIFS FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Vojnar Tomáš, prof. Ing., Ph.D. (UITS FIT VUT), člen
Citace
HOLUBEC, Michael. Uspořádání fragmentů textu s pomocí jazykového modelu. Brno, 2022. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-21. Vedoucí práce Beneš Karel. Dostupné z: https://www.fit.vut.cz/study/thesis/23379/
BibTeX
@mastersthesis{FITMT23379,
    author = "Michael Holubec",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Uspo\v{r}\'{a}d\'{a}n\'{i} fragment\r{u} textu s pomoc\'{i} jazykov\'{e}ho modelu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23379/"
}
Nahoru