Detail práce

Poloautomatická normalizace slov z matričních záznamů

Bakalářská práce Student: Hříbek David Akademický rok: 2018/2019 Vedoucí: Rozman Jaroslav, Ing., Ph.D.
Název anglicky
Semi-Automatic Word Normalization in Parish Records
Jazyk práce
český
Abstrakt

V této práci je řešeno rozšíření webové aplikace DEMoS pro správu matričních záznamů o možnost normalizace (přiřazení normalizované podoby zápisu jednotlivým slovům) jmen, příjmení, povolání, obcí a dalších typů slov, která se vyskytují v matričních záznamech. V řešení byl použit proces detekce duplicitních záznamů, který umožnil roztřídění slov z matričních záznamů do shluků podobných slov. Díky vzniklým shlukům bylo následně možné sdílet normalizované varianty slov v rámci těchto shluků. Aplikace DEMoS tak pro uživatelem zadaná slova navrhuje normalizované varianty použité nejen u stejných slov, ale i u podobných slov. V rámci této práce bylo navrženo automatické testování úspěšnosti shlukování slov. Celkem bylo pro každý typ slov otestováno 640 různých kombinací parametrů shlukování. Následně byly pro každý typ slov vybrány nejlepší parametry shlukování. Díky normalizaci slov je v aplikaci DEMoS výrazně zvýšena efektivita vyhledávání matričních záznamů. Záznamy jsou také lépe čitelné.

Klíčová slova

matriční záznamy, porovnání dat, odstranění duplicit, normalizace, detekce duplicit, vyhledávání, DEMoS

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
13. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Co je míněno shlukem, co jej tvoří, co vše jej určuje a jak se příslušnost ke shluku přesně určuje, neboli jaký konkrétní algoritmus byl pro roztřídění objektů do shluků použit?
  2. Jak provádíte tranzitivní uzavření? Jsou prvky shluku ekvivalentní?
  3. Podobnost berete jako fuzzy?
  4. Jak jste vyhodnocoval funkčnost aplikace?
Komise
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), předseda
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Hliněná Dana, doc. RNDr., Ph.D. (UMAT FEKT VUT), člen
Strnadel Josef, Ing., Ph.D. (UPSY FIT VUT), člen
Citace
HŘÍBEK, David. Poloautomatická normalizace slov z matričních záznamů. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-13. Vedoucí práce Rozman Jaroslav. Dostupné z: https://www.fit.vut.cz/study/thesis/21640/
BibTeX
@bachelorsthesis{FITBT21640,
    author = "David H\v{r}\'{i}bek",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Poloautomatick\'{a} normalizace slov z matri\v{c}n\'{i}ch z\'{a}znam\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/21640/"
}
Nahoru