Detail práce
Poloautomatická normalizace slov z matričních záznamů
V této práci je řešeno rozšíření webové aplikace DEMoS pro správu matričních záznamů o možnost normalizace (přiřazení normalizované podoby zápisu jednotlivým slovům) jmen, příjmení, povolání, obcí a dalších typů slov, která se vyskytují v matričních záznamech. V řešení byl použit proces detekce duplicitních záznamů, který umožnil roztřídění slov z matričních záznamů do shluků podobných slov. Díky vzniklým shlukům bylo následně možné sdílet normalizované varianty slov v rámci těchto shluků. Aplikace DEMoS tak pro uživatelem zadaná slova navrhuje normalizované varianty použité nejen u stejných slov, ale i u podobných slov. V rámci této práce bylo navrženo automatické testování úspěšnosti shlukování slov. Celkem bylo pro každý typ slov otestováno 640 různých kombinací parametrů shlukování. Následně byly pro každý typ slov vybrány nejlepší parametry shlukování. Díky normalizaci slov je v aplikaci DEMoS výrazně zvýšena efektivita vyhledávání matričních záznamů. Záznamy jsou také lépe čitelné.
matriční záznamy, porovnání dat, odstranění duplicit, normalizace, detekce duplicit, vyhledávání, DEMoS
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
- Co je míněno shlukem, co jej tvoří, co vše jej určuje a jak se příslušnost ke shluku přesně určuje, neboli jaký konkrétní algoritmus byl pro roztřídění objektů do shluků použit?
- Jak provádíte tranzitivní uzavření? Jsou prvky shluku ekvivalentní?
- Podobnost berete jako fuzzy?
- Jak jste vyhodnocoval funkčnost aplikace?
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Hliněná Dana, doc. RNDr., Ph.D. (UMAT FEKT VUT), člen
Strnadel Josef, Ing., Ph.D. (UPSY FIT VUT), člen
@bachelorsthesis{FITBT21640, author = "David H\v{r}\'{i}bek", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Poloautomatick\'{a} normalizace slov z matri\v{c}n\'{i}ch z\'{a}znam\r{u}", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/21640/" }