Detail práce
Spojování záznamů v genealogických datech
Hlavním cílem této bakalářské práce je studium genealogických dat, zjištění možných problému při jejich slučování a implementace metod pro toto slučování dat. V této práci se bude především studovat problematika třídění podobných tvarů jmen do společných tříd. Tento problém se bude studovat zejména proto, že v každém matričním záznamu hrají nejdůležitější roli jména a příjmení dotčených osob a jejich příbuzných. V práci tedy bude rozebráno několik metrik pro výpočet vzdálenosti mezi dvěma řetězci. Dále pak pro tyto metriky bude provedeno několik experimentů, které budou mít za cíl roztřídit jména do tříd s co nejmenším počtem chyb. Na základě těchto výsledků pak budou provedeny i experimenty pro samotné slučování jednotlivých genealogických záznamů.
genealogie, matrika, záznamy, slučování, řetězce, vzdálenosti, třídy, C++
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
- Podle čeho určujete tzv. ground truth a jestli je to součástí vstupního souboru, jak tam poznáte, které záznamy mají být spojeny se kterýma záznamama?
- Mohl byste úspěšnost vašeho spojování záznamů vyjádřit pomocí true positive, true negative, false positive a false negative, případně pomocí F-measure?
- Existují již nějaké nástroje?
- Jak veliká je ground truth?
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT22057, author = "Jan \v{S}orm", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Spojov\'{a}n\'{i} z\'{a}znam\r{u} v genealogick\'{y}ch datech", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/22057/" }