Detail práce

Spojování záznamů v genealogických datech

Bakalářská práce Student: Šorm Jan Akademický rok: 2018/2019 Vedoucí: Zbořil František, doc. Ing., Ph.D.
Název anglicky
Record Linkage in Genealogical Data
Jazyk práce
český
Abstrakt

Hlavním cílem této bakalářské práce je studium genealogických dat, zjištění možných problému při jejich slučování a implementace metod pro toto slučování dat. V této práci se bude především studovat problematika třídění podobných tvarů jmen do společných tříd. Tento problém se bude studovat zejména proto, že v každém matričním záznamu hrají nejdůležitější roli jména a příjmení dotčených osob a jejich příbuzných. V práci tedy bude rozebráno několik metrik pro výpočet vzdálenosti mezi dvěma řetězci. Dále pak pro tyto metriky bude provedeno několik experimentů, které budou mít za cíl roztřídit jména do tříd s co nejmenším počtem chyb. Na základě těchto výsledků pak budou provedeny i experimenty pro samotné slučování jednotlivých genealogických záznamů.

Klíčová slova

genealogie, matrika, záznamy, slučování, řetězce, vzdálenosti, třídy, C++

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
10. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. Podle čeho určujete tzv. ground truth a jestli je to součástí vstupního souboru, jak tam poznáte, které záznamy mají být spojeny se kterýma záznamama?
  2. Mohl byste úspěšnost vašeho spojování záznamů vyjádřit pomocí true positive, true negative, false positive a false negative, případně pomocí F-measure?
  3. Existují již nějaké nástroje?
  4. Jak veliká je ground truth?
Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
ŠORM, Jan. Spojování záznamů v genealogických datech. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-10. Vedoucí práce Zbořil František. Dostupné z: https://www.fit.vut.cz/study/thesis/22057/
BibTeX
@bachelorsthesis{FITBT22057,
    author = "Jan \v{S}orm",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Spojov\'{a}n\'{i} z\'{a}znam\r{u} v genealogick\'{y}ch datech",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/22057/"
}
Nahoru