Detail práce
Vyhledávání duplicitních textů
Cílem této práce je navrhnout a implementovat systém pro vyhledávání duplicitních textů. Výsledná aplikace by měla umět dokumenty indexovat a také je v indexu vyhledávat. V naší práci se zabýváme předzpracováním dokumentů, jejich fragmentací a indexací. Dále rozebíráme metody vyhledávání duplicit, s čímž je spojena také strategie selekce podřetězců. Práce obsahuje i popis základních datových struktur, které lze použít pro indexaci n-gramů.
vyhledávání, haš, duplikáty, indexace, n-gram, invertovaný index, datové struktury
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
- Čím si ve vašem řešení vysvětlujete nemonotónní počet výsledných n-gramů v závislosti na jejich délce?
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Drábek Vladimír, doc. Ing., CSc. (UPSY FIT VUT), člen
Křena Bohuslav, Ing., Ph.D. (UITS FIT VUT), člen
Očenášek Pavel, Mgr. Ing., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT9668, author = "Tom\'{a}\v{s} Peka\v{r}", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Vyhled\'{a}v\'{a}n\'{i} duplicitn\'{i}ch text\r{u}", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2015, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/9668/" }