Detail práce

Vyhledávání duplicitních textů

Bakalářská práce Student: Pekař Tomáš Akademický rok: 2014/2015 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Duplicate Text Identification
Jazyk práce
český
Abstrakt

Cílem této práce je navrhnout a implementovat systém pro vyhledávání duplicitních textů. Výsledná aplikace by měla umět dokumenty indexovat a také je v indexu vyhledávat. V naší práci se zabýváme předzpracováním dokumentů, jejich fragmentací a indexací. Dále rozebíráme metody vyhledávání duplicit, s čímž je spojena také strategie selekce podřetězců. Práce obsahuje i popis základních datových struktur, které lze použít pro indexaci n-gramů.

Klíčová slova

vyhledávání, haš, duplikáty, indexace, n-gram, invertovaný index, datové struktury

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
16. června 2015
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby
  1. Čím si ve vašem řešení vysvětlujete nemonotónní počet výsledných n-gramů v závislosti na jejich délce?
Komise
Meduna Alexander, prof. RNDr., CSc. (UIFS FIT VUT), předseda
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Drábek Vladimír, doc. Ing., CSc. (UPSY FIT VUT), člen
Křena Bohuslav, Ing., Ph.D. (UITS FIT VUT), člen
Očenášek Pavel, Mgr. Ing., Ph.D. (UIFS FIT VUT), člen
Citace
PEKAŘ, Tomáš. Vyhledávání duplicitních textů. Brno, 2015. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2015-06-16. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/9668/
BibTeX
@bachelorsthesis{FITBT9668,
    author = "Tom\'{a}\v{s} Peka\v{r}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Vyhled\'{a}v\'{a}n\'{i} duplicitn\'{i}ch text\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2015,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/9668/"
}
Nahoru