Detail práce

Sémantická podobnost textů

Bakalářská práce Student: Hajdin Martin Akademický rok: 2015/2016 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Semantic Similarity of Texts
Jazyk práce
český
Abstrakt

Táto práca sa zaoberá problematikou určovania sémantickej podobnosti textov so zameraním na kategorizáciu webových dokumentov, v tomto prípade záložiek. Súčasťou spracovania je teoretický prehľad metód, pre implementáciu systému. Popisuje sa aj návrh a implementácia jednotlivých metód použitých v systéme. Práca sa taktiež zaoberá vyhodnotením jednotlivých metód, kde sú vybrané metódy otestované podľa určitých kritérií.

Klíčová slova

sémantická podobnosť, vektorový model, spracovanie prirodzeného jazyka, Python, Gensim, Scikit-learn, TFIDF, LDA, NMF, SVD

Ústav
Studijní program
Informační technologie
Soubory
Stav
neobhájeno
Obhajoba
13. června 2016
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Oponent hodnotil práci stupněm 4F, protože práce nesplnila všechny body zadání. Student nedokázal vyvrátit výtky oponenta. Komise shledala nedostatky práce natolik závažné, že se práci rozhodla hodnotit jako nevyhovující.

Otázky u obhajoby
  1. Nejsem si jistý, jestli správně rozumíte algoritmu SVD (viz např. věta "To je zabezpečené metódou SVD, ktorá zredukuje rozmer vektorov na dve." - proč by měla být velikost vektoru pouze 2?). Můžete komisi v rychlosti objasnit, jak jste to myslel?
  2. V práci uvádíte: "Preto je vo výslednej aplikácii použitý algoritmus kmeans++, ktorého priebeh je v podstate lineárny.". Můžete prosím komisi objasnit, jaká je skutečná časová složitost algoritmu K-means++?
Komise
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), předseda
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Strnadel Josef, Ing., Ph.D. (UPSY FIT VUT), člen
Citace
HAJDIN, Martin. Sémantická podobnost textů. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-13. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/18690/
BibTeX
@bachelorsthesis{FITBT18690,
    author = "Martin Hajdin",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "S\'{e}mantick\'{a} podobnost text\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18690/"
}
Nahoru