Detail práce

Sémantická podobnost textů

Bakalářská práce Student: Bradáč Václav Akademický rok: 2014/2015 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Semantic Similarity of Texts
Jazyk práce
český
Abstrakt

Tato práce se zabývá problematikou určování sémantické podobnosti textů se zaměřením na škálovatelnost. Součástí zpracování je teoretický přehled nástrojů pro implementaci systému na testovaných datech. Testovaný korpus obsahuje odborné články v anglickém jazyce. Cílem práce je tyto články analyzovat, modifikovat pro snadnější analýzu jejich sémantické obdoby. Jedním z nejdůležitějších využitých nástrojů je reprezentace dat ve vektorovém prostoru. 

Klíčová slova

Sémantická podobnost, TF-IDF, Latentní sémantická analýza, Latentní sémantická indexace, Singulární rozklad, Latentní Direchletova alokace, Python, Gensim, PHP, Elasticsearch, MoreLikeThis

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení E
Obhajoba
16. června 2015
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.

Otázky u obhajoby
  1. Na straně 13 uvádíte příklad výpočtu podobnosti dvou vektorů pomocí kosinové podobnosti. Na závěr příkladu tvrdíte, že je nutné výslednou hodnotu odečíst od čísla 1, aby byl výsledek v intervalu <0;1>. Tohle tvrzení není pravdivé. Můžete prosím komisi předložit správnou verzi výpočtu?
  2. Proč jste zvolil počet dimenzí pro LDA a LSA 18, když se v praxi používají hodnoty v řádu stovek. Jak si vysvětlujete, že Vám stačilo pouhých 18 dimenzí k dosažení nejlepšího výsledku?
Komise
Meduna Alexander, prof. RNDr., CSc. (UIFS FIT VUT), předseda
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Drábek Vladimír, doc. Ing., CSc. (UPSY FIT VUT), člen
Křena Bohuslav, Ing., Ph.D. (UITS FIT VUT), člen
Očenášek Pavel, Mgr. Ing., Ph.D. (UIFS FIT VUT), člen
Citace
BRADÁČ, Václav. Sémantická podobnost textů. Brno, 2015. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2015-06-16. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/17736/
BibTeX
@bachelorsthesis{FITBT17736,
    author = "V\'{a}clav Brad\'{a}\v{c}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "S\'{e}mantick\'{a} podobnost text\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2015,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/17736/"
}
Nahoru