Detail práce

Shlukování slov podle významu

Bakalářská práce Student: Jankech Marek Akademický rok: 2018/2019 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Word Sense Clustering
Jazyk práce
český
Abstrakt

Sémantickú podobnosť slov je možné kódovať pomocou vektorovej reprezentácie - vnorenia slov. Známymi predstaviteľmi typov modelov vytvárajúcich tieto vnorenia slov sú Word2Vec, FastText a Glove. V tejto práci je predstavený novší typ modelov s názvom Dict2Vec. Jedná sa o rozšírenie Wod2Vec, ktoré využíva lexikálne slovníky. Práca opisuje prípravu dát z rôznych zdrojov korpusov a slovníkov a porovnáva presnosti jednotlivých typov modelov. Taktiež oboznamuje s implementovanou webovou aplikáciou využívajúcou vnorenia slov.

Klíčová slova

korpus, slovník, definície, lematizácia, Dict2Vec, Word2Vec, FastText, Glove, spracovanie prirodzeného jazyka

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení E
Obhajoba
10. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.

Otázky u obhajoby

1. Porovnajte priemerný MAP (Mean Average Precision) Vašeho najlepšieho modelu s výsledkami V.S.Hošťáka na aktuálnej vyhodnocovacej sade "krycie mená" (k jeho natrénovaným modelom by ste mali mať prístup). Na jednotlivé MAP skóre získané Vaším a jeho modelom na tejto sade aplikujte vhodný štatistický test (napr. párový t-test) a určite, či je rozdiel medzi výsledkami Vašeho najlepšieho modelu a jeho najlepšieho modelu štatisticky významný (na hladanie významosti 5%).
2. Zkoušel jste modely kombinovat?

Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
JANKECH, Marek. Shlukování slov podle významu. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-10. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/21483/
BibTeX
@bachelorsthesis{FITBT21483,
    author = "Marek Jankech",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Shlukov\'{a}n\'{i} slov podle v\'{y}znamu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/21483/"
}
Nahoru