Detail práce
Shlukování slov podle významu
Sémantickú podobnosť slov je možné kódovať pomocou vektorovej reprezentácie - vnorenia slov. Známymi predstaviteľmi typov modelov vytvárajúcich tieto vnorenia slov sú Word2Vec, FastText a Glove. V tejto práci je predstavený novší typ modelov s názvom Dict2Vec. Jedná sa o rozšírenie Wod2Vec, ktoré využíva lexikálne slovníky. Práca opisuje prípravu dát z rôznych zdrojov korpusov a slovníkov a porovnáva presnosti jednotlivých typov modelov. Taktiež oboznamuje s implementovanou webovou aplikáciou využívajúcou vnorenia slov.
korpus, slovník, definície, lematizácia, Dict2Vec, Word2Vec, FastText, Glove, spracovanie prirodzeného jazyka
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.
1. Porovnajte priemerný MAP (Mean Average Precision) Vašeho najlepšieho modelu s výsledkami V.S.Hošťáka na aktuálnej vyhodnocovacej sade "krycie mená" (k jeho natrénovaným modelom by ste mali mať prístup). Na jednotlivé MAP skóre získané Vaším a jeho modelom na tejto sade aplikujte vhodný štatistický test (napr. párový t-test) a určite, či je rozdiel medzi výsledkami Vašeho najlepšieho modelu a jeho najlepšieho modelu štatisticky významný (na hladanie významosti 5%).
2. Zkoušel jste modely kombinovat?
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT21483, author = "Marek Jankech", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Shlukov\'{a}n\'{i} slov podle v\'{y}znamu", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/21483/" }