Detail práce
Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu
Cílem této práce je navrhnout a implementovat systém, který umožní výběr tematicky zaměřených článků z Wikipedie za účelem úspory místa při jejím offline uložení. Řešení tohoto problému je dosaženo s využitím metod spadajících do oblasti vyhledávání informací a jejich konkrétní implementací v rámci nástroje Elasticsearch. Systém se na základě zadaných klíčových slov snaží určit, o jakou tematickou oblast se uživatel zajímá a články z této oblasti zařadit do výsledného výběru. K tomu využívá především mechanismy pro určení podobných dokumentů a zahrnutí všech článků z kategorií, které se ve výběru často opakují. Velikosti souborů generovaných výsledným systémem na základě dotazů nad Simple English Wikipedia se obvykle pohybují pod 30 MB.
vyhledávání informací, Wikipedie, Elasticsarch, podobnost dokumentů, vyhledávací systém
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
- Proč jste namísto normální anglické Wikipedie použil Simple English Wikipedii, která je mnohem menší (cca 100 MB v komprimované formě) a není u ní problém s nedostatkem místa při offline použití tak znatelný?
- Z práce je zřejmé, že jste u textů z Wikipedie neodstraňoval MediaWiki značkování. Tímto se do dalšího zpracování dostala spousta nežádoucích termů, které mohly negativně ovlinit výsledky. Proč jste toto značkování neodstraňoval?
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Kočí Radek, Ing., Ph.D. (UITS FIT VUT), člen
Kotásek Zdeněk, doc. Ing., CSc. (UPSY FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT17707, author = "Ond\v{r}ej Such\'{y}", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Syst\'{e}m pro vyhled\'{a}v\'{a}n\'{i} a v\'{y}b\v{e}ry relevantn\'{i}ch \v{c}l\'{a}nk\r{u} z Wikipedie podle t\'{e}matu", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2015, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/17707/" }