Detail práce

Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu

Bakalářská práce Student: Suchý Ondřej Akademický rok: 2014/2015 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Wikipedia Page Classification
Jazyk práce
český
Abstrakt

Cílem této práce je navrhnout a implementovat systém, který umožní výběr tematicky zaměřených článků z Wikipedie za účelem úspory místa při jejím offline uložení. Řešení tohoto problému je dosaženo s využitím metod spadajících do oblasti vyhledávání informací a jejich konkrétní implementací v rámci nástroje Elasticsearch. Systém se na základě zadaných klíčových slov snaží určit, o jakou tematickou oblast se uživatel zajímá a články z této oblasti zařadit do výsledného výběru. K tomu využívá především mechanismy pro určení podobných dokumentů a zahrnutí všech článků z kategorií, které se ve výběru často opakují. Velikosti souborů generovaných výsledným systémem na základě dotazů nad Simple English Wikipedia se obvykle pohybují pod 30 MB.

Klíčová slova

vyhledávání informací, Wikipedie, Elasticsarch, podobnost dokumentů, vyhledávací systém

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
17. června 2015
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Proč jste namísto normální anglické Wikipedie použil Simple English Wikipedii, která je mnohem menší (cca 100 MB v komprimované formě) a není u ní problém s nedostatkem místa při offline použití tak znatelný?
  2. Z práce je zřejmé, že jste u textů z Wikipedie neodstraňoval MediaWiki značkování. Tímto se do dalšího zpracování dostala spousta nežádoucích termů, které mohly negativně ovlinit výsledky. Proč jste toto značkování neodstraňoval?
Komise
Zendulka Jaroslav, doc. Ing., CSc. (UIFS FIT VUT), předseda
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Kočí Radek, Ing., Ph.D. (UITS FIT VUT), člen
Kotásek Zdeněk, doc. Ing., CSc. (UPSY FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
SUCHÝ, Ondřej. Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu. Brno, 2015. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2015-06-17. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/17707/
BibTeX
@bachelorsthesis{FITBT17707,
    author = "Ond\v{r}ej Such\'{y}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Syst\'{e}m pro vyhled\'{a}v\'{a}n\'{i} a v\'{y}b\v{e}ry relevantn\'{i}ch \v{c}l\'{a}nk\r{u} z Wikipedie podle t\'{e}matu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2015,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/17707/"
}
Nahoru