Detail práce
Extrakce informací z webových stránek
Táto diplomová práca sa zaoberá súčasným stavom technológií používaných na sťahovanie webových stránok a extrakciou štruktúrovaných informácií z nich. Popisuje dostupné nástroje, ktoré umožňujú a zjednodušujú tento proces. Ďalej sa venuje základnému prehľadu technológií používaných pre vytváranie webových stránok. Nachádzajú sa tu informácie o tvorbe informačných systémov s webovým používateľským rozhraním v prostredí Java Enterprise Edition (Java EE). Hlavnou časťou je návrh a implementácia webovej aplikácie pre definíciu a správu extrakčných úloh. V závere je popísané testovanie aplikácie na reálnych webových stránkach a zhodnotenie dosiahnutých výsledkov.
HLRT wrapper, extrakcia informácií z HTML, Java EE, Web Crawling, sťahovanie HTML dokumentov
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
- Popište možný způsob rozšíření aplikace o další komponenty pro stahování a extrakci.
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), člen
Malinka Kamil, Mgr., Ph.D. (UITS FIT VUT), člen
Rybička Jiří, doc. Ing. Dr. (Mendelu), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
@mastersthesis{FITMT21836, author = "Jakub Bukov\v{c}\'{a}k", type = "Diplomov\'{a} pr\'{a}ce", title = "Extrakce informac\'{i} z webov\'{y}ch str\'{a}nek", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/21836/" }