Detail práce

Extrakce informací z webových stránek

Diplomová práce Student: Bukovčák Jakub Akademický rok: 2018/2019 Vedoucí: Burget Radek, doc. Ing., Ph.D.
Název anglicky
Information Extraction from Web Pages
Jazyk práce
český
Abstrakt

Táto diplomová práca sa zaoberá súčasným stavom technológií používaných na sťahovanie webových stránok a extrakciou štruktúrovaných informácií z nich. Popisuje dostupné nástroje, ktoré umožňujú a zjednodušujú tento proces. Ďalej sa venuje základnému prehľadu technológií používaných pre vytváranie webových stránok. Nachádzajú sa tu informácie o tvorbe informačných systémov s webovým používateľským rozhraním v prostredí Java Enterprise Edition (Java EE). Hlavnou časťou je návrh a implementácia webovej aplikácie pre definíciu a správu extrakčných úloh. V závere je popísané testovanie aplikácie na reálnych webových stránkach a zhodnotenie dosiahnutých výsledkov.

Klíčová slova

HLRT wrapper, extrakcia informácií z HTML, Java EE, Web Crawling, sťahovanie HTML dokumentov

Ústav
Studijní program
Informační technologie, obor Informační systémy
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
20. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. Popište možný způsob rozšíření aplikace o další komponenty pro stahování a extrakci.
Komise
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT), předseda
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), člen
Malinka Kamil, Mgr., Ph.D. (UITS FIT VUT), člen
Rybička Jiří, doc. Ing. Dr. (Mendelu), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
BUKOVČÁK, Jakub. Extrakce informací z webových stránek. Brno, 2019. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-20. Vedoucí práce Burget Radek. Dostupné z: https://www.fit.vut.cz/study/thesis/21836/
BibTeX
@mastersthesis{FITMT21836,
    author = "Jakub Bukov\v{c}\'{a}k",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Extrakce informac\'{i} z webov\'{y}ch str\'{a}nek",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/21836/"
}
Nahoru