Detail práce

Sémantická analýza webového obsahu

Diplomová práce Student: Hubl Lukáš Akademický rok: 2019/2020 Vedoucí: Burget Radek, doc. Ing., Ph.D.
Název anglicky
Semantic Analysis of Web Content
Jazyk práce
český
Abstrakt

Tato práce se zabývá problematikou sémantického webu, segmentace webových stránek a technologiemi, které se v těchto oblastech využívají. Dále se zaobírá modifikací jedné z metod pro segmentaci webových stránek, konkrétně metodou využívající DOM stromu, s využitím technologií z oblasti sémantického webu. Tedy navrhuje způsob segmentace webové stránky na základě sémantické analýzy obsahu jednotlivých prvků webové stránky. V rámci této práce byla také vytvořena aplikace, která demonstruje funkcionalitu navržené metody. S aplikací byly následně prováděny experimenty, jejichž zhodnocení je také součástí této práce.

Klíčová slova

Sémantický web, RDF, RDFS, RDF/XML, ontologie, DBpedia, DBpedia-Spotlight, Segmentace webových stránek, Python, lxml, Pyspotlight

Ústav
Studijní program
Informační technologie, obor Informační systémy
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
15. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. V kap. 6.2 popisujete různé testování celé aplikace. Jak probíhalo testování jejích komponent během vývoje (jednotkové testy)?
  2. Zkoušel jste také jiné možnosti stáhnutí kompletní webové stránky (např. "wget --mirror"), než Vámi implementované řešení s využitím Selenium nad prohlížečem Firefox? Proč jste se rozhodl zrovna pro složité řešení s využitím nástroje Selenium?
  3. V kap. 7.1.1 "Referenční výsledek - Ground truth" popisujete ruční segmentaci pro získání referenčních dat. Jaký je Váš a jaký je obvyklý postup dle literatury či obdobných nástrojů (v kap. není žádná citace)?
  4. Zvažoval jste možnost automatizace vyhodnocení testů?
Komise
Ryšavý Ondřej, doc. Ing., Ph.D. (UIFS FIT VUT), předseda
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Grégr Matěj, Ing., Ph.D. (UIFS FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Kořenek Jan, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
HUBL, Lukáš. Sémantická analýza webového obsahu. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-15. Vedoucí práce Burget Radek. Dostupné z: https://www.fit.vut.cz/study/thesis/22669/
BibTeX
@mastersthesis{FITMT22669,
    author = "Luk\'{a}\v{s} Hubl",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "S\'{e}mantick\'{a} anal\'{y}za webov\'{e}ho obsahu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/22669/"
}
Nahoru