Detail práce

Detekce vizuálních vzorů ve webových stránkách

Diplomová práce Student: Kotraš Martin Akademický rok: 2021/2022 Vedoucí: Burget Radek, doc. Ing., Ph.D.
Název anglicky
Visual Pattern Detection in Web Pages
Jazyk práce
český
Abstrakt

Práce řeší extrakci informací z webových stránek pomocí techniky vyhledávání vizuálních vzorů - prostorových vztahů mezi oblastmi na webové stránce a stejných vizuálních stylů těchto oblastí - s rozšířením o nové techniky zlepšení výsledků. Využívá přitom uživatelem zadaného ontologického modelu dat, který popisuje, které datové položky se budou ze zadané webové stránky extrahovat a jak jednotlivé položky na stránce vypadají zejména z textového pohledu.V rámci práce vznikla konzolová aplikace VizGet v jazyce Java využívající aplikační rámec FitLayout pro získání vizuálního modelu webové stránky. Testování aplikace na 7 různých doménách zahrnujících mj. žebříček nejlepších filmů, produktů v elektronickém obchodě nebo předpovědi počasí ukázalo, že se úspěšnost aplikace pohybuje ve zhruba 75 % dílčích testů nad 85 % F-skóre a ve více než 90 % testů nad 60 % F-skóre, kde 45 % testů dosahuje F-skóre 100 %. Aplikace VizGet tak může být nasazena pro praktické využití v nekritických aplikacích, přičemž je otevřena dalším rozšířením a možnostem zlepšení.

Klíčová slova

extrakce informací, extraktor, vizuální vzory, webové stránky, VizGet, FitLayout

Ústav
Studijní program
Informační technologie a umělá inteligence, specializace Informační systémy a databáze
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
21. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm ...

Otázky u obhajoby
  1. Existuje nějaký algoritmus, který by se dal s vašim řešením porovnat? Pokud ano, stručně ho porovnejte s vašim řešením.
  2. Bylo by možné nahradit vstup ve formátu ontologie jiným, pro běžného uživatele jednodušším vstupem?
  3. Mohl byste uvést jak identifikujete jednotlivé části html stránek, například nadpis?
Komise
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT), člen
Hynek Jiří, Ing., Ph.D. (UIFS FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Vojnar Tomáš, prof. Ing., Ph.D. (UITS FIT VUT), člen
Citace
KOTRAŠ, Martin. Detekce vizuálních vzorů ve webových stránkách. Brno, 2022. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-21. Vedoucí práce Burget Radek. Dostupné z: https://www.fit.vut.cz/study/thesis/24460/
BibTeX
@mastersthesis{FITMT24460,
    author = "Martin Kotra\v{s}",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Detekce vizu\'{a}ln\'{i}ch vzor\r{u} ve webov\'{y}ch str\'{a}nk\'{a}ch",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/24460/"
}
Nahoru