Detail práce

Inteligentní extrakce dat ve webovém prohlížeči

Bakalářská práce Student: Maštera František Akademický rok: 2020/2021 Vedoucí: Burget Radek, doc. Ing., Ph.D.
Název anglicky
Intelligent Data Scraping in a Web Browser
Jazyk práce
český
Abstrakt

Cílem této práce je získání dat z webových stránek bez znalosti jejich vnitřní struktury. Podstatou je rozpoznání této struktury pomocí algoritmu a zadaným vstupním informacím o obsahu, který chce uživatel extrahovat. Po analýze struktury následuje extrakce samotného obsahu. Na vybraných sadách internetových stránek se podařilo dosáhnout průměrné úspěšnosti přes 80%. Výsledný algoritmus představuje nový přístup k extrakci dat a může být nasazen v reálném světě, nebo může být součástí dalšího vývoje.

Klíčová slova

Zpracování dokumentu, extrakce dat, rozpoznávání struktur dokumentu, web, TypeScript, Puppeteer

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Existuje podobný systém, se kterým by bylo možné vaše výsledky porovnat?
  2. Popište, jak si představujete, že byste rozšířil vaše řešení o metody strojového učení, jak zmiňujete v závěru.
  3. V čem spočívá inteligence z názvu práce?
Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Burgetová Ivana, Ing., Ph.D. (UIFS FIT VUT), člen
Kreslíková Jitka, doc. RNDr., CSc. (UIFS FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Strnadel Josef, Ing., Ph.D. (UPSY FIT VUT), člen
Citace
MAŠTERA, František. Inteligentní extrakce dat ve webovém prohlížeči. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Burget Radek. Dostupné z: https://www.fit.vut.cz/study/thesis/23533/
BibTeX
@bachelorsthesis{FITBT23533,
    author = "Franti\v{s}ek Ma\v{s}tera",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Inteligentn\'{i} extrakce dat ve webov\'{e}m prohl\'{i}\v{z}e\v{c}i",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23533/"
}
Nahoru