Detail práce

Metody extrakce dat z webových stránek

Bakalářská práce Student: Perina Lukáš Akademický rok: 2020/2021 Vedoucí: Burget Radek, doc. Ing., Ph.D.
Jazyk práce
slovenský
Abstrakt

Cieľom tejto bakalárskej práce je návrh architektúry a následná implementácia aplikácie, ktorá je určená na extrakciu dát (web scraping) z webových dokumentov. Na rozdiel od konvenčných metód sa jedná o extrakciu založenú na definovaní dátových typov a regulárnych výrazov hľadaných prvkov. Extrakcia prebieha tak, aby nebolo potrebné poznať detailnú štruktúru daného webového dokumentu a aby bolo umožnené použitie jednej definície na detekciu hľadaných prvkov na rôznych webových stránkach. Algoritmus dosahuje priemernú presnosť 85,51% a recall 80,28%. Týmto prístupom sa umožní zredukovať čas potrebný na analýzu jednotlivých stránok na minimum a nebrať štruktúru kódu, ako určujúci faktor pri vytváraní požiadaviek na web scraping.

Klíčová slova

Web scraping, Javascript, Node.js, Google Chrome, Chromium, JSON, Extrakcia dát, scraping, web, DOM, CSS, HTML, Puppeteer

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B

Otázky u obhajoby
  1. U knihovny Puppeteer jste zmiňoval především výhody, můžete se zamyslet i nad nevýhodami použití této knihovny?
  2. Chápu, že v současné době není k dispozici žádná srovnávací testovací sada pro alternativní nástroje, ale dle zmínky v textu byl vytvořen jiným studentem alternativní nástroj s jiným přístupem k extrakci, ale využívající stejné testovací sady. Můžete provést alespoň srovnání s kolegou z hlediska přesnosti a časové náročnosti pro jednotlivé sady?
  3. Jaký programovací jazyk jste použil a kolik řádků jste přibližně implementoval?
Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Burgetová Ivana, Ing., Ph.D. (UIFS FIT VUT), člen
Kreslíková Jitka, doc. RNDr., CSc. (UIFS FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Strnadel Josef, Ing., Ph.D. (UPSY FIT VUT), člen
Citace
PERINA, Lukáš. Metody extrakce dat z webových stránek. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Burget Radek. Dostupné z: https://www.fit.vut.cz/study/thesis/23941/
BibTeX
@bachelorsthesis{FITBT23941,
    author = "Luk\'{a}\v{s} Perina",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Metody extrakce dat z webov\'{y}ch str\'{a}nek",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "slovak",
    url = "https://www.fit.vut.cz/study/thesis/23941/"
}
Nahoru