Detail práce

Čištění, extrakce textu a převod webových stránek do vertikálního formátu

Bakalářská práce Student: Švaňa Miloš Akademický rok: 2015/2016 Vedoucí: Dytrych Jaroslav, Ing., Ph.D.
Název anglicky
Cleaning, extraction of text and transformation of web pages into vertical format
Jazyk práce
český
Abstrakt

Táto práca za zaoberá problematikou extrakcie textu z webových stránok, rozlíšením dôležitého obsahu a jeho prevodom do vertikálneho formátu, ktorý je vhodný na ďalšie spracovanie z pohľadu analýzy prirodzeného jazyka. Analyzuje existujúce riešenie a jeho komponenty so zameraním predovšetkým na jeho nedostatky a popisuje návrh a implemetáciu riešenia nového využívajúce získané znalosti.

Klíčová slova

Vertikalizácia, web, CommonCrawl, extrakcia textu, Justext, Boilerpipe, klasifikácia textu, spracovanie prirodzeného jazyka.

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
15. června 2016
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Na straně 14, v sekci popisující způsoby porovnávání nástrojů Justext a Boilerpipe píšete, že když jeden z nástrojů selže, bod je přidělen automaticky jeho konkurentovi. Co když ale bude výstup konkurenčního nástroje zcela špatný? Taká mu přidělíte bod?
  2. Na straně 16 uvádíte, že celý vertikalizátor je navržen jako sada nástrojů, které mezi sebou komunikují podobně jako roury v Unixu. Jak přesně jednotlivé nástroje v proudu dat rozpoznají hranice mezi jednotlivými dokumenty?
Komise
Zendulka Jaroslav, doc. Ing., CSc. (UIFS FIT VUT), předseda
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Kotásek Zdeněk, doc. Ing., CSc. (UPSY FIT VUT), člen
Matoušek Petr, doc. Ing., Ph.D., M.A. (UIFS FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Citace
ŠVAŇA, Miloš. Čištění, extrakce textu a převod webových stránek do vertikálního formátu. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-15. Vedoucí práce Dytrych Jaroslav. Dostupné z: https://www.fit.vut.cz/study/thesis/18729/
BibTeX
@bachelorsthesis{FITBT18729,
    author = "Milo\v{s} \v{S}va\v{n}a",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "\v{C}i\v{s}t\v{e}n\'{i}, extrakce textu a p\v{r}evod webov\'{y}ch str\'{a}nek do vertik\'{a}ln\'{i}ho form\'{a}tu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18729/"
}
Nahoru