Detail práce

Automatizovaná extrakce informací z emailů

Bakalářská práce Student: Kanda Rastislav Akademický rok: 2018/2019 Vedoucí: Vídeňský František, Ing.
Název anglicky
Automated Extraction of Information from Emails
Jazyk práce
český
Abstrakt

Táto práca má za úlohu oboznámiť sa s možnosťami extrakcie informácií z textu. Na základe získaných poznatkov navrhnúť a implementovať systém, ktorý bude schopný získať potrebné informácie z emailových správ. Navrhnutý systém má pomôcť firme Kiwi.com s.r.o. v spracovávaní emailových správ od dopravných spoločností. V momentálnej sitácii je možné tieto emailové správy spracovávať automaticky. Avšak na to aby mohli byť automaticky spracované, je nutné manuálne vytvoriť šablónu pre extrakciu dát zo správy. Zmenou v tomto prístupe je algoritmus ROBULA+, ktorý dokáže po zadaní lokátoru XPath, vygenerovať robustnejší XPath lokátor, ktorý bude odolnejší voči zmenám štruktúry v zdrojovom kóde HTML. Algoritmus ROBULA+ je použitý ako centrálny prvok pri automatizácii vytvárania šablón pre spracovávanie emailových správ. Úspešnosť implementovaného systému je možné označiť za dostačujúcu (približne 75%), čo znamená že v troch zo štyroch správach je možné úspešne získať referenciu k vytvorenej rezervácii.

Klíčová slova

extrakcia informácií, email, ROBULA+, automatizácia, REST API, XPath, Python

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
10. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. Na straně 20 píšete, že spolehlivost 51.9% při zpracování emailů je přijatelná. Na jakém základě jste toto hodnocení udělal a kde je hranice přijatelnosti a jak s určí?
  2. Můžete konkrétněji vysvětlit vaše konstatování v sekci 4.7, že "Byť webovou aplikáciou, znamená dokázať zvládnuť niekoľko požiadavkov v jeden moment."?
  3. Bude Vaše práce použita v praxi?
Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
KANDA, Rastislav. Automatizovaná extrakce informací z emailů. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-10. Vedoucí práce Vídeňský František. Dostupné z: https://www.fit.vut.cz/study/thesis/22028/
BibTeX
@bachelorsthesis{FITBT22028,
    author = "Rastislav Kanda",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Automatizovan\'{a} extrakce informac\'{i} z email\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/22028/"
}
Nahoru