Detail práce

Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů

Bakalářská práce Student: Rešetár René Akademický rok: 2020/2021 Vedoucí: Rychlý Marek, RNDr., Ph.D.
Název anglicky
Extension of Apache Tika with Industrial File Formats Text Extraction
Jazyk práce
český
Abstrakt

Cieľom bakalárskej práce bolo rozšíriť syntaktické analyzátory projektu Apache Tika o extrakciu tabuliek a dát z priemyslových formátov dokumentov z laboratórnych prístrojov. Tieto dáta majú byť uložené v štruktúrovanom formáte podľa určitej schémy. V teoretickej časti boli preskúmané dodané industriálne formáty, projekt Apache Tika a možnosti jeho rozšírenia. V praktickej časti bol navrhnutý a implementovaný nástroj, ktorý dokumenty pomocou projektu Apache Tika klasifikuje, spracuje, vytvára z nich štruktúrované dáta vo formáte JSON a tie následne validuje. Na záver bola vytvorená sada testov pre overenie a demonštráciu vlastností riešenia.

Klíčová slova

Java, Apache Tika, Maven, weka, .arff, JSON, pdf, xlsx, csv, software, laboratória, kontrolné laboratória, bez papierové laboratórium, SVP, farmaceutický priemysel, integrita dát, Service Provider, štruktúrované dáta, MIME-typy, extrakcia dát, extrakcia tabuliek

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
14. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Mohl byste vysvětlit testování rychlosti Vašeho nástroje oproti Tika v kapitole 7.2? Co se vlastně srovnává a proč?
Komise
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), předseda
Chudý Peter, doc. Ing., Ph.D. MBA (UPGM FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Vašíček Zdeněk, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Citace
REŠETÁR, René. Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-14. Vedoucí práce Rychlý Marek. Dostupné z: https://www.fit.vut.cz/study/thesis/23586/
BibTeX
@bachelorsthesis{FITBT23586,
    author = "Ren\'{e} Re\v{s}et\'{a}r",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Roz\v{s}\'{i}\v{r}en\'{i} Apache Tika o extrakci textu ze soubor\r{u} pr\r{u}myslov\'{y}ch form\'{a}t\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23586/"
}
Nahoru