Detail práce
Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů
Cieľom bakalárskej práce bolo rozšíriť syntaktické analyzátory projektu Apache Tika o extrakciu tabuliek a dát z priemyslových formátov dokumentov z laboratórnych prístrojov. Tieto dáta majú byť uložené v štruktúrovanom formáte podľa určitej schémy. V teoretickej časti boli preskúmané dodané industriálne formáty, projekt Apache Tika a možnosti jeho rozšírenia. V praktickej časti bol navrhnutý a implementovaný nástroj, ktorý dokumenty pomocou projektu Apache Tika klasifikuje, spracuje, vytvára z nich štruktúrované dáta vo formáte JSON a tie následne validuje. Na záver bola vytvorená sada testov pre overenie a demonštráciu vlastností riešenia.
Java, Apache Tika, Maven, weka, .arff, JSON, pdf, xlsx, csv, software, laboratória, kontrolné laboratória, bez papierové laboratórium, SVP, farmaceutický priemysel, integrita dát, Service Provider, štruktúrované dáta, MIME-typy, extrakcia dát, extrakcia tabuliek
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
- Mohl byste vysvětlit testování rychlosti Vašeho nástroje oproti Tika v kapitole 7.2? Co se vlastně srovnává a proč?
Chudý Peter, doc. Ing., Ph.D. MBA (UPGM FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Vašíček Zdeněk, doc. Ing., Ph.D. (UPSY FIT VUT), člen
@bachelorsthesis{FITBT23586, author = "Ren\'{e} Re\v{s}et\'{a}r", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Roz\v{s}\'{i}\v{r}en\'{i} Apache Tika o extrakci textu ze soubor\r{u} pr\r{u}myslov\'{y}ch form\'{a}t\r{u}", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2021, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/23586/" }