Detail práce

Využití získávání znalostí pro data z PDF souborů

Bakalářská práce Student: Dvořáček Libor Akademický rok: 2020/2021 Vedoucí: Bartík Vladimír, Ing., Ph.D.
Název anglicky
Use of Knowledge Discovery for Data from PDF Files
Jazyk práce
český
Abstrakt

Bakalářská práce se zabývá extrakcí tabulek z digitálně vytvořených pdf a následným použitím získatých dat pro datovou analýzu. Použity jsou metody redukce dimenzí a shlukové analýzy. Hlavním obsahem je rozbor dostupných nástrojů pro extrakci dat v jazyce python, popis a porovnání použitých metod strojového učení a implementace aplikace, která všechna tato témata sdružuje do jednoho funkčního celku na adrese: http://extraktor.herokuapp.com

Klíčová slova

data mining, získávání znalostí, Python, PDF, PCA, Dendrogram, T-SNE, K-MEANS, UMAP, redukce dimenzí,  vizualizace vícerozměrných dat, shluková analýza, Dash, Plotly, Heroku

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
18. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponentky práce. Student následně odpověděl na otázky oponentky a na další otázky přítomných (účelu využití vytvořeného řešení v zadavatelské firmě a její spokojenosti, technických aspektů řešení, metod shlukové analýzy). Komise se na základě posudku oponentky, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.

Otázky u obhajoby
  1. Proč jste pro extrakci dat z pdf dokumentů použil právě knihovnu pdfPlumber? Jaké jsou její výhody oproti jiným nástrojům?
Komise
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), předseda
Burgetová Ivana, Ing., Ph.D. (UIFS FIT VUT), člen
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Hrubý Martin, Ing., Ph.D. (UITS FIT VUT), člen
Španěl Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
DVOŘÁČEK, Libor. Využití získávání znalostí pro data z PDF souborů. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-18. Vedoucí práce Bartík Vladimír. Dostupné z: https://www.fit.vut.cz/study/thesis/23895/
BibTeX
@bachelorsthesis{FITBT23895,
    author = "Libor Dvo\v{r}\'{a}\v{c}ek",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Vyu\v{z}it\'{i} z\'{i}sk\'{a}v\'{a}n\'{i} znalost\'{i} pro data z PDF soubor\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23895/"
}
Nahoru