Detail práce

Extrakce informací z Wikipedie

Bakalářská práce Student: Valušek Ondřej Akademický rok: 2018/2019 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Information Extraction from Wikipedia
Jazyk práce
český
Abstrakt

Tato práce se zabývá automatickou extrakcí typů entit ve článcích anglické Wikipedie a jejich vybraných atributů. Jsou v ní představeny postupy za využití prvků strojového učení, které lze ke splnění tohoto účelu využít. Z článků jsou také extrahovány některé důležité atributy, jako například data narození u osob, rozlohy u jezer a podobně. Pomocí systému představeného v této práci je možné ze souboru obsahující všechny články Wikipedie (tzv. dump souboru) vytvořit znalostní databázi, ve které budou klasifikovány miliony článků, dle typu entity o které pojednávají, na základě malé tréninkové sady. Při tomto procesu je také generován soubor, kde jsou kromě ostatních příznaků z článků extrahována tzv. definiční slova, což jsou klíčová slova nalezena pomocí analýzy přirozeného textu. Ta je možno použít také v jiných oblastech, než pouze při určování typů entit. Součástí celého systému je také modul, který označí změny mezi jednotlivými verzemi znalostní databáze, tedy například, které články byly přidány, které smazány a u kterých se udála změna.

Klíčová slova

klasifikace článků, určování typů entit, přirozený text, zpracování přirozeného jazyka, určováníslovních druhů, SpaCy, Stanford CoreNLP, Wikipedie, SVM, Metoda podpůrnýchvektorů, strojové učení, umělá inteligence, extrakce atributů

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
10. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby
  1. Na straně 7 uvádíte, že jste do vyhodnocení zahrnul pouze typy entit, které získaly úspěšnost alespoň 80 %. Můžete komisi ukázat, jaká byla úspěšnost pro ostatní typy entit, které jste do práce nezahrnul?
  2. Na straně 39 uvádíte, že v květnové verzi dumpu Wikipedie bylo smazáno 144 820 článků, které se nacházely v dubnové verzi. Můžete zkusit tyto smazané články zběžně analyzovat a shrnout komisi předpokládané hlavní důvody jejich smazání? Nemohlo se stát, že došlo pouze k jejich přejmenování?
Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
VALUŠEK, Ondřej. Extrakce informací z Wikipedie. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-10. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/18942/
BibTeX
@bachelorsthesis{FITBT18942,
    author = "Ond\v{r}ej Valu\v{s}ek",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Extrakce informac\'{i} z Wikipedie",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18942/"
}
Nahoru