Detail práce
Extrakce informací z Wikipedie
Tato práce se zabývá automatickou extrakcí typů entit ve článcích anglické Wikipedie a jejich vybraných atributů. Jsou v ní představeny postupy za využití prvků strojového učení, které lze ke splnění tohoto účelu využít. Z článků jsou také extrahovány některé důležité atributy, jako například data narození u osob, rozlohy u jezer a podobně. Pomocí systému představeného v této práci je možné ze souboru obsahující všechny články Wikipedie (tzv. dump souboru) vytvořit znalostní databázi, ve které budou klasifikovány miliony článků, dle typu entity o které pojednávají, na základě malé tréninkové sady. Při tomto procesu je také generován soubor, kde jsou kromě ostatních příznaků z článků extrahována tzv. definiční slova, což jsou klíčová slova nalezena pomocí analýzy přirozeného textu. Ta je možno použít také v jiných oblastech, než pouze při určování typů entit. Součástí celého systému je také modul, který označí změny mezi jednotlivými verzemi znalostní databáze, tedy například, které články byly přidány, které smazány a u kterých se udála změna.
klasifikace článků, určování typů entit, přirozený text, zpracování přirozeného jazyka, určováníslovních druhů, SpaCy, Stanford CoreNLP, Wikipedie, SVM, Metoda podpůrnýchvektorů, strojové učení, umělá inteligence, extrakce atributů
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
- Na straně 7 uvádíte, že jste do vyhodnocení zahrnul pouze typy entit, které získaly úspěšnost alespoň 80 %. Můžete komisi ukázat, jaká byla úspěšnost pro ostatní typy entit, které jste do práce nezahrnul?
- Na straně 39 uvádíte, že v květnové verzi dumpu Wikipedie bylo smazáno 144 820 článků, které se nacházely v dubnové verzi. Můžete zkusit tyto smazané články zběžně analyzovat a shrnout komisi předpokládané hlavní důvody jejich smazání? Nemohlo se stát, že došlo pouze k jejich přejmenování?
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Holík Lukáš, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT18942, author = "Ond\v{r}ej Valu\v{s}ek", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Extrakce informac\'{i} z Wikipedie", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/18942/" }