Detail práce

Kontrola konzistence informací extrahovaných z textu

Bakalářská práce Student: Stejskal Jakub Akademický rok: 2015/2016 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Consistency Checking of Relations Extracted from Text
Jazyk práce
český
Abstrakt

Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému.

Klíčová slova

Wikipedia, korpus, DBpedia, koreference, extrakce informací, NLP, rozpoznávání jmenných entit, Open Information Extraction, kontrola konzistence, extrakce entit

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení E
Obhajoba
15. června 2016
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.

Otázky u obhajoby
  1. V práci píšete, že jste implementoval vlastní rozpoznávač jmenných entit, protože data, která byla zpracována používaným systémem NER, byla nepřesná. Dělal jste nějaké exaktní porovnání nebo je to jen Vaše domněnka? Proč jste nepoužil nějaký standardní nástroj pro rozpoznávání jmenných entit a pustil jste se do vlastní implementace?
  2. V práci píšete, že jste vyextrahoval pouhých 435 473 vztahů pro 7 481 416 entit, přesto tvrdíte, že dosahujete pokrytí 74,46 %. Jak je to možné?
Komise
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), předseda
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Vašíček Zdeněk, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), člen
Citace
STEJSKAL, Jakub. Kontrola konzistence informací extrahovaných z textu. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-15. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/18808/
BibTeX
@bachelorsthesis{FITBT18808,
    author = "Jakub Stejskal",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Kontrola konzistence informac\'{i} extrahovan\'{y}ch z textu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18808/"
}
Nahoru