Kontrola konzistence informací extrahovaných z textu

Název anglicky

Consistency Checking of Relations Extracted from Text

Jazyk práce

český

Abstrakt

Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému.

Klíčová slova

Wikipedia, korpus, DBpedia, koreference, extrakce informací, NLP, rozpoznávání jmenných entit, Open Information Extraction, kontrola konzistence, extrakce entit

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

obhájeno, hodnocení E

Obhajoba

15. června 2016

Oponent

Otrusina Lubomír, Ing.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.

Otázky u obhajoby

V práci píšete, že jste implementoval vlastní rozpoznávač jmenných entit, protože data, která byla zpracována používaným systémem NER, byla nepřesná. Dělal jste nějaké exaktní porovnání nebo je to jen Vaše domněnka? Proč jste nepoužil nějaký standardní nástroj pro rozpoznávání jmenných entit a pustil jste se do vlastní implementace?
V práci píšete, že jste vyextrahoval pouhých 435 473 vztahů pro 7 481 416 entit, přesto tvrdíte, že dosahujete pokrytí 74,46 %. Jak je to možné?

Komise

Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT), předseda
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Vašíček Zdeněk, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), člen

Citace

STEJSKAL, Jakub. Kontrola konzistence informací extrahovaných z textu. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-15. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/18808/

BibTeX

@bachelorsthesis{FITBT18808,
    author = "Jakub Stejskal",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Kontrola konzistence informac\'{i} extrahovan\'{y}ch z textu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18808/"
}