Detail práce
Kontrola konzistence informací extrahovaných z textu
Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému.
Wikipedia, korpus, DBpedia, koreference, extrakce informací, NLP, rozpoznávání jmenných entit, Open Information Extraction, kontrola konzistence, extrakce entit
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.
- V práci píšete, že jste implementoval vlastní rozpoznávač jmenných entit, protože data, která byla zpracována používaným systémem NER, byla nepřesná. Dělal jste nějaké exaktní porovnání nebo je to jen Vaše domněnka? Proč jste nepoužil nějaký standardní nástroj pro rozpoznávání jmenných entit a pustil jste se do vlastní implementace?
- V práci píšete, že jste vyextrahoval pouhých 435 473 vztahů pro 7 481 416 entit, přesto tvrdíte, že dosahujete pokrytí 74,46 %. Jak je to možné?
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Vašíček Zdeněk, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), člen
@bachelorsthesis{FITBT18808, author = "Jakub Stejskal", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Kontrola konzistence informac\'{i} extrahovan\'{y}ch z textu", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2016, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/18808/" }