Detail práce

Zjednoznačňování pojmenovaných entit ve slovenštině

Bakalářská práce Student: Križan Samuel Akademický rok: 2021/2022 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Named Entity Disambiguation in Slovak
Jazyk práce
český
Abstrakt

Práca sa zaoberá rozpoznávaním a zjednoznačňovaním pomenovaných entít. V rámci práce bol vytvorený základný systém obsahujúci všetky prerekvizity potrebné pre zjednoznačňovanie pomenovaných entít v slovenčine. Súčasťou systému je vytvorenie znalostnej bázy z exportu slovenskej Wikipédie. Tá bola následne porovnávaná so znalostnou bázou z Wikidát, čím sa zistilo, že hlavným prínosom použitia znalostnej bázy z Wikipédie pre slovenčinu je väčšie pokrytie entitami s odkazom na slovenskú Wikipédiu a lepšie určovanie tried entít. Okrem toho bola vykonaná aj aktualizácia morfologického slovníka výskumnej skupiny KNOT@FIT, ktorá priniesla zlepšenie v rozsahu 33-39 %. Práca predpokladá možné využitie v spojitosti s rozšírením systému o zjednoznačňovací modul a zlepšením pokrytia alternatívnych pomenovaní.

Klíčová slova

pomenovaná entita, rozpoznávanie pomenovaných entít, zjednoznačňovanie pomenovaných entít, znalostná báza, Wikipédia, extrakcia informácií

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
15. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby
  1. Na straně 20 píšete, že při tvorbě znalostní báze dochází k přetěžování API Wikipedie. Proč tedy používáte API a nezískáváte potřebné informace z offline souborů, které by pro Vaše potřeby měly být dostupné?
  2. Na straně 25 uvádíte, že při aktualizaci znalostní báze přidáváte unikátní entity ze staré verze Wikipedie do nové verze. Nemůže mít jejich odstranění racionální důvod (např. porušení pravidel Wikipedie)? Můžete porotě ukázat několik příkladů odstranění entit z Wikipedie a uvést pravděpodobné důvody, proč k tomu došlo?
  3. Jaký je vztah mezi češtinou a slovenštinou z hlediska morfologie?
Komise
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), předseda
Bařina David, Ing., Ph.D. (UPGM FIT VUT), člen
Hynek Jiří, Ing., Ph.D. (UIFS FIT VUT), člen
Kekely Lukáš, Ing., Ph.D. (UPSY FIT VUT), člen
Rogalewicz Adam, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Citace
KRIŽAN, Samuel. Zjednoznačňování pojmenovaných entit ve slovenštině. Brno, 2022. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-15. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/24563/
BibTeX
@bachelorsthesis{FITBT24563,
    author = "Samuel Kri\v{z}an",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Zjednozna\v{c}\v{n}ov\'{a}n\'{i} pojmenovan\'{y}ch entit ve sloven\v{s}tin\v{e}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/24563/"
}
Nahoru