Detail práce

Strojové učení pro odpovídání na otázky v přirozeném jazyce

Bakalářská práce Student: Sasín Jonáš Akademický rok: 2020/2021 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Machine Learning for Natural Language Question Answering
Jazyk práce
český
Abstrakt

Práce se zabývá odpovídáním na otázky v přirozeném jazyce nad českou Wikipedií. Systémy pro odpovídání na otázky získávají rostoucí popularitu, většina jich ale vzniká pro angličtinu. Cílem této práce je prozkoumat dostupné možnosti a datové sady a vytvořit takový systém pro češtinu. V práci jsem se zaměřil na dva přístupy. Jeden z nich využívá pro extrakci odpovědi anglický model ALBERT a strojový překlad pasáží. Druhý využívá vícejazyčný model BERT. V práci je provedeno porovnání několika variant systému. Diskutovány jsou také možnosti získávání relevantních pasáží. Pro všechny varianty testovaných systémů je provedeno vyhodnocení pomocí standardních metrik. Nejlepší varianta systému byla vyhodnocena na datové sadě SQAD v3.0 s úspěšností 0,44 EM a 0,55 F1 skóre, což je v porovnání s existujícími systémy vynikající výsledek. Hlavním přínosem této práce je analýza možností a nasazení laťky pro další vývoj lepších systémů pro češtinu. 

Klíčová slova

zpracování přirozeného jazyka, NLP, čeština, odpovídání na otázky, strojové učení, dolování znalostí, Wikipedie, otevřená doména, SQAD, ALBERT, BERT, BM25

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby

Uvedťe či sú rozdiely spôsobené rodzielnou lematizáciou pri získavaní dokumentov (uvedené v tabuľkách 8.1 a 8.2) štatisticky signifikantné pre metriku EM. Stačí keď sa zameriate pre najlepšie výsledky pre každý typ lematizácie.

Komise
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT), předseda
Burgetová Ivana, Ing., Ph.D. (UIFS FIT VUT), člen
Kreslíková Jitka, doc. RNDr., CSc. (UIFS FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Strnadel Josef, Ing., Ph.D. (UPSY FIT VUT), člen
Citace
SASÍN, Jonáš. Strojové učení pro odpovídání na otázky v přirozeném jazyce. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/23912/
BibTeX
@bachelorsthesis{FITBT23912,
    author = "Jon\'{a}\v{s} Sas\'{i}n",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Strojov\'{e} u\v{c}en\'{i} pro odpov\'{i}d\'{a}n\'{i} na ot\'{a}zky v p\v{r}irozen\'{e}m jazyce",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23912/"
}
Nahoru