Detail práce

Crowdsourcingová tvorba datové sady pro rozpoznání struktury vyprávění

Bakalářská práce Student: Ignác Igor Akademický rok: 2019/2020 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název anglicky
Creating Dataset for Narrative Structure Recognition by Crowdsourcing
Jazyk práce
český
Abstrakt

Cieľom tejto práce je vytvorenie rozsiahlej dátovej sady pre rozpoznanie štruktúry rozprávania metódou crowdsourcingu. Pre tento účel bolo nutné vytvoriť webové rozhranie umožňujúce anotáciu dátovej sady filmov užívateľmi. Anotovanie dát získaných z filmovej databázy IMDb v aplikácii je založené na troch odlišných typoch anotácie. Užívatelia validujú výpočet podobností obsahov filmov modelom Sentence-BERT, extrakciu kľúčových slov z obsahov filmov modelom RAKE a predpočítané podobnosti filmov na základe ich kľúčových slov. Gamifikácia užívateľov je postavená na priradzovaní bodov a s nimi spojenými odznakmi, úspechoch a rebríčku najúspešnejších užívateľov.

Klíčová slova

Crowdsourcing, gamifikácia, webová aplikácia, podobnosť príbehov, extrakcia kľúčových slov, Sentence-BERT, RAKE, Angular

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
8. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby
  1. V práci uvádíte, že jste uživatele odměňoval vyšší bodovou odměnou v případech, kdy označil věty, které SentenceBERT nevyhodnotil jako přínosné pro porovnání filmů. Zvažoval jste, jaké negativní důsledky na anotace to mohlo mít?
  2. Proč jste v tabulkách na obrázcích 8.4 a 8.5 nezařadil žádné trénovací vzorky do Vaší datové sady?
  3. Jaké jiné jazyky jste zvažoval?
  4. Je nějaký problém přepnout jazyk řešení do jiného jazyka?
  5. Jaká jsou praktická uplatnění?
  6. Dalo by se řešení aplikovat i na psanou literaturu?
  7. Jak velkou roli hraje struktura vyprávění?
  8. Mohl by být systém využit k hledání plagiátů?
Komise
Ryšavý Ondřej, doc. Ing., Ph.D. (UIFS FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Fučík Otto, doc. Dr. Ing. (UPSY FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
IGNÁC, Igor. Crowdsourcingová tvorba datové sady pro rozpoznání struktury vyprávění. Brno, 2020. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-08. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/22792/
BibTeX
@bachelorsthesis{FITBT22792,
    author = "Igor Ign\'{a}c",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Crowdsourcingov\'{a} tvorba datov\'{e} sady pro rozpozn\'{a}n\'{i} struktury vypr\'{a}v\v{e}n\'{i}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/22792/"
}
Nahoru