Detail práce

Visual Question Answering

Bakalářská práce Student: Kocurek Pavel Akademický rok: 2020/2021 Vedoucí: Fajčík Martin, Ing.
Název česky
Systém pro odpovídaní na otázky s využitím obrazu
Jazyk práce
anglický
Abstrakt

Visual Question Answering (VQA) je systém, kde je vstupem obrázek s otázkou a výstupem je odpověď. Navzdory mnoha pokrokům ve výzkumu se VQA, na rozdíl od počítačově generovaných popisů obrázků, v praxi používá jen zřídka. Cílem této práce je zúžit mezeru mezi výzkumem a praxí. Z tohoto důvodu byla kontaktována komunita zrakově postižených a byla jim nabídnuta demonstrativní aplikace VQA a následně byla vytvořena mobilní aplikace. Byla provedena studie s 20 účastníky z komunity. Nejprve účastníci zkoušeli demonstrativní aplikaci po dobu dvou týdnů a následně byli požádáni o vyplnění dotazníku.  80 % respondentů hodnotilo přesnost aplikace VQA jako dostatečnou nebo lepší a většina z nich by ocenila, kdyby jejich aplikace pro generování popisů podporovala také VQA. Po tomto zjištění práce porovná získané znalosti z VQA se znalostmi z popisů v různých scénářích. Byla vytvořena datová sada 111 obrázků různorodých scén s ručně anotovanými popisky. Experiment porovnávající získané znalosti ukázal úspěšnost 69,9 % pro VQA a 46,2 % pro popisy obrázků. V dalším experimentu v 70,9 % případů účastníci vybrali správný popis za pomocí VQA. Výsledky naznačují, že pomocí VQA je možné zjistit více znalostí o detailech obrázků než je to v případě generovaných popisů.

Klíčová slova

odpovídání na otázky z obrazu, zpracování přirozeného jazyka, odpovídání na otázky, popisování obrázku, hluboké učení, dotazník, rnn, lstm, bert, detekce objetků

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. V čem se liší architektura sítě Pythia od architektury up-down?
  2. Srovnejte síť Pythia se sítí OSCAR.
  3. Použil jste předtrénované modely, nebo jste je sám trénoval?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
KOCUREK, Pavel. Visual Question Answering. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Fajčík Martin. Dostupné z: https://www.fit.vut.cz/study/thesis/22598/
BibTeX
@bachelorsthesis{FITBT22598,
    author = "Pavel Kocurek",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Visual Question Answering",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/22598/"
}
Nahoru