Detail práce

Odhad obličeje z řečového signálu

Bakalářská práce Student: Krušina Josef Akademický rok: 2021/2022 Vedoucí: Plchot Oldřich, Ing., Ph.D.
Název anglicky
Learning the Face Behind a Voice
Jazyk práce
český
Abstrakt

Tato práce řeší problém mapování fixních reprezentací (embeddingů) řečového signálu na embeddingy obličejů a následné generování obličeje z namapovaného embeddingu pomocí generativní adverzní sítě (GAN) naučené na generování obličejů. GAN jsou druhem neuronových sítí, které umí generovat data podobná těm, na kterých se trénovala. Architektura navrženého systému je založena na čtyřech komponentách: na extraktoru embeddingů obličeje, na extraktoru embeddingů hlasu, na algoritmu nad GAN, který umí generovat obličej z embeddingu obličeje a na mnou implementované mapovací síti určené k mapování embeddingu hlasu na embedding obličeje. Jako extraktory embeddingů jsou převzaty předtrénované neuronové sítě FaceNet a SpeechBrain. Pro zpětné generování obličeje je převzatý model používající předtrénovaný StyleGAN2. Přínos této práce je ten, že dovoluje extrapolovat obličej pouze z audio signálu.

Klíčová slova

Extrakce příznaků, Mapování, Embedding, FaceNet, SpeechBrain, StyleGAN2

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
15. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Jak moc je Vaše mapovací NN náchylná k přetrénování?
  2. S jakými nároky (i časovými) je potřeba počítat při trénování modelů pro aplikaci a jak dlouho trvá testovací fáze pro jednoho mluvčího?
  3. Kdybyste pracoval na této práci ještě rok, co by byly další kroky, kterými byste zlepšil systém?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Citace
KRUŠINA, Josef. Odhad obličeje z řečového signálu. Brno, 2022. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-15. Vedoucí práce Plchot Oldřich. Dostupné z: https://www.fit.vut.cz/study/thesis/24895/
BibTeX
@bachelorsthesis{FITBT24895,
    author = "Josef Kru\v{s}ina",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Odhad obli\v{c}eje z \v{r}e\v{c}ov\'{e}ho sign\'{a}lu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/24895/"
}
Nahoru