Detail práce
Odhad obličeje z řečového signálu
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
konvoluční neuronové sítě, ResNet, GAN, zpracování řeči, umělá inteligence, generativní adverzní sítě, zpracování obrazu, Python, PyTorch, odhad obličeje, StyleGAN
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
- Z kodéru, jenž je založen na architektuře ResNet, jsou extrahovány 3 vnitřní reprezentace využívané pro tvorbu stylů (Obrázek 3.4). Komentujte důvod a důsledky využití sčítání vnitřní reprezentace s nadvzorkovanou reprezentací na vyšší úrovni.
- Normalizace ("frontalizace") obrázků obličejů trvala dle zprávy 1500 hodin (62,5 dne). Využil jste nějaký přístup k paralelizaci výpočtu? Pakliže výpočet neprobíhal sériově, jak dlouho reálně trval?
- Zkuste se zamyslet nad možností předtrénování kodéru pouze pomocí "Style loss". Tento přístup by se koncepčně podobal Speech2Face. Jaké jsou potenciální benefity a problémy spojené s tímto předtrénováním?
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Zbořil František V., doc. Ing., CSc. (UITS FIT VUT), člen
@mastersthesis{FITMT24862, author = "Petr Zubal\'{i}k", type = "Diplomov\'{a} pr\'{a}ce", title = "Odhad obli\v{c}eje z \v{r}e\v{c}ov\'{e}ho sign\'{a}lu", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2022, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/24862/" }