Detail práce
Recognition of Multi-Talker Overlapping Speech Using Neural Networks
Tato práce se zabývá rozpoznáváním řeči překrývajících se řečníků pomocí neuronové sítě. Zkoumá problém rozpoznávání řečí od vícero řečníků a způsoby, jimiž se tento daný problém řeší. Jedná se konkrétně o aplikaci kromě tradičních komponentů jako konvoluční neuronové sítě, LSTM atd. také speciálních komponentů: attention mechanismus a gated konvoluce. A dále také aplikace techniky zvanou permutation invariant training. Součástí této práce je aplikování těchto přístupů na přidělená trénovací data, která jsou tvořena uměle vytvořenými směsmi dvou řečníků předčítající články z Wall Street Journal. Dalším krokem bylo natrénování příslušných architektur používající kombinující prvky zmíněné nahoře. Modely v této práci nahrazují akustický model. Jednalo se o dvě architektury užívající různé typy attention mechanismu a o jednu bez něj. Experimenty ukázaly, že architektury užívající attention mechanismus v tomto typu úlohy něpřekonaly tradičnější architekturu s užitím gated konvolucí. Přesto ale ukázaly potenciál.
rozpoznávání řeči,neuronové sítě,attention mechanismus,překrývající se řeč
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
- Můžete popsat hlavní rozdíly Vaší implementace "attention" mechanizmu proti použitým v citovaných článcích?
- Model bez "attention" mechanizmu překonal ty, které ho používají, jak si to vysvětlujete?
- Pokud máte za sebou několik lineárních vrstev, můžete je nahradit jen jednou?
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT23005, author = "Jarom\'{i}r Hradil", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Recognition of Multi-Talker Overlapping Speech Using Neural Networks", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2020, location = "Brno, CZ", language = "english", url = "https://www.fit.vut.cz/study/thesis/23005/" }