Recognition of Multi-Talker Overlapping Speech Using Neural Networks

Název česky

Rozpoznávání řeči překrývajících se řečníků pomocí neuronových sítí

Jazyk práce

anglický

Abstrakt

Tato práce se zabývá rozpoznáváním řeči překrývajících se řečníků pomocí neuronové sítě. Zkoumá problém rozpoznávání řečí od vícero řečníků a způsoby, jimiž se tento daný problém řeší. Jedná se konkrétně o aplikaci kromě tradičních komponentů jako konvoluční neuronové sítě, LSTM atd. také speciálních komponentů: attention mechanismus a gated konvoluce. A dále také aplikace techniky zvanou permutation invariant training. Součástí této práce je aplikování těchto přístupů na přidělená trénovací data, která jsou tvořena uměle vytvořenými směsmi dvou řečníků předčítající články z Wall Street Journal. Dalším krokem bylo natrénování příslušných architektur používající kombinující prvky zmíněné nahoře. Modely v této práci nahrazují akustický model. Jednalo se o dvě architektury užívající různé typy attention mechanismu a o jednu bez něj. Experimenty ukázaly, že architektury užívající attention mechanismus v tomto typu úlohy něpřekonaly tradičnější architekturu s užitím gated konvolucí. Přesto ale ukázaly potenciál.

Klíčová slova

rozpoznávání řeči,neuronové sítě,attention mechanismus,překrývající se řeč

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

obhájeno, hodnocení B

Obhajoba

10. července 2020

Oponent

Švec Ján, Ing.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby

Můžete popsat hlavní rozdíly Vaší implementace "attention" mechanizmu proti použitým v citovaných článcích?
Model bez "attention" mechanizmu překonal ty, které ho používají, jak si to vysvětlujete?
Pokud máte za sebou několik lineárních vrstev, můžete je nahradit jen jednou?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen

Citace

HRADIL, Jaromír. Recognition of Multi-Talker Overlapping Speech Using Neural Networks. Brno, 2020. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-10. Vedoucí práce Žmolíková Kateřina. Dostupné z: https://www.fit.vut.cz/study/thesis/23005/

BibTeX

@bachelorsthesis{FITBT23005,
    author = "Jarom\'{i}r Hradil",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Recognition of Multi-Talker Overlapping Speech Using Neural Networks",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23005/"
}