Detail práce

Recognition of Multi-Talker Overlapping Speech Using Neural Networks

Bakalářská práce Student: Hradil Jaromír Akademický rok: 2019/2020 Vedoucí: Žmolíková Kateřina, Ing., Ph.D.
Název česky
Rozpoznávání řeči překrývajících se řečníků pomocí neuronových sítí
Jazyk práce
anglický
Abstrakt

Tato práce se zabývá rozpoznáváním řeči překrývajících se řečníků pomocí neuronové sítě. Zkoumá  problém rozpoznávání řečí od vícero řečníků a způsoby, jimiž se tento daný problém řeší. Jedná se konkrétně o aplikaci kromě tradičních komponentů jako konvoluční neuronové sítě, LSTM atd. také speciálních komponentů: attention mechanismus a gated konvoluce. A dále také aplikace techniky zvanou permutation invariant training. Součástí této práce je aplikování těchto přístupů na přidělená trénovací data, která jsou tvořena uměle vytvořenými směsmi dvou řečníků předčítající články z Wall Street Journal. Dalším krokem bylo natrénování příslušných architektur používající kombinující prvky zmíněné nahoře. Modely v této práci nahrazují akustický model. Jednalo se o dvě architektury užívající různé typy attention mechanismu a o jednu bez něj.  Experimenty ukázaly, že architektury užívající attention mechanismus v tomto typu úlohy něpřekonaly tradičnější architekturu s užitím gated konvolucí. Přesto ale ukázaly potenciál.

Klíčová slova

rozpoznávání řeči,neuronové sítě,attention mechanismus,překrývající se řeč

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
10. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. Můžete popsat hlavní rozdíly Vaší implementace "attention" mechanizmu proti použitým v citovaných článcích?
  2. Model bez "attention" mechanizmu překonal ty, které ho používají, jak si to vysvětlujete?
  3. Pokud máte za sebou několik lineárních vrstev, můžete je nahradit jen jednou?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
HRADIL, Jaromír. Recognition of Multi-Talker Overlapping Speech Using Neural Networks. Brno, 2020. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-10. Vedoucí práce Žmolíková Kateřina. Dostupné z: https://www.fit.vut.cz/study/thesis/23005/
BibTeX
@bachelorsthesis{FITBT23005,
    author = "Jarom\'{i}r Hradil",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Recognition of Multi-Talker Overlapping Speech Using Neural Networks",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23005/"
}
Nahoru