Detail práce

Interpretability of Neural Networks in Speech Processing

Bakalářská práce Student: Sarvaš Marek Akademický rok: 2020/2021 Vedoucí: Žmolíková Kateřina, Ing., Ph.D.
Název česky
Interpretace neuronových sítí ve zpracování řeči
Jazyk práce
anglický
Abstrakt

S rastúcou popularitou hlbokých neurónových sietí, nedostatok transparentnosti spôsobenejich funkciou čiernej skrinky, zvyšuje dopyt po ich interpretácii. Cieľom tejto práce je získať nový pohľad na hlboké neurónové siete v úlohách spracovania reči. Konkrétne klasifikácia pohlavia z AudioMNIST datasetu a klasifikácia rečníka z filter bánk VoxCeleb datasetu s použitím konvolučnej a reziduálnej neurónovej siete. Na interpretáciu týchto neurónových sietí bola použitá metóda propagácie relevancií cez vrstvy. Táto metóda vytvorí tepelnú mapu, ktorá vyznačí príznaky, ktoré prispeli ku správnej klasifikácii pozitívne a ktoré negatívne. Ako výsledky interpretácie ukazujú, klasifikácie boli založené najmä na nižších frekvenciách v reči a čase. V prípade klasifikácie pohlavia sa mi podarilo nájsť vysokú závislosť modelu na veľmi malom počte príznakov. Pomocou získaných informácií som vytvoril rozšírený trénovací set, ktorý zvýšil robustnosť modelu.

Klíčová slova

hlboké neuónové siete, konvolučné neurónové siete, spracovanie reči, interpretácia neurónových sietí, Layer-Wise Relevance Propagation

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Při interpretaci sítě klasifikující mluvčí jsou v Obrázcích 6.10, 6.12 a 6.14 uvedené i hodnoty relevancí. Jejich dynamický rozsah se diametrálně liší při použití různých LRP pravidel. Komentujte tento rozdíl. Jak se dynamický rozsah liší od rozsahů relevancí z experimentů týkajících se klasifikace pohlaví?
  2. V textu se několikrát vyskytuje tzv. "Clever Hans predictor". Vysvětlete, co pojem znamená a odkud se vzal právě tento název.
  3. Řídil jste se pouze původním článkem, nebo jste i vytvořil nějaká podstatná rozšíření?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
SARVAŠ, Marek. Interpretability of Neural Networks in Speech Processing. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Žmolíková Kateřina. Dostupné z: https://www.fit.vut.cz/study/thesis/24073/
BibTeX
@bachelorsthesis{FITBT24073,
    author = "Marek Sarva\v{s}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Interpretability of Neural Networks in Speech Processing",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/24073/"
}
Nahoru