Application of Mean Normalized Stochastic Gradient Descent for Speech Recognition

Název česky

Aplikace metody Mean Normalized Stochastic Gradient Descent pro rozpoznávání řeči

Jazyk práce

anglický

Abstrakt

Umělé neuronové sítě jsou v posledních letech na vzestupu. Jednou z možných optimalizačních technik je mean-normalized stochastic gradient descent, který navrhli Wiesler a spol. [1]. Tato práce dále vysvětluje a zkoumá tuto metodu na problému klasifikace fonémů. Ne všechny závěry Wieslera a spol. byly potvrzeny. Mean-normalized SGD je vhodné použít pouze pokud je síť dostatečně velká, nepříliš hluboká a pracuje-li se sigmoidou jako nelineárním prvkem. V ostatních případech mean-normalized SGD mírně zhoršuje výkon neuronové sítě. Proto nemůže být doporučena jako obecná optimalizační technika.

[1] Simon Wiesler, Alexander Richard, Ralf Schluter, and Hermann Ney.Mean-normalized stochastic gradient for large-scale deep learning. In Acoustics,Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on,pages 180{184. IEEE, 2014.

Klíčová slova

Neuronové sítě, strojové učení, rozpoznávání řeči, stochastic gradient descent.

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Text práce 629 kB

Stav

obhájeno, hodnocení A

Obhajoba

17. června 2015

Oponent

Hradiš Michal, Ing., Ph.D.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

Má smysl vyhodnocovat generalizaci (validační chybu) při porovnávání různých optimalizačních algoritmů? Chovají se modely trénované pomocí mean normalized SGD odlišně v nějakém ohledu, který by měl mít vliv na generalizaci?
V 4.2.3 píšete, že průměrné hodnoty aktivací neuronů s tanh aktivačními funkcemi jsou pravděpodobně blízké nule. Můžete toto tvrzení ověřit?
Jak si vysvětlujete, že bottleneck sítě se sigmoidami se trénují hůře než sítě s tanh? Pozoroval jste nějaký rozdíl (například v hodnotách gradientů), který by tento rozdíl vysvětlil?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Kočí Radek, Ing., Ph.D. (UITS FIT VUT), člen
Kotásek Zdeněk, doc. Ing., CSc. (UPSY FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen

Citace

KLUSÁČEK, Jan. Application of Mean Normalized Stochastic Gradient Descent for Speech Recognition. Brno, 2015. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2015-06-17. Vedoucí práce Pešán Jan. Dostupné z: https://www.fit.vut.cz/study/thesis/17867/

BibTeX

@bachelorsthesis{FITBT17867,
    author = "Jan Klus\'{a}\v{c}ek",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Application of Mean Normalized Stochastic Gradient Descent for Speech Recognition",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2015,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/17867/"
}