Detail publikace
On the use of DNN Autoencoder for Robust Speaker Recognition
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
V tomto článku předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odzvučení a odhlučení. Cílovou aplikací je robustní systém rozpoznávání mluvčího. Začali jsme rozšířením Fisherovy databáze o uměle hlučná a dozvučená data a vycvičili jsme autoencoder, aby mapoval hlučnou a dozvukovou řeč do své čisté verze. Používáme autoencoder jako krok předzpracování pro nejmodernější textově nezávislý systém rozpoznávání mluvčích. Výsledky porovnáváme s čistým vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Představujeme podrobnou analýzu s různými podmínkami NIST SRE 2010, PRISM a uměle poškozeným telefonním stavem NIST SRE 2010. Došli jsme k závěru, že navrhované předzpracování významně převyšuje základní linii a že tuto techniku lze použít k vybudování robustního systému rozpoznávání mluvčích pro dozvuk a hlučná data.
@TECHREPORT{FITPUB11855, author = "Ond\v{r}ej Novotn\'{y} and Pavel Mat\v{e}jka and Old\v{r}ich Plchot and Ond\v{r}ej Glembek", title = "On the use of DNN Autoencoder for Robust Speaker Recognition", pages = "1--5", year = 2018, location = "Brno, CZ", publisher = "Faculty of Information Technology BUT", language = "english", url = "https://www.fit.vut.cz/research/publication/11855" }