Fakulta informačních technologií VUT v Brně

Detail publikace

Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition

NOVOTNÝ Ondřej, PLCHOT Oldřich, GLEMBEK Ondřej, ČERNOCKÝ Jan a BURGET Lukáš. Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition. Computer Speech and Language, roč. 2019, č. 58, s. 403-421. ISSN 0885-2308. Dostupné z: https://www.sciencedirect.com/science/article/pii/S0885230818303607
Název česky
Analýza čištění signálu pomocí DNN pro robustní rozpoznávání mluvčího
Typ
článek v časopise
Jazyk
angličtina
Autoři
URL
Abstrakt
V této práci předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odcizení a odcizení. Aplikace Thetarget je robustní systém ověřování reproduktorů (SV). Náš přístup začínáme pečlivě navrhovat proces rozšiřování dat tak, aby pokrýval širokou škálu akustických podmínek a získával bohatá data školení pro různé komponenty našeho SV systému. Rozšiřujeme několik známých databází používaných v SV o uměle notifikovaná a dozvučená data a my použijte je k tréninku adenizujícího autoenkodéru (mapování hlučné a dozvukové řeči na jeho čistou verzi) a extraktoru x-vektorů, který je v současné době v SV považován za nejmodernější. Později používáme autoencoder jako krok předzpracování textově nezávislého SV sys-tem. Porovnáme dosažené výsledky s vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Předkládáme podrobnou analýzu s různými podmínkami NIST SRE 2010, 2016, PRISM as re-přenášenými daty. Zjišťujeme, že navrhované předzpracování může významně zlepšit jak základní linie i-vektorů, tak x-vektorů a že tato technika může být použita k vytvoření robustního SV systému pro různé cílové domény.
Rok
2019
Strany
403-421
Časopis
Computer Speech and Language, roč. 2019, č. 58, ISSN 0885-2308
Vydavatel
Elsevier Science
DOI
BibTeX
@ARTICLE{FITPUB12039,
   author = "Ond\v{r}ej Novotn\'{y} and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Jan \v{C}ernock\'{y} and Luk\'{a}\v{s} Burget",
   title = "Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition",
   pages = "403--421",
   journal = "Computer Speech and Language",
   volume = 2019,
   number = 58,
   year = 2019,
   ISSN = "0885-2308",
   doi = "10.1016/j.csl.2019.06.004",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12039"
}
Nahoru