Detail publikace

Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition

NOVOTNÝ, O.; PLCHOT, O.; GLEMBEK, O.; ČERNOCKÝ, J.; BURGET, L. Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition. COMPUTER SPEECH AND LANGUAGE, 2019, vol. 2019, no. 58, p. 403-421. ISSN: 0885-2308.

Název česky

Analýza čištění signálu pomocí DNN pro robustní rozpoznávání mluvčího

Typ

článek v časopise

Jazyk

anglicky

Autoři

Novotný Ondřej, Ing., Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

Speakerverification; Signalenhancement; Autoencoder; Neuralnetwork; Robustness; Embedding

Abstrakt

V této práci předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odcizení a odcizení. Aplikace Thetarget je robustní systém ověřování reproduktorů (SV). Náš přístup začínáme pečlivě navrhovat proces rozšiřování dat tak, aby pokrýval širokou škálu akustických podmínek a získával bohatá data školení pro různé komponenty našeho SV systému. Rozšiřujeme několik známých databází používaných v SV o uměle notifikovaná a dozvučená data a my použijte je k tréninku adenizujícího autoenkodéru (mapování hlučné a dozvukové řeči na jeho čistou verzi) a extraktoru x-vektorů, který je v současné době v SV považován za nejmodernější. Později používáme autoencoder jako krok předzpracování textově nezávislého SV sys-tem. Porovnáme dosažené výsledky s vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Předkládáme podrobnou analýzu s různými podmínkami NIST SRE 2010, 2016, PRISM as re-přenášenými daty. Zjišťujeme, že navrhované předzpracování může významně zlepšit jak základní linie i-vektorů, tak x-vektorů a že tato technika může být použita k vytvoření robustního SV systému pro různé cílové domény.

Rok

2019

Strany

403–421

Časopis

COMPUTER SPEECH AND LANGUAGE, roč. 2019, č. 58, ISSN 0885-2308

DOI

10.1016/j.csl.2019.06.004

UT WoS

000477663800022

EID Scopus

2-s2.0-85067550556

BibTeX

@article{BUT158089,
  author="Ondřej {Novotný} and Oldřich {Plchot} and Ondřej {Glembek} and Jan {Černocký} and Lukáš {Burget}",
  title="Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2019",
  volume="2019",
  number="58",
  pages="403--421",
  doi="10.1016/j.csl.2019.06.004",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230818303607"
}

Soubory

pdf novotny_elsevier_Journal_Paper_2019.pdf 4 MB