Detail výsledku

Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition

NOVOTNÝ, O.; PLCHOT, O.; GLEMBEK, O.; ČERNOCKÝ, J.; BURGET, L. Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition. COMPUTER SPEECH AND LANGUAGE, 2019, vol. 2019, no. 58, p. 403-421. ISSN: 0885-2308.
Typ
článek v časopise
Jazyk
anglicky
Autoři
Novotný Ondřej, Ing., Ph.D., UPGM (FIT)
Plchot Oldřich, Ing., Ph.D., UPGM (FIT)
Glembek Ondřej, Ing., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Abstrakt

In this work, we present an analysis of a DNN-based autoencoder for speech enhancement, dereverberation and denoising. Thetarget application is a robust speaker verification (SV) system. We start our approach by carefully designing a data augmentationprocess to cover a wide range of acoustic conditions and to obtain rich training data for various components of our SV system.We augment several well-known databases used in SV with artificially noised and reverberated data and we use them to train adenoising autoencoder (mapping noisy and reverberated speech to its clean version) as well as an x-vector extractor which is cur-rently considered as state-of-the-art in SV. Later, we use the autoencoder as a preprocessing step for a text-independent SV sys-tem. We compare results achieved with autoencoder enhancement, multi-condition PLDA training and their simultaneous use.We present a detailed analysis with various conditions of NIST SRE 2010, 2016, PRISM and with re-transmitted data. We con-clude that the proposed preprocessing can significantly improve both i-vector and x-vector baselines and that this technique canbe used to build a robust SV system for various target domains.

Klíčová slova

Speakerverification; Signalenhancement; Autoencoder; Neuralnetwork; Robustness; Embedding

URL
Rok
2019
Strany
403–421
Časopis
COMPUTER SPEECH AND LANGUAGE, roč. 2019, č. 58, ISSN 0885-2308
DOI
UT WoS
000477663800022
EID Scopus
BibTeX
@article{BUT158089,
  author="Ondřej {Novotný} and Oldřich {Plchot} and Ondřej {Glembek} and Jan {Černocký} and Lukáš {Burget}",
  title="Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2019",
  volume="2019",
  number="58",
  pages="403--421",
  doi="10.1016/j.csl.2019.06.004",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230818303607"
}
Soubory
Projekty
Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony, MV, Bezpečnostní výzkum České republiky 2015-2020, VI20152020025, zahájení: 2015-10-01, ukončení: 2020-09-30, ukončen
IT4Innovations excellence in science, MŠMT, Národní program udržitelnosti II, LQ1602, zahájení: 2016-01-01, ukončení: 2020-12-31, ukončen
Neuronové reprezentace v multimodálním a mnohojazyčném modelování, GAČR, Grantové projekty exelence v základním výzkumu EXPRO - 2019, GX19-26934X, zahájení: 2019-01-01, ukončení: 2023-12-31, ukončen
Zpracování, zobrazování a analýza multimediálních a 3D dat, VUT, Vnitřní projekty VUT, FIT-S-17-3984, zahájení: 2017-03-01, ukončení: 2020-02-29, ukončen
Zvýšení spolehlivosti v automatickém rozpoznávání řečníka, GAČR, Juniorské granty, GJ17-23870Y, zahájení: 2017-01-01, ukončení: 2019-12-31, ukončen
Výzkumné skupiny
Pracoviště
Nahoru