Detail výsledku

Analysis Of DNN Approaches To Speaker Identification

MATĚJKA, P.; GLEMBEK, O.; NOVOTNÝ, O.; PLCHOT, O.; GRÉZL, F.; BURGET, L.; ČERNOCKÝ, J. Analysis Of DNN Approaches To Speaker Identification. In Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016. Shanghai: IEEE Signal Processing Society, 2016. p. 5100-5104. ISBN: 978-1-4799-9988-0.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Matějka Pavel, Ing., Ph.D., UPGM (FIT)
Glembek Ondřej, Ing., Ph.D., UPGM (FIT)
Novotný Ondřej, Ing., Ph.D., UPGM (FIT)
Plchot Oldřich, Ing., Ph.D., UPGM (FIT)
Grézl František, Ing., Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)
Abstrakt

This work studies the usage of the Deep Neural Network (DNN) Bottleneck (BN) features together with the traditional MFCC features in the task of i-vector-based speaker recognition. We decouple the sufficient statistics extraction by using separate GMM models for frame alignment, and for statistics normalization and we analyze the usage of BN and MFCC features (and their concatenation) in the two stages. We also show the effect of using full-covariance GMM models, and, as a contrast, we compare the result to the recent DNN-alignment approach. On the NIST SRE2010, telephone condition, we show 60% relative gain over the traditional MFCC baseline for EER (and similar for the NIST DCF metrics), resulting in 0.94% EER.

Klíčová slova

automatic speaker identification, deep neuralnetworks, bottleneck features, i-vector

URL
Rok
2016
Strany
5100–5104
Sborník
Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016
Konference
41th IEEE International Conference on Acoustics, Speech and Signal Processing
ISBN
978-1-4799-9988-0
Vydavatel
IEEE Signal Processing Society
Místo
Shanghai
DOI
UT WoS
000388373405050
EID Scopus
BibTeX
@inproceedings{BUT130927,
  author="Pavel {Matějka} and Ondřej {Glembek} and Ondřej {Novotný} and Oldřich {Plchot} and František {Grézl} and Lukáš {Burget} and Jan {Černocký}",
  title="Analysis Of DNN Approaches To Speaker Identification",
  booktitle="Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
  year="2016",
  pages="5100--5104",
  publisher="IEEE Signal Processing Society",
  address="Shanghai",
  doi="10.1109/ICASSP.2016.7472649",
  isbn="978-1-4799-9988-0",
  url="https://www.fit.vut.cz/research/publication/11140/"
}
Soubory
Projekty
Analytika velkých řečových dat pro kontaktní centra, EU, Horizon 2020, zahájení: 2015-01-01, ukončení: 2017-12-31, ukončen
DARPA - Robustní automatický přepis řeči (RATS) - RATS Patrol II, BBN, zahájení: 2015-02-23, ukončení: 2017-03-31, ukončen
Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony, MV, Bezpečnostní výzkum České republiky 2015-2020, VI20152020025, zahájení: 2015-10-01, ukončení: 2020-09-30, ukončen
IARPA Tvorba rozpoznávačů řeči pro vyhledávání klíčových slov v novém jazyce s omezenými trénovacími daty za týden (BABEL) - Babelon, BBN, zahájení: 2012-03-05, ukončení: 2016-11-04, ukončen
Zpracování, rozpoznávání a zobrazování multimediálních a 3D dat, VUT, Vnitřní projekty VUT, FIT-S-14-2506, zahájení: 2014-01-01, ukončení: 2016-12-31, ukončen
Výzkumné skupiny
Pracoviště
Nahoru