Detail výsledku

End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA

ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; PLCHOT, O.; MATĚJKA, P.; BURGET, L. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018. p. 4874-4878. ISBN: 978-1-5386-4658-8.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Rohdin Johan Andréas, M.Sc., Ph.D., FIT (FIT), UPGM (FIT)
Silnova Anna, M.Sc., Ph.D., UPGM (FIT)
Diez Sánchez Mireia, M.Sc., Ph.D., UPGM (FIT)
Plchot Oldřich, Ing., Ph.D., UPGM (FIT)
Matějka Pavel, Ing., Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Abstrakt

Recently, several end-to-end speaker verification systems based ondeep neural networks (DNNs) have been proposed. These systemshave been proven to be competitive for text-dependent tasks as wellas for text-independent tasks with short utterances. However, fortext-independent tasks with longer utterances, end-to-end systemsare still outperformed by standard i-vector + PLDA systems. In thiswork, we develop an end-to-end speaker verification system that isinitialized to mimic an i-vector + PLDA baseline. The system isthen further trained in an end-to-end manner but regularized so thatit does not deviate too far from the initial system. In this way wemitigate overfitting which normally limits the performance of endto-end systems. The proposed system outperforms the i-vector +PLDA baseline on both long and short duration utterances.

Klíčová slova

Speaker verification, DNN, end-to-end

URL
Rok
2018
Strany
4874–4878
Sborník
Proceedings of ICASSP
Konference
IEEE International Conference on Acoustics, Speech and Signal Processing
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Calgary
DOI
UT WoS
000446384605009
EID Scopus
BibTeX
@inproceedings{BUT155046,
  author="Johan Andréas {Rohdin} and Anna {Silnova} and Mireia {Diez Sánchez} and Oldřich {Plchot} and Pavel {Matějka} and Lukáš {Burget}",
  title="End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA",
  booktitle="Proceedings of ICASSP",
  year="2018",
  pages="4874--4878",
  publisher="IEEE Signal Processing Society",
  address="Calgary",
  doi="10.1109/ICASSP.2018.8461958",
  isbn="978-1-5386-4658-8",
  url="https://www.fit.vut.cz/research/publication/11724/"
}
Soubory
Projekty
IT4Innovations excellence in science, MŠMT, Národní program udržitelnosti II, LQ1602, zahájení: 2016-01-01, ukončení: 2020-12-31, ukončen
Neuronové sítě pro zpracování signálu a dolování informací v řeči - NOSIČI, TAČR, Program na podporu aplikovaného výzkumu ZÉTA, TJ01000208, zahájení: 2018-01-01, ukončení: 2019-12-31, ukončen
Neuronové sítě shrnující sekvence pro rozpoznávání mluvčího, EU, Horizon 2020, 5SA15094, zahájení: 2016-07-01, ukončení: 2019-06-30, ukončen
NTT - Parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat, NTT, zahájení: 2017-10-01, ukončení: 2018-09-30, ukončen
Robustní diarizace mluvčích pomocí Bayesovské inference a hlubokého učení, EU, Horizon 2020, zahájení: 2017-03-01, ukončení: 2019-02-28, ukončen
Zvýšení spolehlivosti v automatickém rozpoznávání řečníka, GAČR, Juniorské granty, GJ17-23870Y, zahájení: 2017-01-01, ukončení: 2019-12-31, ukončen
Výzkumné skupiny
Pracoviště
Nahoru