Detail výsledku

End-to-end DNN based text-independent speaker recognition for long and short utterances

ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; PLCHOT, O.; MATĚJKA, P.; BURGET, L.; GLEMBEK, O. End-to-end DNN based text-independent speaker recognition for long and short utterances. COMPUTER SPEECH AND LANGUAGE, 2020, vol. 2020, no. 59, p. 22-35. ISSN: 0885-2308.
Typ
článek v časopise
Jazyk
anglicky
Autoři
Rohdin Johan Andréas, M.Sc., Ph.D., FIT (FIT), UPGM (FIT)
Silnova Anna, M.Sc., Ph.D., UPGM (FIT)
Diez Sánchez Mireia, M.Sc., Ph.D., UPGM (FIT)
Plchot Oldřich, Ing., Ph.D., UPGM (FIT)
Matějka Pavel, Ing., Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Glembek Ondřej, Ing., Ph.D., UPGM (FIT)
Abstrakt

Recently several end-to-end speaker verification systems based on deep neural networks (DNNs) have been proposed. These systems have been proven to be competitive for text-dependent tasks as well as for text-independent tasks with short utterances. However, for text-independent tasks with longer utterances, end-to-end systems are still outperformed by standard i-vector + PLDA systems. In this work, we present an end-to-end speaker verification system that is initialized to mimic an i-vector + PLDA baseline. The system is then further trained in an end-to-end manner but regularized so that it does not deviate too far from the initial system. In this way we mitigate overfitting which normally limits the performance of end-to-end systems. The proposed system outperforms the i-vector + PLDA baseline on both long and short duration utterances.

Klíčová slova

Speaker verification, DNN, End-to-end, Text-independent, i-vector, PLDA

URL
Rok
2020
Strany
22–35
Časopis
COMPUTER SPEECH AND LANGUAGE, roč. 2020, č. 59, ISSN 0885-2308
DOI
UT WoS
000490540900002
EID Scopus
BibTeX
@article{BUT158088,
  author="Johan Andréas {Rohdin} and Anna {Silnova} and Mireia {Diez Sánchez} and Oldřich {Plchot} and Pavel {Matějka} and Lukáš {Burget} and Ondřej {Glembek}",
  title="End-to-end DNN based text-independent speaker recognition for long and short utterances",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2020",
  volume="2020",
  number="59",
  pages="22--35",
  doi="10.1016/j.csl.2019.06.002",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230818303632"
}
Soubory
Projekty
IT4Innovations excellence in science, MŠMT, Národní program udržitelnosti II, LQ1602, zahájení: 2016-01-01, ukončení: 2020-12-31, ukončen
Neuronové reprezentace v multimodálním a mnohojazyčném modelování, GAČR, Grantové projekty exelence v základním výzkumu EXPRO - 2019, GX19-26934X, zahájení: 2019-01-01, ukončení: 2023-12-31, ukončen
Neuronové sítě pro zpracování signálu a dolování informací v řeči - NOSIČI, TAČR, Program na podporu aplikovaného výzkumu ZÉTA, TJ01000208, zahájení: 2018-01-01, ukončení: 2019-12-31, ukončen
Neuronové sítě shrnující sekvence pro rozpoznávání mluvčího, EU, Horizon 2020, 5SA15094, zahájení: 2016-07-01, ukončení: 2019-06-30, ukončen
NTT - Parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat, NTT, zahájení: 2019-01-01, ukončení: 2019-12-31, ukončen
Zpracování, zobrazování a analýza multimediálních a 3D dat, VUT, Vnitřní projekty VUT, FIT-S-17-3984, zahájení: 2017-03-01, ukončení: 2020-02-29, ukončen
Zvýšení spolehlivosti v automatickém rozpoznávání řečníka, GAČR, Juniorské granty, GJ17-23870Y, zahájení: 2017-01-01, ukončení: 2019-12-31, ukončen
Výzkumné skupiny
Pracoviště
Nahoru