Detail výsledku
13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE
Plchot Oldřich, Ing., Ph.D., UPGM (FIT)
Glembek Ondřej, Ing., Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Rohdin Johan Andréas, M.Sc., Ph.D., FIT (FIT), UPGM (FIT)
Zeinali Hossein, Ph.D.
Mošner Ladislav, Ing., UPGM (FIT)
Silnova Anna, M.Sc., Ph.D., UPGM (FIT)
Novotný Ondřej, Ing., Ph.D., UPGM (FIT)
Diez Sánchez Mireia, M.Sc., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)
In this paper, we present a brief history and a "longitudinal study" of all important milestonemodelling techniques used in text independent speaker recognition since Brno University ofTechnology (BUT) first participated in the NIST Speaker Recognition Evaluation (SRE) in2006-GMM MAP, GMM MAP with eigen-channel adaptation, Joint Factor Analysis, i-vectorand DNN embedding (x-vector). To emphasize the historical context, the techniques areevaluated on all NIST SRE sets since 2004 on a time-machine principle, i.e. a system is alwaystrained using all data available up till the year of evaluation. Moreover, as user-contributedaudiovisual content dominates nowadays Internet, we representatively include the SpeakersIn The Wild (SITW) and VOiCES challenge datasets in the evaluation of our systems. Not onlywe present a comparison of the modelling techniques, but we also show the effect of samplingfrequency.
Speaker recognition, NIST, Evaluations, GMM, Eigen-channel, compensation, JFA, I-vectors, DNN Embedding, X-vectors
@article{BUT162674,
author="Pavel {Matějka} and Oldřich {Plchot} and Ondřej {Glembek} and Lukáš {Burget} and Johan Andréas {Rohdin} and Hossein {Zeinali} and Ladislav {Mošner} and Anna {Silnova} and Ondřej {Novotný} and Mireia {Diez Sánchez} and Jan {Černocký}",
title="13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE",
journal="COMPUTER SPEECH AND LANGUAGE",
year="2020",
volume="2020",
number="63",
pages="1--15",
doi="10.1016/j.csl.2019.101035",
issn="0885-2308",
url="https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub"
}
IT4Innovations excellence in science, MŠMT, Národní program udržitelnosti II, LQ1602, zahájení: 2016-01-01, ukončení: 2020-12-31, ukončen
Moderní metody zpracování, analýzy a zobrazování multimediálních a 3D dat, VUT, Vnitřní projekty VUT, FIT-S-20-6460, zahájení: 2020-03-01, ukončení: 2023-02-28, ukončen
Neuronové reprezentace v multimodálním a mnohojazyčném modelování, GAČR, Grantové projekty exelence v základním výzkumu EXPRO - 2019, GX19-26934X, zahájení: 2019-01-01, ukončení: 2023-12-31, ukončen
Neuronové sítě pro zpracování signálu a dolování informací v řeči - NOSIČI, TAČR, Program na podporu aplikovaného výzkumu ZÉTA, TJ01000208, zahájení: 2018-01-01, ukončení: 2019-12-31, ukončen
Neuronové sítě shrnující sekvence pro rozpoznávání mluvčího, EU, Horizon 2020, 5SA15094, zahájení: 2016-07-01, ukončení: 2019-06-30, ukončen
Robustní diarizace mluvčích pomocí Bayesovské inference a hlubokého učení, EU, Horizon 2020, zahájení: 2017-03-01, ukončení: 2019-02-28, ukončen
Zvýšení spolehlivosti v automatickém rozpoznávání řečníka, GAČR, Juniorské granty, GJ17-23870Y, zahájení: 2017-01-01, ukončení: 2019-12-31, ukončen