Detail publikace

Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch

SILNOVA Anna, STAFYLAKIS Themos, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., MATĚJKA Pavel, BURGET Lukáš, GLEMBEK Ondřej a BRUMMER Johan Nikolaas Langenhoven. Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch. In: Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022). Beijing: International Speech Communication Association, 2022, s. 9-16. Dostupné z: https://www.isca-speech.org/archive/pdfs/odyssey_2022/silnova22_odyssey.pdf
Název česky
Analýza extraktorů embeddingů a back-endů pro ověřování mluvčího v případech nekoherence přenosového kanálu a jazyka
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Brummer Johan Nikolaas Langenhoven, Dr. (Phonexia)
URL
Abstrakt

V tomto článku analyzujeme chování a výkon embeddingů mluvčích a back-endový skórovací model v rámci neshody domény a jazyka. Prezentujeme naše zjištění týkající se architektur embeddingu mluvčích na bázi ResNet a ukazujeme, že snížený časový krok přináší lepší výkon. Poté zvážíme back-end PLDA a ukážeme, jak může mít kombinace malého podprostoru mluvčích, jazykově závislé směsi PLDA a projekce atributů obtěžování drastický dopad na výkon systému. Kromě toho představujeme účinný způsob skórování a fúze vektorů zadních logitů třídy, o kterých se nedávno ukázalo, že dobře fungují při ověřování mluvčího. Experimenty se provádějí pomocí nastavení NIST SRE 2021.

Rok
2022
Strany
9-16
Sborník
Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)
Konference
Odyssey 2022: The Speaker and Language Recognition Workshop, Beijing, CN
Vydavatel
International Speech Communication Association
Místo
Beijing, CN
DOI
BibTeX
@INPROCEEDINGS{FITPUB12834,
   author = "Anna Silnova and Themos Stafylakis and Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Pavel Mat\v{e}jka and Luk\'{a}\v{s} Burget and Ond\v{r}ej Glembek and Langenhoven Nikolaas Johan Brummer",
   title = "Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch",
   pages = "9--16",
   booktitle = "Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)",
   year = 2022,
   location = "Beijing, CN",
   publisher = "International Speech Communication Association",
   doi = "10.21437/Odyssey.2022-2",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12834"
}
Nahoru