Fakulta informačních technologií VUT v Brně

Detail publikace

How To Improve Your Speaker Embeddings Extractor in Generic Toolkits

ZEINALI Hossein, BURGET Lukáš, ROHDIN Johan A., STAFYLAKIS Themos a ČERNOCKÝ Jan. How To Improve Your Speaker Embeddings Extractor in Generic Toolkits. In: Proceedings of ICASSP 2019. Brighton: IEEE Signal Processing Society, 2019, s. 6141-6145. ISBN 978-1-5386-4658-8. Dostupné z: https://ieeexplore.ieee.org/abstract/document/8683445
Název česky
Jak zlepšit Váš extraktor embeddingů mluvčích v běžných toolkitech
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Zeinali Hossein, Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Černocký Jan, doc. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt
V poslední době se vestavby reproduktorů extrahované hlubokými neuronovými sítěmi staly nejmodernější metodou pro ověřování reproduktorů. Cílem této práce je usnadnit její implementaci na obecnější sadě nástrojů než Kaldi, u níž očekáváme další zlepšení této metody. V tréninku zkoumáme několik triků, jako jsou účinky normalizace vstupních funkcí a společné statistiky, různé metody prevence nadměrného přizpůsobení a alternativní nelinearity, které lze použít místo lineárních jednotek usměrňovače. Dále zkoumáme rozdíl ve výkonu mezi TDNN a CNN a mezi dvěma typy mechanismu pozornosti. Experimentální výsledky datových souborů Speaker in the Wild, SRE 2016 a SRE 2018 ukazují účinnost navrhované implementace.
Rok
2019
Strany
6141-6145
Sborník
Proceedings of ICASSP 2019
Konference
International Conference on Acoustics, Speech, and Signal Processing, Brighton, GB
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Brighton, GB
BibTeX
@INPROCEEDINGS{FITPUB12037,
   author = "Hossein Zeinali and Luk\'{a}\v{s} Burget and A. Johan Rohdin and Themos Stafylakis and Jan \v{C}ernock\'{y}",
   title = "How To Improve Your Speaker Embeddings Extractor in Generic Toolkits",
   pages = "6141--6145",
   booktitle = "Proceedings of ICASSP 2019",
   year = 2019,
   location = "Brighton, GB",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5386-4658-8",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12037"
}
Nahoru