Detail publikace

Speaker embeddings by modeling channel-wise correlations

STAFYLAKIS Themos, ROHDIN Johan A. a BURGET Lukáš. Speaker embeddings by modeling channel-wise correlations. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Brno: International Speech Communication Association, 2021, s. 501-505. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/interspeech_2021/stafylakis21_interspeech.html
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Stafylakis Themos (OMILIA)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Embeddingy mluvčích extrahované pomocí hlubokých 2D konvolučních neuronových sítí se typicky modelují jako projekce statistik prvního a druhého řádu párů kanál-frekvenční frekvence na lineární vrstvu, s použitím buď průměrného, nebo pozorného sdružování podél časové osy. V tomto článku zkoumáme alternativní metodu sdružování, kde se jako statistika používají párové korelace mezi kanály pro dané frekvence. Metoda je inspirována metodami přenosu stylu v počítačovém vidění, kde se styl obrazu, modelovaný maticí kanálových korelací, přenáší na jiný obraz, aby se vytvořil nový obraz ve stylu prvního a druhého. obsah druhého. Když protáhneme analogií mezi stylem zobrazení a charakteristikami mluvčího a mezi obsahem zobrazení a fonetickou sekvencí prozkoumáme použití takových korelačních funkcí v kanálech k trénování architektury ResNet způsobem end-to-end. Naše experimenty na VoxCeleb demonstrují účinnost navrhované metody sdružování při rozpoznávání mluvčích.

Rok
2021
Strany
501-505
Časopis
Proceedings of Interspeech - on-line, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
22ND ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno, CZ
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12596,
   author = "Themos Stafylakis and A. Johan Rohdin and Luk\'{a}\v{s} Burget",
   title = "Speaker embeddings by modeling channel-wise correlations",
   pages = "501--505",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2021,
   number = 8,
   year = 2021,
   location = "Brno, CZ",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2021-1442",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12596"
}
Nahoru