Detail publikace
Speaker embeddings by modeling channel-wise correlations
Rohdin Johan A., Dr. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Embeddingy mluvčích extrahované pomocí hlubokých 2D konvolučních neuronových sítí se typicky modelují jako projekce statistik prvního a druhého řádu párů kanál-frekvenční frekvence na lineární vrstvu, s použitím buď průměrného, nebo pozorného sdružování podél časové osy. V tomto článku zkoumáme alternativní metodu sdružování, kde se jako statistika používají párové korelace mezi kanály pro dané frekvence. Metoda je inspirována metodami přenosu stylu v počítačovém vidění, kde se styl obrazu, modelovaný maticí kanálových korelací, přenáší na jiný obraz, aby se vytvořil nový obraz ve stylu prvního a druhého. obsah druhého. Když protáhneme analogií mezi stylem zobrazení a charakteristikami mluvčího a mezi obsahem zobrazení a fonetickou sekvencí prozkoumáme použití takových korelačních funkcí v kanálech k trénování architektury ResNet způsobem end-to-end. Naše experimenty na VoxCeleb demonstrují účinnost navrhované metody sdružování při rozpoznávání mluvčích.
@INPROCEEDINGS{FITPUB12596, author = "Themos Stafylakis and A. Johan Rohdin and Luk\'{a}\v{s} Burget", title = "Speaker embeddings by modeling channel-wise correlations", pages = "501--505", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2021, number = 8, year = 2021, location = "Brno, CZ", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2021-1442", language = "english", url = "https://www.fit.vut.cz/research/publication/12596" }