Detail publikace

Speaker embeddings by modeling channel-wise correlations

STAFYLAKIS, T.; ROHDIN, J.; BURGET, L. Speaker embeddings by modeling channel-wise correlations. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Brno: International Speech Communication Association, 2021. p. 501-505. ISSN: 1990-9772.

Název česky

Embeddingy mluvčích získané pomocí modelování korelací mezi kanály

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Stafylakis Themos
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

speaker recognition, style-transfer, deep learning

Abstrakt

Embeddingy mluvčích extrahované pomocí hlubokých 2D konvolučních neuronových sítí se typicky modelují jako projekce statistik prvního a druhého řádu párů kanál-frekvenční frekvence na lineární vrstvu, s použitím buď průměrného, nebo pozorného sdružování podél časové osy. V tomto článku zkoumáme alternativní metodu sdružování, kde se jako statistika používají párové korelace mezi kanály pro dané frekvence. Metoda je inspirována metodami přenosu stylu v počítačovém vidění, kde se styl obrazu, modelovaný maticí kanálových korelací, přenáší na jiný obraz, aby se vytvořil nový obraz ve stylu prvního a druhého. obsah druhého. Když protáhneme analogií mezi stylem zobrazení a charakteristikami mluvčího a mezi obsahem zobrazení a fonetickou sekvencí prozkoumáme použití takových korelačních funkcí v kanálech k trénování architektury ResNet způsobem end-to-end. Naše experimenty na VoxCeleb demonstrují účinnost navrhované metody sdružování při rozpoznávání mluvčích.

Rok

2021

Strany

501–505

Časopis

Proceedings of Interspeech, roč. 2021, č. 8, ISSN 1990-9772

Sborník

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH

Konference

22. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2021), Brno, CZ

Vydavatel

International Speech Communication Association

Místo

Brno

DOI

10.21437/Interspeech.2021-1442

UT WoS

000841879500101

EID Scopus

2-s2.0-85119248644

BibTeX

@inproceedings{BUT175834,
  author="Themos {Stafylakis} and Johan Andréas {Rohdin} and Lukáš {Burget}",
  title="Speaker embeddings by modeling channel-wise correlations",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2021",
  journal="Proceedings of Interspeech",
  volume="2021",
  number="8",
  pages="501--505",
  publisher="International Speech Communication Association",
  address="Brno",
  doi="10.21437/Interspeech.2021-1442",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/interspeech_2021/stafylakis21_interspeech.html"
}

Soubory

pdf stafylakis21_interspeech.pdf 232 kB