Detail publikace

ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform

PENG Junyi, QU Xiaoyang, WANG Jianzong, GU Rongzhi, XIAO Jing, BURGET Lukáš a ČERNOCKÝ Jan. ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Brno: International Speech Communication Association, 2021, s. 511-515. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/interspeech_2021/peng21_interspeech.html
Název česky
ICSpk: Intepretovatelný extraktor komplexních embeddingů mluvčích ze surových signálů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Qu Xiaoyang (PATS)
Wang Jianzong (PATS)
Gu Rongzhi (PKUSZ)
Xiao Jing (PATS)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V poslední době přitahuje stále větší pozornost v oblasti ověřování mluvčích extrahování embeddingů mluvčích přímo ze surového tvaru vlny. Parametrické filtry s reálnou hodnotou v první konvoluční vrstvě se učí transformovat průběh do časově-frekvenčních reprezentací. Tyto metody se však zaměřují pouze na magnitudové spektrum a špatná interpretovatelnost naučených filtrů omezuje výkon. V tomto článku navrhujeme komplexní extraktor embeddingu mluvčího, pojmenovaný ICSpk, s vyšší interpretovatelností a méně parametry. Konkrétně, nejprve, abychom kvantifikovali frekvenční odezvu tvaru vlny související s mluvčím, modifikujeme původní krátkodobé filtry Fourierovy transformace na rodinu komplexních exponenciálních filtrů, nazvaných interpretovatelné komplexní (IC) filtry. Každý IC filtr je omezen složitým exponenciálním filtrem parametrizovaným frekvencí. Poté je navržen hluboký extraktor pro zabudování reproduktorů s komplexní hodnotou, který bude fungovat na komplexním výstupu IC filtrů. Navržený ICSpk je hodnocen na databázích VoxCeleb a CNCeleb. Experimentální výsledky ukazují, že systém založený na IC filtrech vykazuje významné zlepšení oproti systémům založeným na komplexních spektrogramech. Kromě toho navrhovaný ICSpk výrazně překonává stávající systémy založené na surovém tvaru vlny.

Rok
2021
Strany
511-515
Časopis
Proceedings of Interspeech - on-line, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno, CZ
DOI
UT WoS
000841879500103
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12597,
  author = "Junyi Peng and Xiaoyang Qu and Jianzong Wang and Rongzhi Gu and Jing Xiao and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
  title = "ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform",
  pages = "511--515",
  booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  journal = "Proceedings of Interspeech - on-line",
  volume = 2021,
  number = 8,
  year = 2021,
  location = "Brno, CZ",
  publisher = "International Speech Communication Association",
  ISSN = "1990-9772",
  doi = "10.21437/Interspeech.2021-2016",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12597"
}
Nahoru