Detail publikace
ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform
Qu Xiaoyang (PATS)
Wang Jianzong (PATS)
Gu Rongzhi (PKUSZ)
Xiao Jing (PATS)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V poslední době přitahuje stále větší pozornost v oblasti ověřování mluvčích extrahování embeddingů mluvčích přímo ze surového tvaru vlny. Parametrické filtry s reálnou hodnotou v první konvoluční vrstvě se učí transformovat průběh do časově-frekvenčních reprezentací. Tyto metody se však zaměřují pouze na magnitudové spektrum a špatná interpretovatelnost naučených filtrů omezuje výkon. V tomto článku navrhujeme komplexní extraktor embeddingu mluvčího, pojmenovaný ICSpk, s vyšší interpretovatelností a méně parametry. Konkrétně, nejprve, abychom kvantifikovali frekvenční odezvu tvaru vlny související s mluvčím, modifikujeme původní krátkodobé filtry Fourierovy transformace na rodinu komplexních exponenciálních filtrů, nazvaných interpretovatelné komplexní (IC) filtry. Každý IC filtr je omezen složitým exponenciálním filtrem parametrizovaným frekvencí. Poté je navržen hluboký extraktor pro zabudování reproduktorů s komplexní hodnotou, který bude fungovat na komplexním výstupu IC filtrů. Navržený ICSpk je hodnocen na databázích VoxCeleb a CNCeleb. Experimentální výsledky ukazují, že systém založený na IC filtrech vykazuje významné zlepšení oproti systémům založeným na komplexních spektrogramech. Kromě toho navrhovaný ICSpk výrazně překonává stávající systémy založené na surovém tvaru vlny.
@INPROCEEDINGS{FITPUB12597, author = "Junyi Peng and Xiaoyang Qu and Jianzong Wang and Rongzhi Gu and Jing Xiao and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform", pages = "511--515", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2021, number = 8, year = 2021, location = "Brno, CZ", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2021-2016", language = "english", url = "https://www.fit.vut.cz/research/publication/12597" }