Detail publikace

Learnable Sparse Filterbank for Speaker Verification

PENG Junyi, GU Rongzhi, MOŠNER Ladislav, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Learnable Sparse Filterbank for Speaker Verification. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 5110-5114. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/peng22e_interspeech.pdf
Název česky
Naučitelná řídká banka filtrů pro ověřování mluvčích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Gu Rongzhi (PKUSZ)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Nedávno byla extrakce příznaků pomocí naučitelných filtrů rozsáhle zkoumána pomocí systémů ověřování mluvčích, přičemž filtry se naučily v časové i frekvenční doméně. Většina naučených schémat však končí u filtrů blízko jejich inicializaci (např. Mel filterbank) nebo u filtrů silně omezených jejich omezeními. V tomto článku navrhujeme novou naučitelnou řídkou filtrační banku, nazvanou LearnSF, výhradně optimalizací řídkosti filtrační banky, která explicitně neomezuje filtry, aby sledovaly předem definovanou distribuci. Po standardním předběžném zpracování (STFT a druhá mocnina magnitudového spektra) se použije naučitelná řídká filtrační banka, jejíž normalizované výstupy jsou přiváděny do neuronové sítě predikující identitu mluvčího. Hodnotili jsme výkon navrhovaného přístupu na datových sadách VoxCeleb i CNCeleb. Experimentální výsledky demonstrují účinnost navrhovaného LearnSF ve srovnání s široce používanými akustickými funkcemi a existujícími parametrizovanými naučitelnými front-endy.

Rok
2022
Strany
5110-5114
Časopis
Proceedings of Interspeech - on-line, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724505058
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12851,
   author = "Junyi Peng and Rongzhi Gu and Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Learnable Sparse Filterbank for Speaker Verification",
   pages = "5110--5114",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   number = 9,
   year = 2022,
   location = "Incheon, KR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2022-11309",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12851"
}
Nahoru