Detail publikace
Learnable Sparse Filterbank for Speaker Verification
GU, R.
Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
learnable filter, sparse filtering, sparsity, speaker verification
Nedávno byla extrakce příznaků pomocí naučitelných filtrů rozsáhle zkoumána
pomocí systémů ověřování mluvčích, přičemž filtry se naučily v časové
i frekvenční doméně. Většina naučených schémat však končí u filtrů blízko jejich
inicializaci (např. Mel filterbank) nebo u filtrů silně omezených jejich
omezeními. V tomto článku navrhujeme novou naučitelnou řídkou filtrační banku,
nazvanou LearnSF, výhradně optimalizací řídkosti filtrační banky, která
explicitně neomezuje filtry, aby sledovaly předem definovanou distribuci. Po
standardním předběžném zpracování (STFT a druhá mocnina magnitudového spektra) se
použije naučitelná řídká filtrační banka, jejíž normalizované výstupy jsou
přiváděny do neuronové sítě predikující identitu mluvčího. Hodnotili jsme výkon
navrhovaného přístupu na datových sadách VoxCeleb i CNCeleb. Experimentální
výsledky demonstrují účinnost navrhovaného LearnSF ve srovnání s široce
používanými akustickými funkcemi a existujícími parametrizovanými naučitelnými
front-endy.
@inproceedings{BUT179826,
author="PENG, J. and GU, R. and MOŠNER, L. and PLCHOT, O. and BURGET, L. and ČERNOCKÝ, J.",
title="Learnable Sparse Filterbank for Speaker Verification",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2022",
journal="Proceedings of Interspeech",
number="9",
pages="5110--5114",
publisher="International Speech Communication Association",
address="Incheon",
doi="10.21437/Interspeech.2022-11309",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/peng22e_interspeech.pdf"
}