Detail publikace

Learnable Sparse Filterbank for Speaker Verification

PENG, J.; GU, R.; MOŠNER, L.; PLCHOT, O.; BURGET, L.; ČERNOCKÝ, J. Learnable Sparse Filterbank for Speaker Verification. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 5110-5114. ISSN: 1990-9772.

Název česky

Naučitelná řídká banka filtrů pro ověřování mluvčích

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi (UPGM)
GU, R.
Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

learnable filter, sparse filtering, sparsity, speaker verification

Abstrakt

Nedávno byla extrakce příznaků pomocí naučitelných filtrů rozsáhle zkoumána pomocí systémů ověřování mluvčích, přičemž filtry se naučily v časové i frekvenční doméně. Většina naučených schémat však končí u filtrů blízko jejich inicializaci (např. Mel filterbank) nebo u filtrů silně omezených jejich omezeními. V tomto článku navrhujeme novou naučitelnou řídkou filtrační banku, nazvanou LearnSF, výhradně optimalizací řídkosti filtrační banky, která explicitně neomezuje filtry, aby sledovaly předem definovanou distribuci. Po standardním předběžném zpracování (STFT a druhá mocnina magnitudového spektra) se použije naučitelná řídká filtrační banka, jejíž normalizované výstupy jsou přiváděny do neuronové sítě predikující identitu mluvčího. Hodnotili jsme výkon navrhovaného přístupu na datových sadách VoxCeleb i CNCeleb. Experimentální výsledky demonstrují účinnost navrhovaného LearnSF ve srovnání s široce používanými akustickými funkcemi a existujícími parametrizovanými naučitelnými front-endy.

Rok

2022

Strany

5110–5114

Časopis

Proceedings of Interspeech, č. 9, ISSN 1990-9772

Sborník

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH

Konference

23. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2022), Incheon, KR

Vydavatel

International Speech Communication Association

Místo

Incheon

DOI

10.21437/Interspeech.2022-11309

UT WoS

000900724505058

EID Scopus

2-s2.0-85140077879

BibTeX

@inproceedings{BUT179826,
  author="PENG, J. and GU, R. and MOŠNER, L. and PLCHOT, O. and BURGET, L. and ČERNOCKÝ, J.",
  title="Learnable Sparse Filterbank for Speaker Verification",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  number="9",
  pages="5110--5114",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-11309",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/peng22e_interspeech.pdf"
}

Soubory

pdf peng22e_interspeech2022_learnable.pdf 3 MB