Detail publikace

CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification

PENG, J.; MOŠNER, L.; ZHANG, L.; PLCHOT, O.; STAFYLAKIS, T.; BURGET, L.; ČERNOCKÝ, J. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Název česky
CA-MHFA: Kontextově orientovaný extraktor informace o mluvčím pro ověřování mluvčího na základě samoučení
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Samostudium, ověřování mluvčího, extraktor mluvčího, mechanismus sdružování,
klasifikace řeči

Abstrakt

Modely samoučícího se učení (SSL) pro ověřování mluvčího (SV) si v posledních
letech získaly značnou pozornost. Stávající SV systémy založené na SSL však často
bojují se zachycením lokálních časových závislostí a jejich zobecněním napříč
různými úlohami. V tomto článku navrhujeme kontextově uvědomělé vícehlavé
faktorizované pozorné sdružování (CA-MHFA), což je odlehčený rámec, který
zahrnuje kontextové informace z okolních rámců. CA-MHFA využívá seskupené,
učitelné dotazy k efektivnímu modelování kontextových závislostí a zároveň
zachování efektivity sdílením klíčů a hodnot napříč skupinami. Experimentální
výsledky na datové sadě VoxCeleb ukazují, že CA-MHFA dosahuje EER 0,42 %, 0,48 %
a 0,96 % na Vox1-O, Vox1-E a Vox1-H, čímž překonává složité modely jako
WavLM-TDNN s menším počtem parametrů a rychlejší konvergencí. CA-MHFA navíc
vykazuje silnou generalizaci napříč různými modely a úlohami SSL, včetně
rozpoznávání emocí a ochrany před falšováním, což zdůrazňuje jeho robustnost
a všestrannost.

Rok
2025
Strany
1–5
Sborník
Proceedings of ICASSP 2025
Konference
25. konference ICASSP 2025, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad
DOI
BibTeX
@inproceedings{BUT198050,
  author="Junyi {Peng} and Ladislav {Mošner} and Lin {Zhang} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget} and Jan {Černocký}",
  title="CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10889058",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058"
}
Soubory
Nahoru