Detail publikace
CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification
Mošner Ladislav, Ing. (UPGM)
Zhang Lin, Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Samostudium, ověřování mluvčího, extraktor mluvčího, mechanismus sdružování,
klasifikace řeči
Modely samoučícího se učení (SSL) pro ověřování mluvčího (SV) si v posledních
letech získaly značnou pozornost. Stávající SV systémy založené na SSL však často
bojují se zachycením lokálních časových závislostí a jejich zobecněním napříč
různými úlohami. V tomto článku navrhujeme kontextově uvědomělé vícehlavé
faktorizované pozorné sdružování (CA-MHFA), což je odlehčený rámec, který
zahrnuje kontextové informace z okolních rámců. CA-MHFA využívá seskupené,
učitelné dotazy k efektivnímu modelování kontextových závislostí a zároveň
zachování efektivity sdílením klíčů a hodnot napříč skupinami. Experimentální
výsledky na datové sadě VoxCeleb ukazují, že CA-MHFA dosahuje EER 0,42 %, 0,48 %
a 0,96 % na Vox1-O, Vox1-E a Vox1-H, čímž překonává složité modely jako
WavLM-TDNN s menším počtem parametrů a rychlejší konvergencí. CA-MHFA navíc
vykazuje silnou generalizaci napříč různými modely a úlohami SSL, včetně
rozpoznávání emocí a ochrany před falšováním, což zdůrazňuje jeho robustnost
a všestrannost.
@inproceedings{BUT198050,
author="Junyi {Peng} and Ladislav {Mošner} and Lin {Zhang} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget} and Jan {Černocký}",
title="CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification",
booktitle="Proceedings of ICASSP 2025",
year="2025",
pages="1--5",
publisher="IEEE Biometric Council",
address="Hyderabad",
doi="10.1109/ICASSP49660.2025.10889058",
isbn="979-8-3503-6874-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058"
}