Detail publikace

CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification

PENG, J.; MOŠNER, L.; ZHANG, L.; PLCHOT, O.; STAFYLAKIS, T.; BURGET, L.; ČERNOCKÝ, J. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.

Název česky

CA-MHFA: Kontextově orientovaný extraktor informace o mluvčím pro ověřování mluvčího na základě samoučení

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi (UPGM)
Mošner Ladislav, Ing. (UPGM)
Zhang Lin, Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058

Klíčová slova

Samostudium, ověřování mluvčího, extraktor mluvčího, mechanismus sdružování,
klasifikace řeči

Abstrakt

Modely samoučícího se učení (SSL) pro ověřování mluvčího (SV) si v posledních
letech získaly značnou pozornost. Stávající SV systémy založené na SSL však často
bojují se zachycením lokálních časových závislostí a jejich zobecněním napříč
různými úlohami. V tomto článku navrhujeme kontextově uvědomělé vícehlavé
faktorizované pozorné sdružování (CA-MHFA), což je odlehčený rámec, který
zahrnuje kontextové informace z okolních rámců. CA-MHFA využívá seskupené,
učitelné dotazy k efektivnímu modelování kontextových závislostí a zároveň
zachování efektivity sdílením klíčů a hodnot napříč skupinami. Experimentální
výsledky na datové sadě VoxCeleb ukazují, že CA-MHFA dosahuje EER 0,42 %, 0,48 %
a 0,96 % na Vox1-O, Vox1-E a Vox1-H, čímž překonává složité modely jako
WavLM-TDNN s menším počtem parametrů a rychlejší konvergencí. CA-MHFA navíc
vykazuje silnou generalizaci napříč různými modely a úlohami SSL, včetně
rozpoznávání emocí a ochrany před falšováním, což zdůrazňuje jeho robustnost
a všestrannost.

Rok

2025

Strany

1–5

Sborník

Proceedings of ICASSP 2025

Konference

25. konference ICASSP 2025, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad

DOI

10.1109/ICASSP49660.2025.10889058

BibTeX

@inproceedings{BUT198050,
  author="Junyi {Peng} and Ladislav {Mošner} and Lin {Zhang} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget} and Jan {Černocký}",
  title="CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10889058",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058"
}

Soubory

pdf CA-MHFA_A_Context-Aware_Multi-Head_Factorized_Attentive_Pooling_for_SSL-Based_Speaker_Verification.pdf 621 kB