Detail publikace

An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification

PENG Junyi, PLCHOT Oldřich, STAFYLAKIS Themos, MOŠNER Ladislav, BURGET Lukáš a ČERNOCKÝ Jan. An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification. In: 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023, s. 555-562. ISBN 978-1-6654-7189-3. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10022775
Název česky
Backend pro rozpoznávání mluvčího založený na attention modelech umožňující efektivní jemné doladění transformerových modelů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V posledních letech se paradigmatu samoučení věnuje velká pozornost díky jeho velkému úspěchu v různých následných úlohách. Strategie jemného doladění pro přizpůsobení těchto předem natrénovaných modelů úloze ověřování mluvčího však dosud nebyly plně prozkoumány. V tomto článku analyzujeme několik přístupů k extrakci příznaků postavených na předem natrénovaném modelu, jakož i regularizaci a plánovač míry učení, které mají stabilizovat proces jemného doladění a dále zvýšit výkonnost: je navrženo vícehlavé faktorizované sdružování pozornosti, které má faktorizovat porovnání reprezentací mluvčích do více fonetických klastrů. Regulujeme směrem k parametrům předtrénovaného modelu a během dolaďování nastavujeme různé rychlosti učení pro každou vrstvu předtrénovaného modelu. Experimentální výsledky ukazují, že naše metoda může výrazně zkrátit dobu trénování na 4 hodiny a dosáhnout výkonu SOTA: V případě Vox1-O, Vox1-E a Vox1-H jsme dosáhli 0,59 %, 0,79 % a 1,77 % EER.

Rok
2023
Strany
555-562
Sborník
2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP, SLT, Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha, QA
DOI
UT WoS
000968851900075
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12984,
   author = "Junyi Peng and Old\v{r}ich Plchot and Themos Stafylakis and Ladislav Mo\v{s}ner and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification",
   pages = "555--562",
   booktitle = "2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
   year = 2023,
   location = "Doha, QA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-7189-3",
   doi = "10.1109/SLT54892.2023.10022775",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12984"
}
Nahoru