Detail publikace
An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V posledních letech se paradigmatu samoučení věnuje velká pozornost díky jeho velkému úspěchu v různých následných úlohách. Strategie jemného doladění pro přizpůsobení těchto předem natrénovaných modelů úloze ověřování mluvčího však dosud nebyly plně prozkoumány. V tomto článku analyzujeme několik přístupů k extrakci příznaků postavených na předem natrénovaném modelu, jakož i regularizaci a plánovač míry učení, které mají stabilizovat proces jemného doladění a dále zvýšit výkonnost: je navrženo vícehlavé faktorizované sdružování pozornosti, které má faktorizovat porovnání reprezentací mluvčích do více fonetických klastrů. Regulujeme směrem k parametrům předtrénovaného modelu a během dolaďování nastavujeme různé rychlosti učení pro každou vrstvu předtrénovaného modelu. Experimentální výsledky ukazují, že naše metoda může výrazně zkrátit dobu trénování na 4 hodiny a dosáhnout výkonu SOTA: V případě Vox1-O, Vox1-E a Vox1-H jsme dosáhli 0,59 %, 0,79 % a 1,77 % EER.
@INPROCEEDINGS{FITPUB12984, author = "Junyi Peng and Old\v{r}ich Plchot and Themos Stafylakis and Ladislav Mo\v{s}ner and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification", pages = "555--562", booktitle = "2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings", year = 2023, location = "Doha, QA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-7189-3", doi = "10.1109/SLT54892.2023.10022775", language = "english", url = "https://www.fit.vut.cz/research/publication/12984" }