Detail publikace

Parameter-Efficient Transfer Learning of Pre-Trained Transformer Models for Speaker Verification Using Adapters

PENG Junyi, STAFYLAKIS Themos, GU Rongzhi, PLCHOT Oldřich, MOŠNER Ladislav, BURGET Lukáš a ČERNOCKÝ Jan. Parameter-Efficient Transfer Learning of Pre-Trained Transformer Models for Speaker Verification Using Adapters. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Rhodes Island: IEEE Signal Processing Society, 2023, s. 1-5. ISBN 978-1-7281-6327-7. Dostupné z: https://ieeexplore.ieee.org/document/10094795
Název česky
Parametrově efektivní přenosové učení předtrénovaných modelů typu transformer pomocí adaptérů pro úlohu ověřování mluvčích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Gu Rongzhi (PKUSZ)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V poslední době zaznamenaly vzestup předtrénované modely Transformer zájem o oblast zpracování řeči díky jejich velkému úspěchu v různých následných úkolech. Nicméně většina přístupů dolaďování aktualizace všech parametrů předtrénovaného modelu,  se stane neúnosné, protože velikost modelu roste a někdy vede k nadměrnému vhodné pro malé datové soubory. V tomto dokumentu provádíme komplexní analýzu aplikace parametricky efektivního přenosového učení (PETL) metody ke snížení požadovaných naučitelných parametrů pro přizpůsobení k úkolům ověřování mluvčího. Konkrétně při dolaďování procesu jsou předtrénované modely zmrazené a pouze lehké moduly vložené do každého bloku transformátoru jsou trénovatelné (metoda známé jako adaptéry). Navíc ke zvýšení výkonu v křížovém Jazykový scénář s nízkými zdroji, model Transformer je dále vyladili na velké střední datové sadě před jejím přímým doladěním na malém datovém souboru. Při aktualizaci méně než 4 % parametrů (naše navrhované) metody založené na PETL dosahují srovnatelných výkonů s metodami úplného jemného doladění (Vox1-O: 0,55 %, Vox1-E: 0,82 %, Voxl-H: 1,73 %).

Rok
2023
Strany
1-5
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2023 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Rhodes Island, Greece, GR
ISBN
978-1-7281-6327-7
Vydavatel
IEEE Signal Processing Society
Místo
Rhodes Island, GR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13053,
   author = "Junyi Peng and Themos Stafylakis and Rongzhi Gu and Old\v{r}ich Plchot and Ladislav Mo\v{s}ner and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Parameter-Efficient Transfer Learning of Pre-Trained Transformer Models for Speaker Verification Using Adapters",
   pages = "1--5",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2023,
   location = "Rhodes Island, GR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-6327-7",
   doi = "10.1109/ICASSP49357.2023.10094795",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13053"
}
Nahoru