Detail publikace

Improving Speaker Verification with Self-Pretrained Transformer Models

PENG Junyi, PLCHOT Oldřich, STAFYLAKIS Themos, MOŠNER Ladislav, BURGET Lukáš a ČERNOCKÝ Jan. Improving Speaker Verification with Self-Pretrained Transformer Models. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 5361-5365. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2023/peng23_interspeech.pdf
Název česky
Zlepšení ověřování mluvčího pomocí samoučících se modelů typu Transformer
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V poslední době se dolaďují velké předtrénované modely Transformer pomocí navazující datové soubory se těší rostoucímu zájmu. I přes jejich úspěchu, je stále obtížné rozdělit výhody rozsáhlých datových sad a struktur Transformer z omezení předtréninku. V tomto článku zavedeme hierarchický tréninkový přístup, pojmenovaný sebepretrénování, ve kterém Modely transformátorů jsou předem připraveny a vyladěny na stejném datový soubor. Tři předtrénované modely včetně HuBERT, Conformer aWavLM jsou hodnoceny na čtyřech různých ověřeních mluvčích datové sady s různou velikostí. Naše experimenty to ukazují tyto předem připravené modely dosahují konkurenceschopného výkonu na úlohách ověřování následných mluvčích pouze s jednou třetinou dat ve srovnání s předtréninkem Librispeech, jako je Vox- Celeb1 a CNCeleb1. Navíc pouze při předtréninku na VoxCeleb2-dev model Conformer překonává model jeden předem trénovaný na 94 000 hodinách dat pomocí stejného jemného doladění nastavení.

Rok
2023
Strany
5361-5365
Časopis
Proceedings of Interspeech - on-line, roč. 2023, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Dublin, IE
Vydavatel
International Speech Communication Association
Místo
Dublin, IE
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13112,
   author = "Junyi Peng and Old\v{r}ich Plchot and Themos Stafylakis and Ladislav Mo\v{s}ner and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Improving Speaker Verification with Self-Pretrained Transformer Models",
   pages = "5361--5365",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2023,
   number = 08,
   year = 2023,
   location = "Dublin, IE",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2023-453",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13112"
}
Nahoru