Detail publikace

Improving Speaker Verification with Self-Pretrained Transformer Models

PENG, J.; PLCHOT, O.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L.; ČERNOCKÝ, J. Improving Speaker Verification with Self-Pretrained Transformer Models. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 5361-5365. ISSN: 1990-9772.

Název česky

Zlepšení ověřování mluvčího pomocí samoučících se modelů typu Transformer

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

speaker verification, pre-trained speech transformer model, pre-training,

Abstrakt

V poslední době se dolaďují velké předtrénované modely Transformer pomocí
navazující datové soubory se těší rostoucímu zájmu. I přes
jejich úspěchu, je stále obtížné rozdělit výhody
rozsáhlých datových sad a struktur Transformer z omezení
předtréninku. V tomto článku zavedeme hierarchický
tréninkový přístup, pojmenovaný sebepretrénování, ve kterém
Modely transformátorů jsou předem připraveny a vyladěny na stejném
datový soubor. Tři předtrénované modely včetně HuBERT, Conformer
aWavLM jsou hodnoceny na čtyřech různých ověřeních mluvčích
datové sady s různou velikostí. Naše experimenty to ukazují
tyto předem připravené modely dosahují konkurenceschopného výkonu
na úlohách ověřování následných mluvčích pouze s jednou třetinou
dat ve srovnání s předtréninkem Librispeech, jako je Vox-
Celeb1 a CNCeleb1. Navíc pouze při předtréninku
na VoxCeleb2-dev model Conformer překonává model
jeden předem trénovaný na 94 000 hodinách dat pomocí stejného jemného doladění
nastavení.

Rok

2023

Strany

5361–5365

Časopis

Proceedings of Interspeech, roč. 2023, č. 08, ISSN 1990-9772

Sborník

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH

Konference

24. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2022), Dublin, IE

Vydavatel

International Speech Communication Association

Místo

Dublin

DOI

10.21437/Interspeech.2023-453

EID Scopus

2-s2.0-85171555712

BibTeX

@inproceedings{BUT185575,
  author="Junyi {Peng} and Oldřich {Plchot} and Themos {Stafylakis} and Ladislav {Mošner} and Lukáš {Burget} and Jan {Černocký}",
  title="Improving Speaker Verification with Self-Pretrained Transformer Models",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2023",
  journal="Proceedings of Interspeech",
  volume="2023",
  number="08",
  pages="5361--5365",
  publisher="International Speech Communication Association",
  address="Dublin",
  doi="10.21437/Interspeech.2023-453",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/peng23_interspeech.pdf"
}

Soubory

pdf peng23_interspeech2023_improving.pdf 643 kB