Detail publikace

An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification

PENG, J.; PLCHOT, O.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L.; ČERNOCKÝ, J. An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification. In 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 555-562. ISBN: 978-1-6654-7189-3.

Název česky

Backend pro rozpoznávání mluvčího založený na attention modelech umožňující efektivní jemné doladění transformerových modelů

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Pre-trained model, fine-tuning strategy, speaker verification, attentive pooling

Abstrakt

V posledních letech se paradigmatu samoučení věnuje velká pozornost díky jeho velkému úspěchu v různých následných úlohách. Strategie jemného doladění pro přizpůsobení těchto předem natrénovaných modelů úloze ověřování mluvčího však dosud nebyly plně prozkoumány. V tomto článku analyzujeme několik přístupů k extrakci příznaků postavených na předem natrénovaném modelu, jakož i regularizaci a plánovač míry učení, které mají stabilizovat proces jemného doladění a dále zvýšit výkonnost: je navrženo vícehlavé faktorizované sdružování pozornosti, které má faktorizovat porovnání reprezentací mluvčích do více fonetických klastrů. Regulujeme směrem k parametrům předtrénovaného modelu a během dolaďování nastavujeme různé rychlosti učení pro každou vrstvu předtrénovaného modelu. Experimentální výsledky ukazují, že naše metoda může výrazně zkrátit dobu trénování na 4 hodiny a dosáhnout výkonu SOTA: V případě Vox1-O, Vox1-E a Vox1-H jsme dosáhli 0,59 %, 0,79 % a 1,77 % EER.

Rok

2023

Strany

555–562

Sborník

2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings

Konference

IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA

ISBN

978-1-6654-7189-3

Vydavatel

IEEE Signal Processing Society

Místo

Doha

DOI

10.1109/SLT54892.2023.10022775

UT WoS

000968851900075

EID Scopus

2-s2.0-85147794754

BibTeX

@inproceedings{BUT185120,
  author="Junyi {Peng} and Oldřich {Plchot} and Themos {Stafylakis} and Ladislav {Mošner} and Lukáš {Burget} and Jan {Černocký}",
  title="An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification",
  booktitle="2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="555--562",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10022775",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10022775"
}

Soubory

pdf peng_SLT2022_published in January 2023.pdf 1 MB