Detail publikace

Multi-Channel Extension of Pre-trained Models for Speaker Verification

MOŠNER, L.; SERIZEL, R.; BURGET, L.; PLCHOT, O.; VINCENT, E.; PENG, J.; ČERNOCKÝ, J. Multi-Channel Extension of Pre-trained Models for Speaker Verification. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 2135-2139. ISSN: 1990-9772.
Název česky
Vícekanálové rozšíření předtrénovaných modelů pro ověřování mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

multi-channel speaker verification, pre-trained models

Abstrakt

V této práci se zaměřujeme na návrh vícekanálové řeči
systém zpracování založený na velkých předem vyškolených modelech. Tyto
modely jsou obvykle trénovány pro jednokanálové scénáře prostřednictvím
samokontrolované učení (SSL). Běžný přístup k použití
modely SSL s daty pole mikrofonů je mají předřadit
s vícekanálovým vylepšením řeči. Nevýhodou je, že
prostorové informace lze využít pouze předzpracováním
fázi a chyby vylepšení se přenesou do modelu SSL.
Naším cílem je tento problém zmírnit navržením METRO, multi-
kanál Rozšíření pRetrénovaných modelů. Prokládá se
zpracování kanálů s výměnou informací mezi kanály,
případně sloučení kanálů do jednoho. Zatímco náš přístup je gen-
Nyní se zaměříme na ověření vícekanálových reproduktorů. Náš
experimenty na korpusu MultiSV ukazují pozoruhodné zlepšení
porovnává nejlépe publikované výsledky na datovém souboru

Rok
2024
Strany
2135–2139
Časopis
Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos
DOI
EID Scopus
BibTeX
@inproceedings{BUT193682,
  author="MOŠNER, L. and SERIZEL, R. and BURGET, L. and PLCHOT, O. and VINCENT, E. and PENG, J. and ČERNOCKÝ, J.",
  title="Multi-Channel Extension of Pre-trained Models for Speaker Verification",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="2135--2139",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-1260",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/mosner24_interspeech.pdf"
}
Soubory
Nahoru