Detail publikace
Multi-Channel Extension of Pre-trained Models for Speaker Verification
SERIZEL, R.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
VINCENT, E.
Peng Junyi (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
multi-channel speaker verification, pre-trained models
V této práci se zaměřujeme na návrh vícekanálové řeči
systém zpracování založený na velkých předem vyškolených modelech. Tyto
modely jsou obvykle trénovány pro jednokanálové scénáře prostřednictvím
samokontrolované učení (SSL). Běžný přístup k použití
modely SSL s daty pole mikrofonů je mají předřadit
s vícekanálovým vylepšením řeči. Nevýhodou je, že
prostorové informace lze využít pouze předzpracováním
fázi a chyby vylepšení se přenesou do modelu SSL.
Naším cílem je tento problém zmírnit navržením METRO, multi-
kanál Rozšíření pRetrénovaných modelů. Prokládá se
zpracování kanálů s výměnou informací mezi kanály,
případně sloučení kanálů do jednoho. Zatímco náš přístup je gen-
Nyní se zaměříme na ověření vícekanálových reproduktorů. Náš
experimenty na korpusu MultiSV ukazují pozoruhodné zlepšení
porovnává nejlépe publikované výsledky na datovém souboru
@inproceedings{BUT193682,
author="MOŠNER, L. and SERIZEL, R. and BURGET, L. and PLCHOT, O. and VINCENT, E. and PENG, J. and ČERNOCKÝ, J.",
title="Multi-Channel Extension of Pre-trained Models for Speaker Verification",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2024",
journal="Proceedings of Interspeech",
volume="2024",
number="9",
pages="2135--2139",
publisher="International Speech Communication Association",
address="Kos",
doi="10.21437/Interspeech.2024-1260",
issn="1990-9772",
url="https://www.isca-archive.org/interspeech_2024/mosner24_interspeech.pdf"
}