Detail publikace
TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models
ASHIHARA, T.
Delcroix Marc
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)
Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči,
detekce hlasové aktivity
Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči
a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí
benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším
zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je
náročnější, ale praktičtější případ. V tomto článku představujeme univerzální
benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje
čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují
identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem
benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá
jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje
důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že
výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí
jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru
mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly
TS s cílem využít vzájemné informace a demonstrovat její efektivitu.
@inproceedings{BUT198051,
author="PENG, J. and ASHIHARA, T. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
title="TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models",
booktitle="Proceedings of ICASSP 2025",
year="2025",
pages="1--5",
publisher="IEEE Biometric Council",
address="Hyderabad",
doi="10.1109/ICASSP49660.2025.10887574",
isbn="979-8-3503-6874-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574"
}