Detail publikace

TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models

PENG, J.; ASHIHARA, T.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Název česky
TS-SUPERB: Sada dat a experimentů ověření zpracování řeči cílového mluvčího pomocí modelů řeči získaných samoučením
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Peng Junyi (UPGM)
ASHIHARA, T.
Delcroix Marc
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči,
detekce hlasové aktivity

Abstrakt

Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči
a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí
benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším
zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je
náročnější, ale praktičtější případ. V tomto článku představujeme univerzální
benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje
čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují
identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem
benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá
jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje
důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že
výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí
jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru
mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly
TS s cílem využít vzájemné informace a demonstrovat její efektivitu.

Rok
2025
Strany
1–5
Sborník
Proceedings of ICASSP 2025
Konference
25. konference ICASSP 2025, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad
DOI
BibTeX
@inproceedings{BUT198051,
  author="PENG, J. and ASHIHARA, T. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10887574",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574"
}
Soubory
Nahoru