Detail publikace

TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models

PENG, J.; ASHIHARA, T.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.

Název česky

TS-SUPERB: Sada dat a experimentů ověření zpracování řeči cílového mluvčího pomocí modelů řeči získaných samoučením

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi (UPGM)
ASHIHARA, T.
Delcroix Marc
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574

Klíčová slova

Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči,
detekce hlasové aktivity

Abstrakt

Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči
a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí
benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším
zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je
náročnější, ale praktičtější případ. V tomto článku představujeme univerzální
benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje
čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují
identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem
benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá
jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje
důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že
výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí
jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru
mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly
TS s cílem využít vzájemné informace a demonstrovat její efektivitu.

Rok

2025

Strany

1–5

Sborník

Proceedings of ICASSP 2025

Konference

25. konference ICASSP 2025, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad

DOI

10.1109/ICASSP49660.2025.10887574

BibTeX

@inproceedings{BUT198051,
  author="PENG, J. and ASHIHARA, T. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10887574",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574"
}

Soubory

pdf TS-SUPERB_A_Target_Speech_Processing_Benchmark_for_Speech_Self-Supervised_Learning_Models.pdf 790 kB