Detail publikace

DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition

POLOK, A.; KLEMENT, D.; KOCOUR, M.; HAN, J.; LANDINI, F.; YUSUF, B.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. COMPUTER SPEECH AND LANGUAGE, 2025, p. 1-39. ISSN: 0885-2308.
Název česky
Diarizací podmíněný model Whisper pro automatické rozpoznávání řeči cílového mluvčího
Typ
článek v časopise
Jazyk
anglicky
Autoři
Klíčová slova

Diarizačně podmíněný šepot, adaptace šepotu na cílového mluvčího, diarizace mluvčího, dlouhodobá ASR, adaptace šepotu

Abstrakt

Automatické rozpoznávání řeči (ASR) s přiřazením mluvčího v prostředí s více mluvčími zůstává významnou výzvou, zejména když systémy podmíněné vkládáním mluvčích nedokážou zobecnit na neviditelné mluvčí. V této práci navrhujeme Diarizačně podmíněný šepot (DiCoW), nový přístup k ASR cílového mluvčího, který využívá výstupy diarizace mluvčích jako podmiňovací informace. DiCoW rozšiřuje předtrénovaný model Whisper přímou integrací diarizačních štítků, čímž eliminuje závislost na vkládání mluvčích a snižuje potřebu rozsáhlých trénovacích dat specifických pro mluvčí. Naše metoda zavádí techniky diarizace závislé na úrovni snímků (FDDT) a kladení dotazovacích klíčů (QKb) pro zpřesnění zaměření modelu na cílové mluvčí a zároveň efektivní zpracování překrývající se řeči. Využitím výstupů diarizace jako podmiňovacích signálů DiCoW zjednodušuje pracovní postup pro ASR s více mluvčími, zlepšuje zobecnění na neviditelné mluvčí a umožňuje spolehlivější transkripci v reálných nahrávkách s více mluvčími. Dále zkoumáme integraci konekcionistické časové klasifikace (CTC) do Whisperu a demonstrujeme její schopnost zlepšit efektivitu transkripce prostřednictvím hybridního dekódování. Ukazujeme, že náš přístup se neomezuje pouze na Whisper; podobné výhody poskytuje i při aplikaci na model Branchformer. Ověřujeme DiCoW na reálných datových sadách, včetně AMI a NOTSOFAR-1 z testu CHiME-8, a také na syntetických benchmarkech, jako jsou Libri2Mix a LibriCSS, což umožňuje přímé srovnání s předchozími metodami. Výsledky ukazují, že DiCoW vylepšuje schopnosti modelu ASR pro cílového mluvčího a zároveň zachovává přesnost a robustnost Whisperu na datech od jednoho mluvčího.

Rok
2025 (v tisku)
Strany
1–39
Časopis
COMPUTER SPEECH AND LANGUAGE, ISSN 0885-2308
BibTeX
@article{BUT198052,
  author="Alexander {Polok} and Dominik {Klement} and Martin {Kocour} and Jiangyu {Han} and Federico Nicolás {Landini} and Bolaji {Yusuf} and Matthew {Wiesner} and Sanjeev {Khudanpur} and Jan {Černocký} and Lukáš {Burget}",
  title="DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2025",
  pages="1--39",
  issn="0885-2308",
  url="https://www.fit.vut.cz/research/publication/13524/"
}
Soubory
Nahoru