Detail publikace
DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition
Klement Dominik, Bc. (UPGM)
Kocour Martin, Ing. (UPGM)
Han Jiangyu (UPGM)
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Yusuf Bolaji (UPGM)
Wiesner Matthew, PhD.
Khudanpur Sanjeev
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Diarizačně podmíněný šepot, adaptace šepotu na cílového mluvčího, diarizace mluvčího, dlouhodobá ASR, adaptace šepotu
Automatické rozpoznávání řeči (ASR) s přiřazením mluvčího v prostředí s více mluvčími zůstává významnou výzvou, zejména když systémy podmíněné vkládáním mluvčích nedokážou zobecnit na neviditelné mluvčí. V této práci navrhujeme Diarizačně podmíněný šepot (DiCoW), nový přístup k ASR cílového mluvčího, který využívá výstupy diarizace mluvčích jako podmiňovací informace. DiCoW rozšiřuje předtrénovaný model Whisper přímou integrací diarizačních štítků, čímž eliminuje závislost na vkládání mluvčích a snižuje potřebu rozsáhlých trénovacích dat specifických pro mluvčí. Naše metoda zavádí techniky diarizace závislé na úrovni snímků (FDDT) a kladení dotazovacích klíčů (QKb) pro zpřesnění zaměření modelu na cílové mluvčí a zároveň efektivní zpracování překrývající se řeči. Využitím výstupů diarizace jako podmiňovacích signálů DiCoW zjednodušuje pracovní postup pro ASR s více mluvčími, zlepšuje zobecnění na neviditelné mluvčí a umožňuje spolehlivější transkripci v reálných nahrávkách s více mluvčími. Dále zkoumáme integraci konekcionistické časové klasifikace (CTC) do Whisperu a demonstrujeme její schopnost zlepšit efektivitu transkripce prostřednictvím hybridního dekódování. Ukazujeme, že náš přístup se neomezuje pouze na Whisper; podobné výhody poskytuje i při aplikaci na model Branchformer. Ověřujeme DiCoW na reálných datových sadách, včetně AMI a NOTSOFAR-1 z testu CHiME-8, a také na syntetických benchmarkech, jako jsou Libri2Mix a LibriCSS, což umožňuje přímé srovnání s předchozími metodami. Výsledky ukazují, že DiCoW vylepšuje schopnosti modelu ASR pro cílového mluvčího a zároveň zachovává přesnost a robustnost Whisperu na datech od jednoho mluvčího.
@article{BUT198052,
author="Alexander {Polok} and Dominik {Klement} and Martin {Kocour} and Jiangyu {Han} and Federico Nicolás {Landini} and Bolaji {Yusuf} and Matthew {Wiesner} and Sanjeev {Khudanpur} and Jan {Černocký} and Lukáš {Burget}",
title="DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition",
journal="COMPUTER SPEECH AND LANGUAGE",
year="2025",
pages="1--39",
issn="0885-2308",
url="https://www.fit.vut.cz/research/publication/13524/"
}