Detail výsledku

DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition

Vznik: 2024
Typ
software
Jazyk
angličtina
Autoři
Polok Alexander, Ing., UPGM (FIT)
Klement Dominik, Ing., FIT (FIT), UPGM (FIT)
Kocour Martin, Ing., UPGM (FIT)
Popis

DiCoW (Diarization-Conditioned Whisper) is a Target Speaker Automatic Speech Recognition (TS-ASR) system that integrates speaker diarization cues into OpenAI's Whisper model. By conditioning on speaker identity, DiCoW enables highly accurate transcription of a target speaker's speech in complex, multi-speaker environments.
At the time of publication, DiCoW achieves state-of-the-art performance on the Libri2Mix and AMI benchmarks. The system was recognized with the Jury Award at CHiME-8 Task 2 – NOTSOFAR challenge and secured Best Reproducibility Award in the Challenge and Workshop on Multilingual Conversational Speech Language Model (MLC-SLM).

Klíčová slova

Diarization, Conditioned Whisper, Target Speaker, Automatic Speech Recognition

URL
Licence
K využití výsledku jiným subjektem je vždy nutné nabytí licence
Licenční poplatek
Poskytovatel licence na výsledek nepožaduje licenční poplatek
Projekty
Jazykověda, umělá inteligence a jazykové a řečové technologie: od výzkumu k aplikacím, EU, MEZISEKTOROVÁ SPOLUPRÁCE, EH23_020/0008518, zahájení: 2025-01-01, ukončení: 2028-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru