Detail publikace

Target Speaker ASR with Whisper

POLOK, A.; KLEMENT, D.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. Target Speaker ASR with Whisper. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.

Název česky

ASR cílového mluvčího pomocí modelu Whisper

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Polok Alexander, Ing. (UPGM)
Klement Dominik, Bc. (UPGM)
Wiesner Matthew, PhD.
Khudanpur Sanjeev
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887683

Klíčová slova

ASR s cílovým mluvčím, diarizační kondicionování, ASR s více mluvčími, Whisper

Abstrakt

Navrhujeme nový přístup, který umožňuje použití rozsáhlých modelů ASR pro jednoho
mluvčího, jako je Whisper, pro ASR cílového mluvčího. Klíčovým tvrzením této
metody je, že je mnohem snadnější modelovat relativní rozdíly mezi mluvčími
učením podmínění na úrovni snímků na diarizaci výstupů než učení prostoru všech
vnoření mluvčích. Zjistili jsme, že přidání i jediného členu zkreslení na typ
diarizace výstupu před první transformační blok může transformovat modely ASR pro
jednoho mluvčího na modely ASR pro cílového mluvčího. Náš přístup také podporuje
ASR přiřazené mluvčímu sekvenčním generováním přepisů pro každého mluvčího ve
diarizaci výstupu. Tato zjednodušená metoda překonává základní separaci řeči
a diarizaci kaskády o 12,9 % absolutního ORC-WER na datové sadě NOTSOFAR-1.

Rok

2025

Strany

1–5

Sborník

Proceedings of ICASSP 2025

Konference

25. konference ICASSP 2025, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad

DOI

10.1109/ICASSP49660.2025.10887683

BibTeX

@inproceedings{BUT198049,
  author="Alexander {Polok} and Dominik {Klement} and Matthew {Wiesner} and Sanjeev {Khudanpur} and Jan {Černocký} and Lukáš {Burget}",
  title="Target Speaker ASR with Whisper",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10887683",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887683"
}

Soubory

pdf Target_Speaker_ASR_with_Whisper.pdf 532 kB