Detail publikace
Target Speaker ASR with Whisper
Klement Dominik, Bc. (UPGM)
Wiesner Matthew, PhD.
Khudanpur Sanjeev
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
ASR s cílovým mluvčím, diarizační kondicionování, ASR s více mluvčími, Whisper
Navrhujeme nový přístup, který umožňuje použití rozsáhlých modelů ASR pro jednoho
mluvčího, jako je Whisper, pro ASR cílového mluvčího. Klíčovým tvrzením této
metody je, že je mnohem snadnější modelovat relativní rozdíly mezi mluvčími
učením podmínění na úrovni snímků na diarizaci výstupů než učení prostoru všech
vnoření mluvčích. Zjistili jsme, že přidání i jediného členu zkreslení na typ
diarizace výstupu před první transformační blok může transformovat modely ASR pro
jednoho mluvčího na modely ASR pro cílového mluvčího. Náš přístup také podporuje
ASR přiřazené mluvčímu sekvenčním generováním přepisů pro každého mluvčího ve
diarizaci výstupu. Tato zjednodušená metoda překonává základní separaci řeči
a diarizaci kaskády o 12,9 % absolutního ORC-WER na datové sadě NOTSOFAR-1.
@inproceedings{BUT198049,
author="Alexander {Polok} and Dominik {Klement} and Matthew {Wiesner} and Sanjeev {Khudanpur} and Jan {Černocký} and Lukáš {Burget}",
title="Target Speaker ASR with Whisper",
booktitle="Proceedings of ICASSP 2025",
year="2025",
pages="1--5",
publisher="IEEE Biometric Council",
address="Hyderabad",
doi="10.1109/ICASSP49660.2025.10887683",
isbn="979-8-3503-6874-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887683"
}