Detail publikace

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

HORI, T.; KOCOUR, M.; HAIDER, A.; MCDERMOTT, E.; ZHUANG, X. Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Název česky
Delayed Fusion: Integrace rozsáhlých jazykových modelů do prvního průchodu dekódování v end-to-end rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
HORI, T.
Kocour Martin, Ing. (UPGM)
HAIDER, A.
MCDERMOTT, E.
ZHUANG, X.
URL
Klíčová slova

rozpoznávání řeči, model velkého jazyka, dekódování, zpožděná fúze

Abstrakt

Tento článek představuje efektivní dekódovací přístup pro end-to-end automatické
rozpoznávání řeči (E2E-ASR) s rozsáhlými jazykovými modely (LLM). Ačkoli je mělká
fúze nejběžnějším přístupem k začlenění jazykových modelů do dekódování E2E-ASR,
čelíme s LLM dvěma praktickým problémům. (1) Inference LLM je výpočetně náročná.
(2) Mezi modelem ASR a LLM může existovat nesoulad ve slovní zásobě. Abychom
tento nesoulad vyřešili, musíme model ASR a/nebo LLM přetrénovat, což je
v nejlepším případě časově náročné a v mnoha případech neproveditelné. Navrhujeme
zpožděnou fúzi, která aplikuje skóre LLM na hypotézy ASR se zpožděním během
dekódování a umožňuje snadnější použití předtrénovaných LLM v úlohách ASR. Tato
metoda může snížit nejen počet hypotéz skórovaných LLM, ale také počet volání
inference LLM. Umožňuje také přetokenizaci hypotéz ASR během dekódování, pokud
ASR a LLM používají různé tokenizace. Ukazujeme, že zpožděná fúze poskytuje
vylepšenou rychlost a přesnost dekódování ve srovnání s mělkou fúzí a N-best
přeskórováním s využitím korpusu LibriHeavy ASR a tří veřejných LLM, OpenLLaMA 3B
a 7B a Mistral 7B.

Rok
2025
Strany
1–5
Sborník
Proceedings of ICASSP 2025
Konference
25. konference ICASSP 2025, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad
DOI
BibTeX
@inproceedings{BUT198053,
  author="HORI, T. and KOCOUR, M. and HAIDER, A. and MCDERMOTT, E. and ZHUANG, X.",
  title="Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10890391",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391"
}
Soubory
Nahoru