Detail publikace

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

HORI, T.; KOCOUR, M.; HAIDER, A.; MCDERMOTT, E.; ZHUANG, X. Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.

Název česky

Delayed Fusion: Integrace rozsáhlých jazykových modelů do prvního průchodu dekódování v end-to-end rozpoznávání řeči

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

HORI, T.
Kocour Martin, Ing. (UPGM)
HAIDER, A.
MCDERMOTT, E.
ZHUANG, X.

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391

Klíčová slova

rozpoznávání řeči, model velkého jazyka, dekódování, zpožděná fúze

Abstrakt

Tento článek představuje efektivní dekódovací přístup pro end-to-end automatické
rozpoznávání řeči (E2E-ASR) s rozsáhlými jazykovými modely (LLM). Ačkoli je mělká
fúze nejběžnějším přístupem k začlenění jazykových modelů do dekódování E2E-ASR,
čelíme s LLM dvěma praktickým problémům. (1) Inference LLM je výpočetně náročná.
(2) Mezi modelem ASR a LLM může existovat nesoulad ve slovní zásobě. Abychom
tento nesoulad vyřešili, musíme model ASR a/nebo LLM přetrénovat, což je
v nejlepším případě časově náročné a v mnoha případech neproveditelné. Navrhujeme
zpožděnou fúzi, která aplikuje skóre LLM na hypotézy ASR se zpožděním během
dekódování a umožňuje snadnější použití předtrénovaných LLM v úlohách ASR. Tato
metoda může snížit nejen počet hypotéz skórovaných LLM, ale také počet volání
inference LLM. Umožňuje také přetokenizaci hypotéz ASR během dekódování, pokud
ASR a LLM používají různé tokenizace. Ukazujeme, že zpožděná fúze poskytuje
vylepšenou rychlost a přesnost dekódování ve srovnání s mělkou fúzí a N-best
přeskórováním s využitím korpusu LibriHeavy ASR a tří veřejných LLM, OpenLLaMA 3B
a 7B a Mistral 7B.

Rok

2025

Strany

1–5

Sborník

Proceedings of ICASSP 2025

Konference

25. konference ICASSP 2025, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad

DOI

10.1109/ICASSP49660.2025.10890391

BibTeX

@inproceedings{BUT198053,
  author="HORI, T. and KOCOUR, M. and HAIDER, A. and MCDERMOTT, E. and ZHUANG, X.",
  title="Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10890391",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391"
}

Soubory

pdf Delayed_Fusion_Integrating_Large_Language_Models_into_First-Pass_Decoding_in_End-to-end_Speech_Recognition.pdf 863 kB