Detail publikace
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition
rozpoznávání řeči, model velkého jazyka, dekódování, zpožděná fúze
Tento článek představuje efektivní dekódovací přístup pro end-to-end automatické
rozpoznávání řeči (E2E-ASR) s rozsáhlými jazykovými modely (LLM). Ačkoli je mělká
fúze nejběžnějším přístupem k začlenění jazykových modelů do dekódování E2E-ASR,
čelíme s LLM dvěma praktickým problémům. (1) Inference LLM je výpočetně náročná.
(2) Mezi modelem ASR a LLM může existovat nesoulad ve slovní zásobě. Abychom
tento nesoulad vyřešili, musíme model ASR a/nebo LLM přetrénovat, což je
v nejlepším případě časově náročné a v mnoha případech neproveditelné. Navrhujeme
zpožděnou fúzi, která aplikuje skóre LLM na hypotézy ASR se zpožděním během
dekódování a umožňuje snadnější použití předtrénovaných LLM v úlohách ASR. Tato
metoda může snížit nejen počet hypotéz skórovaných LLM, ale také počet volání
inference LLM. Umožňuje také přetokenizaci hypotéz ASR během dekódování, pokud
ASR a LLM používají různé tokenizace. Ukazujeme, že zpožděná fúze poskytuje
vylepšenou rychlost a přesnost dekódování ve srovnání s mělkou fúzí a N-best
přeskórováním s využitím korpusu LibriHeavy ASR a tří veřejných LLM, OpenLLaMA 3B
a 7B a Mistral 7B.
@inproceedings{BUT198053,
author="HORI, T. and KOCOUR, M. and HAIDER, A. and MCDERMOTT, E. and ZHUANG, X.",
title="Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition",
booktitle="Proceedings of ICASSP 2025",
year="2025",
pages="1--5",
publisher="IEEE Biometric Council",
address="Hyderabad",
doi="10.1109/ICASSP49660.2025.10890391",
isbn="979-8-3503-6874-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391"
}