Detail publikace

Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder

YUSUF, B.; GANDHE, A.; SOKOLOV, A. Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 8297-8301. ISBN: 978-1-6654-0540-9.

Název česky

Zlepšení ASR pomocí unifikovaného řečového a textového enkodéru-dekodéru

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Yusuf Bolaji (UPGM)
Gandhe Ankur
Sokolov Alex

URL

Klíčová slova

sequence-to-sequence, multitask, end-to-end ASR, masked language model, machine translation

Abstrakt

Zlepšení komplexního rozpoznávání řeči začleněním externích textových dat je dlouhodobým tématem výzkumu. Nedávno se zaměřilo na školení modelů E2E ASR, které využívají výkonnostních výhod externích textových dat, aniž by vznikaly dodatečné náklady na vyhodnocení externího jazykového modelu v době odvození. V této práci navrhujeme trénovací model ASR společně se sadou pomocných úloh text-to-text, se kterými sdílí dekodér a části kodéru. Když společně trénujeme ASR a maskovaný jazykový model s 960hodinovými daty Librispeech a Opensubtitles, pozorujeme snížení WER o 16 %, resp. inferenční čas a snížení o 6 % a 8 % ve srovnání se silnější základní linií MUTE-L, která trénuje dekodér se stejnými textovými daty jako náš model. Dalších vylepšení dosáhneme, když trénujeme maskovaný jazykový model na datech Librispeech nebo když používáme strojový překlad jako pomocnou úlohu, aniž bychom výrazně obětovali výkon na samotné úloze.

Rok

2022

Strany

8297–8301

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

2022 IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP), Singapore, SG

ISBN

978-1-6654-0540-9

Vydavatel

IEEE Signal Processing Society

Místo

Singapore

DOI

10.1109/ICASSP43922.2022.9746554

UT WoS

000864187908121

EID Scopus

2-s2.0-85131263040

BibTeX

@inproceedings{BUT178379,
  author="Bolaji {Yusuf} and Ankur {Gandhe} and Alex {Sokolov}",
  title="Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="8297--8301",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9746554",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9746554"
}

Soubory

pdf yusuf_icassp2022_Usted_Improving_ASR_with_a_Unified_Speech_and_Text_Encoder-Decoder.pdf 1 MB