Detail publikace

Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder

YUSUF Bolaji, GANDHE Ankur a SOKOLOV Alex. Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 8297-8301. ISBN 978-1-6654-0540-9. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9746554
Název česky
Zlepšení ASR pomocí unifikovaného řečového a textového enkodéru-dekodéru
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Yusuf Bolaji (UPGM FIT VUT)
Gandhe Ankur (AmazonCom)
Sokolov Alex (AmazonCom)
URL
Abstrakt

Zlepšení komplexního rozpoznávání řeči začleněním externích textových dat je dlouhodobým tématem výzkumu. Nedávno se zaměřilo na školení modelů E2E ASR, které využívají výkonnostních výhod externích textových dat, aniž by vznikaly dodatečné náklady na vyhodnocení externího jazykového modelu v době odvození. V této práci navrhujeme trénovací model ASR společně se sadou pomocných úloh text-to-text, se kterými sdílí dekodér a části kodéru. Když společně trénujeme ASR a maskovaný jazykový model s 960hodinovými daty Librispeech a Opensubtitles, pozorujeme snížení WER o 16 %, resp. inferenční čas a snížení o 6 % a 8 % ve srovnání se silnější základní linií MUTE-L, která trénuje dekodér se stejnými textovými daty jako náš model. Dalších vylepšení dosáhneme, když trénujeme maskovaný jazykový model na datech Librispeech nebo když používáme strojový překlad jako pomocnou úlohu, aniž bychom výrazně obětovali výkon na samotné úloze.

Rok
2022
Strany
8297-8301
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Singapore, SG
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore, SG
DOI
UT WoS
000864187908121
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12784,
   author = "Bolaji Yusuf and Ankur Gandhe and Alex Sokolov",
   title = "Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder",
   pages = "8297--8301",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2022,
   location = "Singapore, SG",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-0540-9",
   doi = "10.1109/ICASSP43922.2022.9746554",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12784"
}
Nahoru