Detail publikace
Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder
Zlepšení komplexního rozpoznávání řeči začleněním externích textových dat je dlouhodobým tématem výzkumu. Nedávno se zaměřilo na školení modelů E2E ASR, které využívají výkonnostních výhod externích textových dat, aniž by vznikaly dodatečné náklady na vyhodnocení externího jazykového modelu v době odvození. V této práci navrhujeme trénovací model ASR společně se sadou pomocných úloh text-to-text, se kterými sdílí dekodér a části kodéru. Když společně trénujeme ASR a maskovaný jazykový model s 960hodinovými daty Librispeech a Opensubtitles, pozorujeme snížení WER o 16 %, resp. inferenční čas a snížení o 6 % a 8 % ve srovnání se silnější základní linií MUTE-L, která trénuje dekodér se stejnými textovými daty jako náš model. Dalších vylepšení dosáhneme, když trénujeme maskovaný jazykový model na datech Librispeech nebo když používáme strojový překlad jako pomocnou úlohu, aniž bychom výrazně obětovali výkon na samotné úloze.
@INPROCEEDINGS{FITPUB12784, author = "Bolaji Yusuf and Ankur Gandhe and Alex Sokolov", title = "Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder", pages = "8297--8301", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2022, location = "Singapore, SG", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-0540-9", doi = "10.1109/ICASSP43922.2022.9746554", language = "english", url = "https://www.fit.vut.cz/research/publication/12784" }