Detail publikace

Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition

BASKAR Murali K., BURGET Lukáš, WATANABE Shinji, ASTUDILLO Ramon a ČERNOCKÝ Jan. Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition. In: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021, s. 6753-6757. ISBN 978-1-7281-7605-5. Dostupné z: https://ieeexplore.ieee.org/document/9413375
Název česky
EAT: Obohacený systém ASR-TTS pro samoučící se rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Baskar Murali K. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Watanabe Shinji, Dr. (JHU)
Astudillo Ramon (IBM Watson)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Modely ASR-TTS s vlastním dohledem trpí v podmínkách mimo doménu. Zde navrhujeme vylepšený model ASR-TTS (EAT), který zahrnuje dvě hlavní funkce: 1) Směr ASR! TTS je vybaven odměnou za jazykový model, která penalizuje hypotézy ASR před jeho předáním TTS. 2) Ve směru TTS! ASR je zaveden hyperparametr pro škálování kontextu pozornosti ze syntetizované řeči před odesláním do ASR pro zpracování dat mimo doménu. Strategie školení a účinnost modelu EAT jsou zkoumány za podmínek mimo doménu. Výsledky ukazují, že EAT významně snižuje výkonnostní rozdíl mezi tréninkem s dohledem a tréninkem s vlastním dohledem o absolutních 2,6% a 2,7% u Librispeech a BABEL.

Rok
2021
Strany
6753-6757
Sborník
ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Konference
2021 IEEE International Conference on Acoustics, Speech and Signal Processing, Toronto, CA
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto, Ontario, CA
DOI
UT WoS
000704288407006
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12524,
   author = "K. Murali Baskar and Luk\'{a}\v{s} Burget and Shinji Watanabe and Ramon Astudillo and Jan \v{C}ernock\'{y}",
   title = "Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition",
   pages = "6753--6757",
   booktitle = "ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
   year = 2021,
   location = "Toronto, Ontario, CA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-7605-5",
   doi = "10.1109/ICASSP39728.2021.9413375",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12524"
}
Nahoru