Detail publikace

Spelling-Aware Word-Based End-to-End ASR

EGOROVA Ekaterina, VYDANA Hari K., BURGET Lukáš a ČERNOCKÝ Jan. Spelling-Aware Word-Based End-to-End ASR. IEEE Signal Processing Letters, roč. 29, č. 29, 2022, s. 1729-1733. ISSN 1558-2361. Dostupné z: https://ieeexplore.ieee.org/document/9833231
Typ
článek v časopise
Jazyk
angličtina
Autoři
URL
Abstrakt

Navrhujeme novou end-to-end architekturu pro automatické rozpoznávání řeči, která rozšiřuje paradigma poslechu, účasti a hláskování (LAS). Zatímco hlavní síť pro předpovídání slov je trénována k předpovídání slov, sekundární síť pravopisu je optimalizována k předpovídání pravopisu slov z vnitřních reprezentací hlavní sítě (např. vložení slov nebo kontextové vektory z modulu pozornosti). Ukazujeme, že toto společné školení zlepšuje chybovost slov v systému založeném na slovech a umožňuje řešení dalších úkolů, jako je detekce a obnova slov mimo slovní zásobu. Testy se provádějí na datové sadě LibriSpeech sestávající z 1000 hodin čtené řeči.

Rok
2022
Strany
1729-1733
Časopis
IEEE Signal Processing Letters, roč. 29, č. 29, ISSN 1558-2361
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
000842088200001
EID Scopus
BibTeX
@ARTICLE{FITPUB12803,
   author = "Ekaterina Egorova and K. Hari Vydana and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Spelling-Aware Word-Based End-to-End ASR",
   pages = "1729--1733",
   journal = "IEEE Signal Processing Letters",
   volume = 29,
   number = 29,
   year = 2022,
   ISSN = "1558-2361",
   doi = "10.1109/LSP.2022.3192199",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12803"
}
Nahoru