Detail publikace

Speech Enhancement Using End-to-End Speech Recognition Objectives

SUBRAMANIAN Aswin S., WANG Xiaofei, BASKAR Murali K., WATANABE Shinji, TANIGUCHI Toru, TRAN Dung a FUJITA Yuya. Speech Enhancement Using End-to-End Speech Recognition Objectives. In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz, NY: IEEE Signal Processing Society, 2019, s. 234-238. ISBN 978-1-7281-1123-0. Dostupné z: https://ieeexplore.ieee.org/document/8937250
Název česky
Zvýrazňování řeči pomocí objektivní funkce end-to-end rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Subramanian Aswin S. (JHU)
Wang Xiaofei (JHU)
Baskar Murali K. (UPGM FIT VUT)
Watanabe Shinji, Dr. (JHU)
Taniguchi Toru (YAHOO-JP)
Tran Dung (YAHOO-JP)
Fujita Yuya (YAHOO-JP)
URL
Abstrakt

Systémy pro vylepšení řeči, které odšumují a potlačují zkreslené signály, jsou obvykle optimalizovány na základě cílů rekonstrukce signálu, včetně maximální pravděpodobnosti a minimální střední kvadratické chyby. Vznikající end-to-end neurální metody však umožňují optimalizovat systém vylepšení řeči s cíli více orientovanými na aplikaci. Například můžeme společně optimalizovat vylepšení řeči a automatické rozpoznávání řeči (ASR) pouze pomocí kritérií minimalizace chyb ASR. Hlavním příspěvkem tohoto příspěvku je prozkoumat, jak systém optimalizovaný na základě cíle ASR zlepšuje kvalitu vylepšení řeči na různých metrikách úrovně signálu kromě metriky chybovosti slov ASR (WER). Používáme nedávno vyvinutý vícekanálový systém end-to-end (ME2E), který integruje neurální dereverberaci, formování paprsku a rozpoznávání řeči založené na pozornosti v rámci jedné neurální sítě. Dále navrhujeme rozšířit dereverberační podsíť ME2E dynamickým měněním pořadí filtrů v lineární predikci pomocí učení zesílení a rozšířit podsíť tvořící paprsek začleněním odhadu faktoru zkreslení řeči. Pokusy odhalují, jak dobře různé metriky úrovně signálu korelují s metrikou WER, a ověřují, že vylepšení řeči založené na učení lze realizovat cílovými tréninkovými cíli ASR bez použití paralelních čistých a hlučných dat.

Rok
2019
Strany
234-238
Sborník
IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
Konference
IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, US
ISBN
978-1-7281-1123-0
Vydavatel
IEEE Signal Processing Society
Místo
New Paltz, NY, US
DOI
UT WoS
000527800200048
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12472,
   author = "S. Aswin Subramanian and Xiaofei Wang and K. Murali Baskar and Shinji Watanabe and Toru Taniguchi and Dung Tran and Yuya Fujita",
   title = "Speech Enhancement Using End-to-End Speech Recognition Objectives",
   pages = "234--238",
   booktitle = "IEEE Workshop on Applications of Signal Processing to Audio and Acoustics",
   year = 2019,
   location = "New Paltz, NY, US",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-1123-0",
   doi = "10.1109/WASPAA.2019.8937250",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12472"
}
Nahoru