Detail publikace
Speech Enhancement Using End-to-End Speech Recognition Objectives
Wang Xiaofei (JHU)
Baskar Murali K. (UPGM FIT VUT)
Watanabe Shinji, Dr. (JHU)
Taniguchi Toru (YAHOO-JP)
Tran Dung (YAHOO-JP)
Fujita Yuya (YAHOO-JP)
Systémy pro vylepšení řeči, které odšumují a potlačují zkreslené signály, jsou obvykle optimalizovány na základě cílů rekonstrukce signálu, včetně maximální pravděpodobnosti a minimální střední kvadratické chyby. Vznikající end-to-end neurální metody však umožňují optimalizovat systém vylepšení řeči s cíli více orientovanými na aplikaci. Například můžeme společně optimalizovat vylepšení řeči a automatické rozpoznávání řeči (ASR) pouze pomocí kritérií minimalizace chyb ASR. Hlavním příspěvkem tohoto příspěvku je prozkoumat, jak systém optimalizovaný na základě cíle ASR zlepšuje kvalitu vylepšení řeči na různých metrikách úrovně signálu kromě metriky chybovosti slov ASR (WER). Používáme nedávno vyvinutý vícekanálový systém end-to-end (ME2E), který integruje neurální dereverberaci, formování paprsku a rozpoznávání řeči založené na pozornosti v rámci jedné neurální sítě. Dále navrhujeme rozšířit dereverberační podsíť ME2E dynamickým měněním pořadí filtrů v lineární predikci pomocí učení zesílení a rozšířit podsíť tvořící paprsek začleněním odhadu faktoru zkreslení řeči. Pokusy odhalují, jak dobře různé metriky úrovně signálu korelují s metrikou WER, a ověřují, že vylepšení řeči založené na učení lze realizovat cílovými tréninkovými cíli ASR bez použití paralelních čistých a hlučných dat.
@INPROCEEDINGS{FITPUB12472, author = "S. Aswin Subramanian and Xiaofei Wang and K. Murali Baskar and Shinji Watanabe and Toru Taniguchi and Dung Tran and Yuya Fujita", title = "Speech Enhancement Using End-to-End Speech Recognition Objectives", pages = "234--238", booktitle = "IEEE Workshop on Applications of Signal Processing to Audio and Acoustics", year = 2019, location = "New Paltz, NY, US", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-1123-0", doi = "10.1109/WASPAA.2019.8937250", language = "english", url = "https://www.fit.vut.cz/research/publication/12472" }