Detail publikace
Speech Enhancement Using End-to-End Speech Recognition Objectives
WANG, X.
Baskar Murali Karthick, Ing., Ph.D.
Watanabe Shinji
TANIGUCHI, T.
TRAN, D.
FUJITA, Y.
speech enhancement, speech recognition, neuraldereverberation, neural beamformer, training objectives
Systémy pro vylepšení řeči, které odšumují a potlačují zkreslené signály, jsou obvykle optimalizovány na základě cílů rekonstrukce signálu, včetně maximální pravděpodobnosti a minimální střední kvadratické chyby. Vznikající end-to-end neurální metody však umožňují optimalizovat systém vylepšení řeči s cíli více orientovanými na aplikaci. Například můžeme společně optimalizovat vylepšení řeči a automatické rozpoznávání řeči (ASR) pouze pomocí kritérií minimalizace chyb ASR. Hlavním příspěvkem tohoto příspěvku je prozkoumat, jak systém optimalizovaný na základě cíle ASR zlepšuje kvalitu vylepšení řeči na různých metrikách úrovně signálu kromě metriky chybovosti slov ASR (WER). Používáme nedávno vyvinutý vícekanálový systém end-to-end (ME2E), který integruje neurální dereverberaci, formování paprsku a rozpoznávání řeči založené na pozornosti v rámci jedné neurální sítě. Dále navrhujeme rozšířit dereverberační podsíť ME2E dynamickým měněním pořadí filtrů v lineární predikci pomocí učení zesílení a rozšířit podsíť tvořící paprsek začleněním odhadu faktoru zkreslení řeči. Pokusy odhalují, jak dobře různé metriky úrovně signálu korelují s metrikou WER, a ověřují, že vylepšení řeči založené na učení lze realizovat cílovými tréninkovými cíli ASR bez použití paralelních čistých a hlučných dat.
@inproceedings{BUT170323,
author="SUBRAMANIAN, A. and WANG, X. and BASKAR, M. and WATANABE, S. and TANIGUCHI, T. and TRAN, D. and FUJITA, Y.",
title="Speech Enhancement Using End-to-End Speech Recognition Objectives",
booktitle="IEEE Workshop on Applications of Signal Processing to Audio and Acoustics",
year="2019",
pages="234--238",
publisher="IEEE Signal Processing Society",
address="New Paltz, NY",
doi="10.1109/WASPAA.2019.8937250",
isbn="978-1-7281-1123-0",
url="https://ieeexplore.ieee.org/document/8937250"
}