Detail publikace

Speech Enhancement Using End-to-End Speech Recognition Objectives

SUBRAMANIAN, A.; WANG, X.; BASKAR, M.; WATANABE, S.; TANIGUCHI, T.; TRAN, D.; FUJITA, Y. Speech Enhancement Using End-to-End Speech Recognition Objectives. In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz, NY: IEEE Signal Processing Society, 2019. p. 234-238. ISBN: 978-1-7281-1123-0.

Název česky

Zvýrazňování řeči pomocí objektivní funkce end-to-end rozpoznávání řeči

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

SUBRAMANIAN, A.
WANG, X.
Baskar Murali Karthick, Ing., Ph.D.
Watanabe Shinji
TANIGUCHI, T.
TRAN, D.
FUJITA, Y.

URL

https://ieeexplore.ieee.org/document/8937250

Klíčová slova

speech enhancement, speech recognition, neuraldereverberation, neural beamformer, training objectives

Abstrakt

Systémy pro vylepšení řeči, které odšumují a potlačují zkreslené signály, jsou obvykle optimalizovány na základě cílů rekonstrukce signálu, včetně maximální pravděpodobnosti a minimální střední kvadratické chyby. Vznikající end-to-end neurální metody však umožňují optimalizovat systém vylepšení řeči s cíli více orientovanými na aplikaci. Například můžeme společně optimalizovat vylepšení řeči a automatické rozpoznávání řeči (ASR) pouze pomocí kritérií minimalizace chyb ASR. Hlavním příspěvkem tohoto příspěvku je prozkoumat, jak systém optimalizovaný na základě cíle ASR zlepšuje kvalitu vylepšení řeči na různých metrikách úrovně signálu kromě metriky chybovosti slov ASR (WER). Používáme nedávno vyvinutý vícekanálový systém end-to-end (ME2E), který integruje neurální dereverberaci, formování paprsku a rozpoznávání řeči založené na pozornosti v rámci jedné neurální sítě. Dále navrhujeme rozšířit dereverberační podsíť ME2E dynamickým měněním pořadí filtrů v lineární predikci pomocí učení zesílení a rozšířit podsíť tvořící paprsek začleněním odhadu faktoru zkreslení řeči. Pokusy odhalují, jak dobře různé metriky úrovně signálu korelují s metrikou WER, a ověřují, že vylepšení řeči založené na učení lze realizovat cílovými tréninkovými cíli ASR bez použití paralelních čistých a hlučných dat.

Rok

2019

Strany

234–238

Sborník

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

Konference

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, US

ISBN

978-1-7281-1123-0

Vydavatel

IEEE Signal Processing Society

Místo

New Paltz, NY

DOI

10.1109/WASPAA.2019.8937250

UT WoS

000527800200048

EID Scopus

2-s2.0-85078046877

BibTeX

@inproceedings{BUT170323,
  author="SUBRAMANIAN, A. and WANG, X. and BASKAR, M. and WATANABE, S. and TANIGUCHI, T. and TRAN, D. and FUJITA, Y.",
  title="Speech Enhancement Using End-to-End Speech Recognition Objectives",
  booktitle="IEEE Workshop on Applications of Signal Processing to Audio and Acoustics",
  year="2019",
  pages="234--238",
  publisher="IEEE Signal Processing Society",
  address="New Paltz, NY",
  doi="10.1109/WASPAA.2019.8937250",
  isbn="978-1-7281-1123-0",
  url="https://ieeexplore.ieee.org/document/8937250"
}

Soubory

pdf subramanian_WASPAA_2019_08937250.pdf 957 kB