Detail publikace

Speaker activity driven neural speech extraction

DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, OCHIAI Tsubasa, KINOSHITA Keisuke a NAKATANI Tomohiro. Speaker activity driven neural speech extraction. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Toronto: IEEE Signal Processing Society, 2021, s. 6099-6103. ISBN 978-1-7281-7605-5.
Název česky
Neurální extrakce řeči řízená aktivitou řečníka
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Delcroix Marc (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Ochiai Tsubasa (NTT)
Kinoshita Keisuke (NTT)
Nakatani Tomohiro (NTT)
URL
Abstrakt

Cílová extrakce řeči, která extrahuje řeč cílového řečníka ze směsi užitím pomocného signálu cílového řečníka, se v poslední době těší zvýšenému zájmu. V minulosti byly zkoumány různé pomocné signály, jako předem nahrané promluvy, informace o směru nebo video cílového řečníka. V tomto článku zkoumáme použití informace o aktivitě řečníka jako pomocného signálu pro extrakci řeči založenou na jednokanálové neuronové síti. Navrhujeme neuronovou síť pro extrakci řeči řízenou aktivitou řečníka (ADEnet) a ukazujeme, že dosahuje úspěšnosti srovnatelné s přístupy založenými na předem nahrané promluvě. Dále demonstrujeme potenciál navrhnovaného přístupu po zpracování záznamů schůzek, kde se jako pomocný signál pro ADEnet používá aktivita řečníka získaná z diarizačního systému. Ukazujeme, že tento jednoduchý, ale praktický přístup může úspěšně extrahovat řečníky po diarizaci, což vede ke zlepšení výkonu ASR při použití jednoho mikrofonu, zejména v podmínkách vysokého překrývání, se snížením relativní chybovosti slov až o 25%

Rok
2021
Strany
6099-6103
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2021 IEEE International Conference on Acoustics, Speech and Signal Processing, Toronto, CA
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto, CA
DOI
UT WoS
000704288406074
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12479,
   author = "Marc Delcroix and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Tsubasa Ochiai and Keisuke Kinoshita and Tomohiro Nakatani",
   title = "Speaker activity driven neural speech extraction",
   pages = "6099--6103",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2021,
   location = "Toronto, CA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-7605-5",
   doi = "10.1109/ICASSP39728.2021.9414998",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12479"
}
Nahoru