Detail publikace

Neural Target Speech Extraction: An overview

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, OCHIAI Tsubasa, ČERNOCKÝ Jan, KINOSHITA Keisuke a YU Dong. Neural Target Speech Extraction: An overview. IEEE Signal Processing Magazine, roč. 40, č. 3, 2023, s. 8-29. ISSN 1558-0792. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10113382
Název česky
Neurální extrakce řeči cílového mluvčího: Přehled
Typ
článek v časopise
Jazyk
angličtina
Autoři
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Yu Dong (Tencent AI Lab)
URL
Abstrakt

Lidé mohou poslouchat cílového řečníka i v náročných akustických podmínkách, které mají hluk, dozvuk a rušivé reproduktory. Tento jev je známý jako efekt koktejlové párty. Po desetiletí se výzkumníci zaměřovali na přiblížení schopnosti naslouchat lidem. Jedním z kritických problémů je vypořádání se s rušícími řečníky, protože cílové a necílové řečové signály sdílejí podobné vlastnosti, což komplikuje jejich rozlišování. Cílová extrakce řeči/řečníka (TSE) izoluje řečový signál cílového mluvčího od směsi několika mluvčích, s nebo bez šumů a dozvuků, pomocí vodítek, které identifikují mluvčího ve směsi. Takovými vodítky mohou být prostorové vodítko udávající směr cílového mluvčího, video rtů mluvčího a předem nahraný registrační projev, ze kterého lze odvodit hlasové charakteristiky mluvčího. TSE je nově se rozvíjející oblast výzkumu, které se v posledních letech dostalo zvýšené pozornosti, protože nabízí praktický přístup k problému koktejlových večírků a zahrnuje takové aspekty zpracování signálu, jako je zpracování zvuku, obrazu a pole, stejně jako hluboké učení. Tento článek se zaměřuje na nedávné neurální přístupy a představuje hloubkový přehled TSE. Provádíme čtenáře různými hlavními přístupy, zdůrazňujeme podobnosti mezi rámci a diskutujeme o možných budoucích směrech.

Rok
2023
Strany
8-29
Časopis
IEEE Signal Processing Magazine, roč. 40, č. 3, ISSN 1558-0792
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
000981974000003
EID Scopus
BibTeX
@ARTICLE{FITPUB13059,
   author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Tsubasa Ochiai and Jan \v{C}ernock\'{y} and Keisuke Kinoshita and Dong Yu",
   title = "Neural Target Speech Extraction: An overview",
   pages = "8--29",
   journal = "IEEE Signal Processing Magazine",
   volume = 40,
   number = 3,
   year = 2023,
   ISSN = "1558-0792",
   doi = "10.1109/MSP.2023.3240008",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13059"
}
Nahoru