Detail publikace
Neural Target Speech Extraction: An overview
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Yu Dong (Tencent AI Lab)
Lidé mohou poslouchat cílového řečníka i v náročných akustických podmínkách, které mají hluk, dozvuk a rušivé reproduktory. Tento jev je známý jako efekt koktejlové párty. Po desetiletí se výzkumníci zaměřovali na přiblížení schopnosti naslouchat lidem. Jedním z kritických problémů je vypořádání se s rušícími řečníky, protože cílové a necílové řečové signály sdílejí podobné vlastnosti, což komplikuje jejich rozlišování. Cílová extrakce řeči/řečníka (TSE) izoluje řečový signál cílového mluvčího od směsi několika mluvčích, s nebo bez šumů a dozvuků, pomocí vodítek, které identifikují mluvčího ve směsi. Takovými vodítky mohou být prostorové vodítko udávající směr cílového mluvčího, video rtů mluvčího a předem nahraný registrační projev, ze kterého lze odvodit hlasové charakteristiky mluvčího. TSE je nově se rozvíjející oblast výzkumu, které se v posledních letech dostalo zvýšené pozornosti, protože nabízí praktický přístup k problému koktejlových večírků a zahrnuje takové aspekty zpracování signálu, jako je zpracování zvuku, obrazu a pole, stejně jako hluboké učení. Tento článek se zaměřuje na nedávné neurální přístupy a představuje hloubkový přehled TSE. Provádíme čtenáře různými hlavními přístupy, zdůrazňujeme podobnosti mezi rámci a diskutujeme o možných budoucích směrech.
@ARTICLE{FITPUB13059, author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Tsubasa Ochiai and Jan \v{C}ernock\'{y} and Keisuke Kinoshita and Dong Yu", title = "Neural Target Speech Extraction: An overview", pages = "8--29", journal = "IEEE Signal Processing Magazine", volume = 40, number = 3, year = 2023, ISSN = "1558-0792", doi = "10.1109/MSP.2023.3240008", language = "english", url = "https://www.fit.vut.cz/research/publication/13059" }