Detail publikace
Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam
Ochiai Tsubasa (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Tawara Naohiro (NTT)
Nakatani Tomohiro (NTT)
Araki Shoko (NTT)
Cílová extrakce řeči, která extrahuje jediný cílový zdroj ve směsi vzhledem k klíčovým informacím o cílovém mluvčím, přitahovala rostoucí pozornost. Nedávno jsme navrhli SpeakerBeam, který využívá adaptační promluvu cílového mluvčího k extrahování jeho hlasových charakteristik, které se pak používají k vedení neuronové sítě směrem k extrahování řeči tohoto mluvčího. SpeakerBeam představuje praktickou alternativu k separaci řeči, protože umožňuje sledovat řeč cílového mluvčího napříč promluvami a dosahuje slibného výkonu extrakce řeči. Někdy však selže, když mají mluvčí podobné hlasové vlastnosti, jako například ve směsích stejného pohlaví, protože je obtížné rozlišit cílového mluvčího od rušivých mluvčích. V tomto článku zkoumáme strategie pro zlepšení schopnosti SpeakerBeamu rozlišovat mezi mluvčími. Nejprve navrhujeme implementaci SpeakerBeamu v časové doméně, která je podobná implementaci navržené pro audio-separační síť v časové doméně (TasNet), která dosáhla nejmodernějšího výkonu pro separaci řeči. Kromě toho zkoumáme (1) použití prostorových prvků k lepší diskriminaci mluvčích, když jsou k dispozici nahrávky z mikrofonního pole, (2) přidáním ztráty identifikace pomocného mluvčího, která pomáhá naučit se více diskriminační hlasové vlastnosti. Experimentálně ukážeme, že tyto strategie výrazně zlepšují výkon extrakce řeči, zejména u směsí stejného pohlaví, a překonávají TasNet, pokud jde o extrakci cílového řeči.
@INPROCEEDINGS{FITPUB12280, author = "Marc Delcroix and Tsubasa Ochiai and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Keisuke Kinoshita and Naohiro Tawara and Tomohiro Nakatani and Shoko Araki", title = "Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam", pages = "691--695", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2020, location = "Barcelona, ES", publisher = "IEEE Signal Processing Society", ISBN = "978-1-5090-6631-5", doi = "10.1109/ICASSP40776.2020.9054683", language = "english", url = "https://www.fit.vut.cz/research/publication/12280" }