Detail publikace

Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam

DELCROIX Marc, OCHIAI Tsubasa, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, TAWARA Naohiro, NAKATANI Tomohiro a ARAKI Shoko. Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020, s. 691-695. ISBN 978-1-5090-6631-5. Dostupné z: https://ieeexplore.ieee.org/document/9054683
Název česky
Zlepšení diskiriminability mluvčích v extrakci cílového mluvčího pomocí metody Speakerbeam v časové oblasti
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Tawara Naohiro (NTT)
Nakatani Tomohiro (NTT)
Araki Shoko (NTT)
URL
Abstrakt

Cílová extrakce řeči, která extrahuje jediný cílový zdroj ve směsi vzhledem k klíčovým informacím o cílovém mluvčím, přitahovala rostoucí pozornost. Nedávno jsme navrhli SpeakerBeam, který využívá adaptační promluvu cílového mluvčího k extrahování jeho hlasových charakteristik, které se pak používají k vedení neuronové sítě směrem k extrahování řeči tohoto mluvčího. SpeakerBeam představuje praktickou alternativu k separaci řeči, protože umožňuje sledovat řeč cílového mluvčího napříč promluvami a dosahuje slibného výkonu extrakce řeči. Někdy však selže, když mají mluvčí podobné hlasové vlastnosti, jako například ve směsích stejného pohlaví, protože je obtížné rozlišit cílového mluvčího od rušivých mluvčích. V tomto článku zkoumáme strategie pro zlepšení schopnosti SpeakerBeamu rozlišovat mezi mluvčími. Nejprve navrhujeme implementaci SpeakerBeamu v časové doméně, která je podobná implementaci navržené pro audio-separační síť v časové doméně (TasNet), která dosáhla nejmodernějšího výkonu pro separaci řeči. Kromě toho zkoumáme (1) použití prostorových prvků k lepší diskriminaci mluvčích, když jsou k dispozici nahrávky z mikrofonního pole, (2) přidáním ztráty identifikace pomocného mluvčího, která pomáhá naučit se více diskriminační hlasové vlastnosti. Experimentálně ukážeme, že tyto strategie výrazně zlepšují výkon extrakce řeči, zejména u směsí stejného pohlaví, a překonávají TasNet, pokud jde o extrakci cílového řeči.

Rok
2020
Strany
691-695
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Barcelona, ES
ISBN
978-1-5090-6631-5
Vydavatel
IEEE Signal Processing Society
Místo
Barcelona, ES
DOI
UT WoS
000615970400138
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12280,
   author = "Marc Delcroix and Tsubasa Ochiai and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Keisuke Kinoshita and Naohiro Tawara and Tomohiro Nakatani and Shoko Araki",
   title = "Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam",
   pages = "691--695",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2020,
   location = "Barcelona, ES",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5090-6631-5",
   doi = "10.1109/ICASSP40776.2020.9054683",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12280"
}
Nahoru