Detail publikace

Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam

DELCROIX, M.; OCHIAI, T.; ŽMOLÍKOVÁ, K.; KINOSHITA, K.; TAWARA, N.; NAKATANI, T.; ARAKI, S. Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020. p. 691-695. ISBN: 978-1-5090-6631-5.

Název česky

Zlepšení diskiriminability mluvčích v extrakci cílového mluvčího pomocí metody Speakerbeam v časové oblasti

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Delcroix Marc
OCHIAI, T.
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Kinoshita Keisuke
TAWARA, N.
Nakatani Tomohiro
ARAKI, S.

URL

Klíčová slova

Target speech extraction, time-domain network,spatial features, multi-task loss

Abstrakt

Cílová extrakce řeči, která extrahuje jediný cílový zdroj ve směsi vzhledem k klíčovým informacím o cílovém mluvčím, přitahovala rostoucí pozornost. Nedávno jsme navrhli SpeakerBeam, který využívá adaptační promluvu cílového mluvčího k extrahování jeho hlasových charakteristik, které se pak používají k vedení neuronové sítě směrem k extrahování řeči tohoto mluvčího. SpeakerBeam představuje praktickou alternativu k separaci řeči, protože umožňuje sledovat řeč cílového mluvčího napříč promluvami a dosahuje slibného výkonu extrakce řeči. Někdy však selže, když mají mluvčí podobné hlasové vlastnosti, jako například ve směsích stejného pohlaví, protože je obtížné rozlišit cílového mluvčího od rušivých mluvčích. V tomto článku zkoumáme strategie pro zlepšení schopnosti SpeakerBeamu rozlišovat mezi mluvčími. Nejprve navrhujeme implementaci SpeakerBeamu v časové doméně, která je podobná implementaci navržené pro audio-separační síť v časové doméně (TasNet), která dosáhla nejmodernějšího výkonu pro separaci řeči. Kromě toho zkoumáme (1) použití prostorových prvků k lepší diskriminaci mluvčích, když jsou k dispozici nahrávky z mikrofonního pole, (2) přidáním ztráty identifikace pomocného mluvčího, která pomáhá naučit se více diskriminační hlasové vlastnosti. Experimentálně ukážeme, že tyto strategie výrazně zlepšují výkon extrakce řeči, zejména u směsí stejného pohlaví, a překonávají TasNet, pokud jde o extrakci cílového řeči.

Rok

2020

Strany

691–695

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

2020 IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP), Barcelona, ES

ISBN

978-1-5090-6631-5

Vydavatel

IEEE Signal Processing Society

Místo

Barcelona

DOI

10.1109/ICASSP40776.2020.9054683

UT WoS

000615970400138

EID Scopus

2-s2.0-85091154438

BibTeX

@inproceedings{BUT163961,
  author="DELCROIX, M. and OCHIAI, T. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and TAWARA, N. and NAKATANI, T. and ARAKI, S.",
  title="Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2020",
  pages="691--695",
  publisher="IEEE Signal Processing Society",
  address="Barcelona",
  doi="10.1109/ICASSP40776.2020.9054683",
  isbn="978-1-5090-6631-5",
  url="https://ieeexplore.ieee.org/document/9054683"
}

Soubory

pdf delcroix_icassp2020_09054683.pdf 688 kB