Detail publikace

Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation

ŽMOLÍKOVÁ, K.; DELCROIX, M.; BURGET, L.; NAKATANI, T.; ČERNOCKÝ, J. Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation. In 2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings. Shenzhen - virtual: IEEE Signal Processing Society, 2021. p. 889-896. ISBN: 978-1-7281-7066-4.

Název česky

Integrace variačního autoenkodéru a prostorového shlukování pro adaptivní multikanálovou neurální separaci řeči

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Žmolíková Kateřina, Ing., Ph.D. (FIT)
Delcroix Marc
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Nakatani Tomohiro
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Vícekanálová separace řeči, variační automatický kodér, prostorové shlukování, DOLPHIN

Abstrakt

V tomto příspěvku navrhujeme metodu kombinující variační autoenkodérový model řeči s přístupem prostorového klastrování pro vícekanálové oddělení řeči. Výhoda integrace prostorového shlukování se spektrálním modelem byla ukázána v několika pracích. Jako spektrální model předchozí práce používaly buď faktoriální generativní modely smíšené řeči, nebo diskriminační neuronové sítě. V naší práci kombinujeme silné stránky obou přístupů, budováním faktoriálního modelu založeného na generativní neuronové síti, variačním autoenkodéru. Tím můžeme využít modelovací sílu neuronových sítí, ale zároveň zachovat strukturovaný model. Takový model může být výhodný při přizpůsobování se novým hlukovým podmínkám, protože je třeba upravit pouze hlukovou část modelu. Experimentálně ukazujeme, že náš model výrazně překonává předchozí faktoriální model založený na Gaussově smíšeném modelu (DOLPHIN), funguje srovnatelně s integrací tréninku invariantního permutací s prostorovým shlukováním a umožňuje nám snadno se přizpůsobit novým hlukovým podmínkám.

Rok

2021

Strany

889–896

Sborník

2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings

Konference

2021 IEEE Konference o technologii mluveného jazyka (SLT), Shenzhen - virtual conference, CN

ISBN

978-1-7281-7066-4

Vydavatel

IEEE Signal Processing Society

Místo

Shenzhen - virtual

DOI

10.1109/SLT48900.2021.9383612

UT WoS

000663633300121

EID Scopus

2-s2.0-85103946906

BibTeX

@inproceedings{BUT175809,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Lukáš {Burget} and Tomohiro {Nakatani} and Jan {Černocký}",
  title="Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation",
  booktitle="2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings",
  year="2021",
  pages="889--896",
  publisher="IEEE Signal Processing Society",
  address="Shenzhen - virtual",
  doi="10.1109/SLT48900.2021.9383612",
  isbn="978-1-7281-7066-4",
  url="https://ieeexplore.ieee.org/document/9383612"
}

Soubory

pdf zmolikova_slt2021.pdf 547 kB