Detail publikace

Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, BURGET Lukáš, NAKATANI Tomohiro a ČERNOCKÝ Jan. Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation. In: 2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings. Shenzhen - virtual : IEEE Signal Processing Society, 2021, s. 889-896. ISBN 978-1-7281-7066-4. Dostupné z: https://ieeexplore.ieee.org/document/9383612
Název česky
Integrace variačního autoenkodéru a prostorového shlukování pro adaptivní multikanálovou neurální separaci řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Nakatani Tomohiro (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Klíčová slova

Vícekanálová separace řeči, variační automatický kodér, prostorové shlukování, DOLPHIN

Abstrakt

V tomto příspěvku navrhujeme metodu kombinující variační autoenkodérový model řeči s přístupem prostorového klastrování pro vícekanálové oddělení řeči. Výhoda integrace prostorového shlukování se spektrálním modelem byla ukázána v několika pracích. Jako spektrální model předchozí práce používaly buď faktoriální generativní modely smíšené řeči, nebo diskriminační neuronové sítě. V naší práci kombinujeme silné stránky obou přístupů, budováním faktoriálního modelu založeného na generativní neuronové síti, variačním autoenkodéru. Tím můžeme využít modelovací sílu neuronových sítí, ale zároveň zachovat strukturovaný model. Takový model může být výhodný při přizpůsobování se novým hlukovým podmínkám, protože je třeba upravit pouze hlukovou část modelu. Experimentálně ukazujeme, že náš model výrazně překonává předchozí faktoriální model založený na Gaussově smíšeném modelu (DOLPHIN), funguje srovnatelně s integrací tréninku invariantního permutací s prostorovým shlukováním a umožňuje nám snadno se přizpůsobit novým hlukovým podmínkám.

Rok
2021
Strany
889-896
Sborník
2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings
Konference
2021 IEEE Spoken Language Technology Workshop (SLT), Shenzhen - virtual conference, CN
ISBN
978-1-7281-7066-4
Vydavatel
IEEE Signal Processing Society
Místo
Shenzhen - virtual , CN
DOI
UT WoS
000663633300121
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12553,
   author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Luk\'{a}\v{s} Burget and Tomohiro Nakatani and Jan \v{C}ernock\'{y}",
   title = "Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation",
   pages = "889--896",
   booktitle = "2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings",
   year = 2021,
   location = "Shenzhen - virtual , CN",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-7066-4",
   doi = "10.1109/SLT48900.2021.9383612",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12553"
}
Nahoru