Detail publikace

Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization

DELCROIX Marc, TAWARA Naohiro, DIEZ Sánchez Mireia, LANDINI Federico Nicolás, SILNOVA Anna, OGAWA Atsunori, NAKATANI Tomohiro, BURGET Lukáš a ARAKI Shoko. Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 3477-3481. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2023/delcroix23_interspeech.pdf
Název česky
Víceproudové rozšíření variačního bayesovského HMM shlukování (MS-VBx) pro diarizaci kombinující end-to-end a shlukování vektorů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Delcroix Marc (NTT)
Tawara Naohiro (NTT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
URL
Abstrakt

Kombinace end-to-end neurální diarizace reproduktoru (EEND) s vektorové shlukování (VC), známé jako EEND-VC, si získalo zájem pro využití silných stránek obou metod. EEND-VC odhaduje aktivity a vložení reproduktorů pro všechny reproduktory v rámci audio bloku a používá VC k přidružení těchto aktivit s identitami mluvčích napříč různými bloky. EEND-VC generuje tak několik proudů vložení, jeden pro každý reproduktor v kuse. Tato vložení můžeme seskupovat pomocí constrained aglomerativní hierarchické shlukování (cAHC), zajišťující vložení ze stejného bloku patří do různých shluků. Tento článek představuje alternativní přístup ke shlukování, a multi-streamové rozšíření úspěšného Bayesian HMM clusteringu x-vektorů (VBx), nazývaných MS-VBx. Experimenty na tři datové sady ukazují, že MS-VBx překonává cAHC v výkon diaizace a počítání řečníků

Rok
2023
Strany
3477-3481
Časopis
Proceedings of Interspeech - on-line, roč. 2023, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Dublin, IE
Vydavatel
International Speech Communication Association
Místo
Dublin, IE
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13110,
   author = "Marc Delcroix and Naohiro Tawara and Mireia S\'{a}nchez Diez and Nicol\'{a}s Federico Landini and Anna Silnova and Atsunori Ogawa and Tomohiro Nakatani and Luk\'{a}\v{s} Burget and Shoko Araki",
   title = "Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization",
   pages = "3477--3481",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2023,
   number = 08,
   year = 2023,
   location = "Dublin, IE",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2023-628",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13110"
}
Nahoru