Detail publikace
Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization
Tawara Naohiro (NTT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
Kombinace end-to-end neurální diarizace reproduktoru (EEND) s vektorové shlukování (VC), známé jako EEND-VC, si získalo zájem pro využití silných stránek obou metod. EEND-VC odhaduje aktivity a vložení reproduktorů pro všechny reproduktory v rámci audio bloku a používá VC k přidružení těchto aktivit s identitami mluvčích napříč různými bloky. EEND-VC generuje tak několik proudů vložení, jeden pro každý reproduktor v kuse. Tato vložení můžeme seskupovat pomocí constrained aglomerativní hierarchické shlukování (cAHC), zajišťující vložení ze stejného bloku patří do různých shluků. Tento článek představuje alternativní přístup ke shlukování, a multi-streamové rozšíření úspěšného Bayesian HMM clusteringu x-vektorů (VBx), nazývaných MS-VBx. Experimenty na tři datové sady ukazují, že MS-VBx překonává cAHC v výkon diaizace a počítání řečníků
@INPROCEEDINGS{FITPUB13110, author = "Marc Delcroix and Naohiro Tawara and Mireia S\'{a}nchez Diez and Nicol\'{a}s Federico Landini and Anna Silnova and Atsunori Ogawa and Tomohiro Nakatani and Luk\'{a}\v{s} Burget and Shoko Araki", title = "Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization", pages = "3477--3481", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2023, number = 08, year = 2023, location = "Dublin, IE", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2023-628", language = "english", url = "https://www.fit.vut.cz/research/publication/13110" }