Detail publikace
Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization
TAWARA, N.
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Ogawa Atsunori
Nakatani Tomohiro
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
ARAKI, S.
speaker diarization, end-to-end, VBx, clustering
Kombinace end-to-end neurální diarizace reproduktoru (EEND) s
vektorové shlukování (VC), známé jako EEND-VC, si získalo zájem
pro využití silných stránek obou metod. EEND-VC
odhaduje aktivity a vložení reproduktorů pro všechny reproduktory
v rámci audio bloku a používá VC k přidružení těchto aktivit
s identitami mluvčích napříč různými bloky. EEND-VC
generuje tak několik proudů vložení, jeden pro každý
reproduktor v kuse. Tato vložení můžeme seskupovat pomocí constrained
aglomerativní hierarchické shlukování (cAHC), zajišťující
vložení ze stejného bloku patří do různých shluků.
Tento článek představuje alternativní přístup ke shlukování, a
multi-streamové rozšíření úspěšného Bayesian HMM clusteringu
x-vektorů (VBx), nazývaných MS-VBx. Experimenty na
tři datové sady ukazují, že MS-VBx překonává cAHC v
výkon diaizace a počítání řečníků
@inproceedings{BUT185573,
author="DELCROIX, M. and TAWARA, N. and DIEZ SÁNCHEZ, M. and LANDINI, F. and SILNOVA, A. and OGAWA, A. and NAKATANI, T. and BURGET, L. and ARAKI, S.",
title="Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2023",
journal="Proceedings of Interspeech",
volume="2023",
number="08",
pages="3477--3481",
publisher="International Speech Communication Association",
address="Dublin",
doi="10.21437/Interspeech.2023-628",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/delcroix23_interspeech.pdf"
}