Detail publikace
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks
Profant Ján (Phonexia)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Nedávno navržená metoda VBx diarizace používá Bayesovský skrytý Markovův model k nalezení shluků mluvčích v sekvenci x-vektorů. V této práci provádíme rozsáhlé srovnání výkonu VBx diarizace s jinými přístupy v literatuře a ukazujeme, že VBx dosahuje vynikajícího výkonu na třech nejpopulárnějších datových sadách pro vyhodnocení diarizace: CALLHOME, AMI a DIHARD II datových sadách. Dále poprvé představujeme odvození a aktualizaci vzorců pro model VBx se zaměřením na efektivitu a jednoduchost tohoto modelu ve srovnání s předchozím a složitějším modelem BHMM pracujícím na standardních funkcích Cepstral snímek po snímku. Společně s touto publikací zveřejňujeme recept na trénování extraktorů x-vektorů používaných v našich experimentech na širokopásmových i úzkopásmových datech a receptury VBx, které dosahují nejmodernějšího výkonu na všech třech souborech dat. Kromě toho poukazujeme na nedostatek standardizovaného vyhodnocovacího protokolu pro datovou sadu AMI a navrhujeme nový protokol pro zvuk Beamformed i Mix-Headset založený na oficiálních oddílech a přepisech AMI.
@ARTICLE{FITPUB12619, author = "Nicol\'{a}s Federico Landini and J\'{a}n Profant and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget", title = "Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks", pages = "1--16", journal = "Computer Speech and Language", volume = 71, number = 101254, year = 2022, ISSN = "0885-2308", doi = "10.1016/j.csl.2021.101254", language = "english", url = "https://www.fit.vut.cz/research/publication/12619" }