Detail publikace

Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks

LANDINI Federico Nicolás, PROFANT Ján, DIEZ Sánchez Mireia a BURGET Lukáš. Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks. Computer Speech and Language, roč. 71, č. 101254, 2022, s. 1-16. ISSN 0885-2308. Dostupné z: https://www.sciencedirect.com/science/article/pii/S0885230821000619
Název česky
Shlukování sekvencí x-vektorů pomocí bayessovského skrytého Markovova modelu pro diarizaci řečníků: teorie, implementace a analýza na standardních úlohách
Typ
článek v časopise
Jazyk
angličtina
Autoři
Landini Federico Nicolás (UPGM FIT VUT)
Profant Ján (Phonexia)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Nedávno navržená metoda VBx diarizace používá Bayesovský skrytý Markovův model k nalezení shluků mluvčích v sekvenci x-vektorů. V této práci provádíme rozsáhlé srovnání výkonu VBx diarizace s jinými přístupy v literatuře a ukazujeme, že VBx dosahuje vynikajícího výkonu na třech nejpopulárnějších datových sadách pro vyhodnocení diarizace: CALLHOME, AMI a DIHARD II datových sadách. Dále poprvé představujeme odvození a aktualizaci vzorců pro model VBx se zaměřením na efektivitu a jednoduchost tohoto modelu ve srovnání s předchozím a složitějším modelem BHMM pracujícím na standardních funkcích Cepstral snímek po snímku. Společně s touto publikací zveřejňujeme recept na trénování extraktorů x-vektorů používaných v našich experimentech na širokopásmových i úzkopásmových datech a receptury VBx, které dosahují nejmodernějšího výkonu na všech třech souborech dat. Kromě toho poukazujeme na nedostatek standardizovaného vyhodnocovacího protokolu pro datovou sadu AMI a navrhujeme nový protokol pro zvuk Beamformed i Mix-Headset založený na oficiálních oddílech a přepisech AMI.

Rok
2022
Strany
1-16
Časopis
Computer Speech and Language, roč. 71, č. 101254, ISSN 0885-2308
Vydavatel
Elsevier Science
DOI
UT WoS
000761599000019
EID Scopus
BibTeX
@ARTICLE{FITPUB12619,
   author = "Nicol\'{a}s Federico Landini and J\'{a}n Profant and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget",
   title = "Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks",
   pages = "1--16",
   journal = "Computer Speech and Language",
   volume = 71,
   number = 101254,
   year = 2022,
   ISSN = "0885-2308",
   doi = "10.1016/j.csl.2021.101254",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12619"
}
Nahoru