Detail publikace

Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks

LANDINI, F.; PROFANT, J.; DIEZ SÁNCHEZ, M.; BURGET, L. Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks. COMPUTER SPEECH AND LANGUAGE, 2022, vol. 71, no. 101254, p. 1-16. ISSN: 0885-2308.

Název česky

Shlukování sekvencí x-vektorů pomocí bayessovského skrytého Markovova modelu pro diarizaci řečníků: teorie, implementace a analýza na standardních úlohách

Typ

článek v časopise

Jazyk

anglicky

Autoři

Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Profant Ján, Ing.
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

Speaker diarization, Variational Bayes, HMM, x-vector, AMI

Abstrakt

Nedávno navržená metoda VBx diarizace používá Bayesovský skrytý Markovův model k nalezení shluků mluvčích v sekvenci x-vektorů. V této práci provádíme rozsáhlé srovnání výkonu VBx diarizace s jinými přístupy v literatuře a ukazujeme, že VBx dosahuje vynikajícího výkonu na třech nejpopulárnějších datových sadách pro vyhodnocení diarizace: CALLHOME, AMI a DIHARD II datových sadách. Dále poprvé představujeme odvození a aktualizaci vzorců pro model VBx se zaměřením na efektivitu a jednoduchost tohoto modelu ve srovnání s předchozím a složitějším modelem BHMM pracujícím na standardních funkcích Cepstral snímek po snímku. Společně s touto publikací zveřejňujeme recept na trénování extraktorů x-vektorů používaných v našich experimentech na širokopásmových i úzkopásmových datech a receptury VBx, které dosahují nejmodernějšího výkonu na všech třech souborech dat. Kromě toho poukazujeme na nedostatek standardizovaného vyhodnocovacího protokolu pro datovou sadu AMI a navrhujeme nový protokol pro zvuk Beamformed i Mix-Headset založený na oficiálních oddílech a přepisech AMI.

Rok

2022

Strany

1–16

Časopis

COMPUTER SPEECH AND LANGUAGE, roč. 71, č. 101254, ISSN 0885-2308

DOI

10.1016/j.csl.2021.101254

UT WoS

000761599000019

EID Scopus

2-s2.0-85109214006

BibTeX

@article{BUT175852,
  author="Federico Nicolás {Landini} and Ján {Profant} and Mireia {Diez Sánchez} and Lukáš {Burget}",
  title="Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2022",
  volume="71",
  number="101254",
  pages="1--16",
  doi="10.1016/j.csl.2021.101254",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230821000619"
}

Soubory

pdf landini_csl_2021.pdf 634 kB