Detail publikace

Bayesian HMM based x-vector clustering for Speaker Diarization

DIEZ Sánchez Mireia, BURGET Lukáš, WANG Shuai, ROHDIN Johan A. a ČERNOCKÝ Jan. Bayesian HMM based x-vector clustering for Speaker Diarization. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 346-350. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/Interspeech_2019/pdfs/2813.pdf
Název česky
Bayesovské shlukování x-vektorů založené na HMM pro diarizaci
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Wang Shuai (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Tento článek představuje zjednodušenou verzi dříve navrženého diarizačního algoritmu založeného na Bayesianových skrytých Markovových modelech, který využívá variační Bayesiánský závěr pro velmi rychlé a robustní shlukování x-vektoru (embeddingy mluvčích založené na neuronové síti). Prezentované výsledky ukazují, že tento shlukovací algoritmus poskytuje významné zlepšení v diarizačním výkonu ve srovnání s dříve používaným aglomerativním hierarchickým shlukováním. Výstup tohoto systému lze dále použít jako inicializaci pro druhý stupeň VB diarizačního systému pomocí rámcových funkcí MFCC jako vstupu, aby se získaly optimální výsledky.Rok
2019
Strany
346-350
Časopis
Proceedings of Interspeech - on-line, roč. 2019, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech
Konference
Interspeech Conference, Graz, AT
Vydavatel
International Speech Communication Association
Místo
Graz, AT
DOI
UT WoS
000831796400070
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12085,
  author = "Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget and Shuai Wang and A. Johan Rohdin and Jan \v{C}ernock\'{y}",
  title = "Bayesian HMM based x-vector clustering for Speaker Diarization",
  pages = "346--350",
  booktitle = "Proceedings of Interspeech",
  journal = "Proceedings of Interspeech - on-line",
  volume = 2019,
  number = 9,
  year = 2019,
  location = "Graz, AT",
  publisher = "International Speech Communication Association",
  ISSN = "1990-9772",
  doi = "10.21437/Interspeech.2019-2813",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12085"
}
Nahoru