Bayesian HMM based x-vector clustering

Typ

software

Jazyk

angličtina

Autoři

Diez Sánchez Mireia, M.Sc., Ph.D., UPGM (FIT)
Landini Federico Nicolás, Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)

Popis

Diarization is the task of determining the number of speakers and "who speaks when" in a recording. It is part of speech data mining. The proposed software contains a full implementation of a Bayesian approach to do speaker diarization using low-dimensional neural representation of speakers (x-vectors) in individual segments. It follows the Brno University of Technology recipe for the Second DIHARD Diarization Challenge Track 1, where BUT was the winner.It consists of computing filter-bank features, computing x-vectors, performing Agglomerative Hierarchical Clustering on x-vectors as a first step to produce an initialization, applying Variational Bayes HMM over x-vectors to produce the diarization output, and scoring the diarization output. The software is written in Python and released as open-source under Apache License.

Klíčová slova

Speaker Diarization, Variational Bayes, HMM, x-vector, DIHARD

URL

https://github.com/BUTSpeechFIT/VBx

Licence

Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)

Licenční poplatek

Poskytovatel licence na výsledek nepožaduje licenční poplatek

Soubory

Projekty

IT4Innovations excellence in science, MŠMT, Národní program udržitelnosti II, LQ1602, zahájení: 2016-01-01, ukončení: 2020-12-31, ukončen
Moderní metody zpracování, analýzy a zobrazování multimediálních a 3D dat, VUT, Vnitřní projekty VUT, FIT-S-20-6460, zahájení: 2020-03-01, ukončení: 2023-02-28, ukončen
Neuronové reprezentace v multimodálním a mnohojazyčném modelování, GAČR, Grantové projekty exelence v základním výzkumu EXPRO - 2019, GX19-26934X, zahájení: 2019-01-01, ukončení: 2023-12-31, ukončen
Robustní diarizace mluvčích pomocí Bayesovské inference a hlubokého učení, EU, Horizon 2020, zahájení: 2017-03-01, ukončení: 2019-02-28, ukončen

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií (UPGM)

Studijní oddělení

Bayesian HMM based x-vector clustering - VBx