Detail publikace

Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors

DIEZ Sánchez Mireia, BURGET Lukáš, LANDINI Federico Nicolás a ČERNOCKÝ Jan. Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 28, č. 1, 2020, s. 355-368. ISSN 2329-9290. Dostupné z: https://ieeexplore.ieee.org/document/8910412
Název česky
Analýza diarizace řečníků založená na bayesovských skrytých Markovových modelech s eigenvoice apriorními rozděleními pravděpodobnosti
Typ
článek v časopise
Jazyk
angličtina
Autoři
URL
Abstrakt

Článek analyzuje diarizaci řečníků založenou na bayesovských skrytých Markovových modelech s eigenvoice apriorními rozděleními pravděpodobnosti, nadefinovaný v našich předchozích pracech, který byl nedávno uznán jako nejmodernější model pro diarizaci řečníků. V tomto článku představujeme úplnější analýzu systému Diarization. Inference modelu je plně popsána a pro úplné pochopení algoritmu jsou poskytnuty derivace všech aktualizačních vzorců. Je poskytnuta rozsáhlá analýza vlivu, citlivosti a interakcí všech parametrů modelu, která může být použita jako vodítko pro jejich optimální nastavení. Nově zavedený koeficient regularizace mluvčích nám umožňuje řídit počet mluvčích odvozených v promluvě. Prezentována je také naivní strategie sloučení modelu řečníka, která umožňuje vyhnat variační inference z lokálních optim. Experimenty pro různé scénáře diarizace jsou uvedeny na souborech dat CALLHOME a DIHARD.

Rok
2020
Strany
355-368
Časopis
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 28, č. 1, ISSN 2329-9290
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
000560612800028
EID Scopus
BibTeX
@ARTICLE{FITPUB12139,
   author = "Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget and Nicol\'{a}s Federico Landini and Jan \v{C}ernock\'{y}",
   title = "Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors",
   pages = "355--368",
   journal = "IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
   volume = 28,
   number = 1,
   year = 2020,
   ISSN = "2329-9290",
   doi = "10.1109/TASLP.2019.2955293",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12139"
}
Nahoru