Detail publikace

Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors

DIEZ SÁNCHEZ, M.; BURGET, L.; LANDINI, F.; ČERNOCKÝ, J. Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, 2020, vol. 28, no. 1, p. 355-368. ISSN: 2329-9290.

Název česky

Analýza diarizace řečníků založená na bayesovských skrytých Markovových modelech s eigenvoice apriorními rozděleními pravděpodobnosti

Typ

článek v časopise

Jazyk

anglicky

Autoři

Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Hidden Markov Models, Bayes methods, Task analysis, Probabilistic logic, Training, Speech processing, Complexity theory

Abstrakt

Článek analyzuje diarizaci řečníků založenou na bayesovských skrytých Markovových modelech s eigenvoice apriorními rozděleními pravděpodobnosti, nadefinovaný v našich předchozích pracech, který byl nedávno uznán jako nejmodernější model pro diarizaci řečníků. V tomto článku představujeme úplnější analýzu systému Diarization. Inference modelu je plně popsána a pro úplné pochopení algoritmu jsou poskytnuty derivace všech aktualizačních vzorců. Je poskytnuta rozsáhlá analýza vlivu, citlivosti a interakcí všech parametrů modelu, která může být použita jako vodítko pro jejich optimální nastavení. Nově zavedený koeficient regularizace mluvčích nám umožňuje řídit počet mluvčích odvozených v promluvě. Prezentována je také naivní strategie sloučení modelu řečníka, která umožňuje vyhnat variační inference z lokálních optim. Experimenty pro různé scénáře diarizace jsou uvedeny na souborech dat CALLHOME a DIHARD.

Rok

2020

Strany

355–368

Časopis

IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 28, č. 1, ISSN 2329-9290

DOI

10.1109/TASLP.2019.2955293

UT WoS

000560612800028

EID Scopus

2-s2.0-85075649332

BibTeX

@article{BUT161472,
  author="Mireia {Diez Sánchez} and Lukáš {Burget} and Federico Nicolás {Landini} and Jan {Černocký}",
  title="Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors",
  journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
  year="2020",
  volume="28",
  number="1",
  pages="355--368",
  doi="10.1109/TASLP.2019.2955293",
  issn="2329-9290",
  url="https://ieeexplore.ieee.org/document/8910412"
}

Soubory

pdf MDiez_IEEE_TASLP_2020.pdf 375 kB