Detail publikace

Probabilistic embeddings for speaker diarization

SILNOVA Anna, BRUMMER Johan Nikolaas Langenhoven, ROHDIN Johan A., STAFYLAKIS Themos a BURGET Lukáš. Probabilistic embeddings for speaker diarization. In: Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Tokyo: International Speech Communication Association, 2020, s. 24-31. ISSN 2312-2846. Dostupné z: https://www.isca-speech.org/archive/Odyssey_2020/abstracts/75.html
Název česky
Pravděpodobnostní embeddingy pro diarizaci řečníků
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Brummer Johan Nikolaas Langenhoven, Dr. (Phonexia)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Nedávno bylo ukázáno, že embeddingy řečníka (x-vektory) extrahované z velmi krátkých segmentů řeči poskytují konkurenční výkon v diarizaci řečníka. Zobecňujeme tento recept extrakcí z každého řečového segmentu, paralelně s x-vektorem, také diagonální přesnou matici, čímž poskytujeme cestu pro šíření informací o kvalitě řečového segmentu do backendu PLDA bodování. Tyto přesnosti kvantifikují nejistotu ohledně toho, jaké hodnoty by embeddings mohly být, kdyby byly extrahovány z vysoce kvalitních řečových segmentů. Navržené pravděpodobnostní vložení (x-vektory s přesnostmi) jsou propojeny s PLDA modelem zpracováním x-vektorů jako skrytých proměnných a jejich marginalizací. Navrhované pravděpodobnostní vložení použijeme jako vstup do algoritmu aglomerativní hierarchické klastrování (AHC) k provedení diarizace v hodnotící sadě DIHARD19. Vypočítáváme plnou pravděpodobnost PLDA podle knihy pro každou hypotézu shlukování, kterou zvažuje AHC. Provádíme společné diskriminační školení parametrů PLDA a pravděpodobnostního extraktoru x-vektorů. Prokazujeme zvýšení přesnosti vzhledem k základnímu algoritmu AHC, který se používá u tradičních xvektorů (bez nejistoty) a který používá spíše průměrování binárních log-pravděpodobnostních poměrů, než hodnocení podle knihy.

Rok
2020
Strany
24-31
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop, roč. 2020, č. 11, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop
Konference
Odyssey 2020: The Speaker and Language Recognition Workshop, Tokyo, JP
Vydavatel
International Speech Communication Association
Místo
Tokyo, JP
DOI
BibTeX
@INPROCEEDINGS{FITPUB12288,
  author = "Anna Silnova and Langenhoven Nikolaas Johan Brummer and A. Johan Rohdin and Themos Stafylakis and Luk\'{a}\v{s} Burget",
  title = "Probabilistic embeddings for speaker diarization",
  pages = "24--31",
  booktitle = "Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop",
  journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop",
  volume = 2020,
  number = 11,
  year = 2020,
  location = "Tokyo, JP",
  publisher = "International Speech Communication Association",
  ISSN = "2312-2846",
  doi = "10.21437/Odyssey.2020-4",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12288"
}
Nahoru