Detail publikace
Probabilistic embeddings for speaker diarization
Brummer Johan Nikolaas Langenhoven, Dr. (Phonexia)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Nedávno bylo ukázáno, že embeddingy řečníka (x-vektory) extrahované z velmi krátkých segmentů řeči poskytují konkurenční výkon v diarizaci řečníka. Zobecňujeme tento recept extrakcí z každého řečového segmentu, paralelně s x-vektorem, také diagonální přesnou matici, čímž poskytujeme cestu pro šíření informací o kvalitě řečového segmentu do backendu PLDA bodování. Tyto přesnosti kvantifikují nejistotu ohledně toho, jaké hodnoty by embeddings mohly být, kdyby byly extrahovány z vysoce kvalitních řečových segmentů. Navržené pravděpodobnostní vložení (x-vektory s přesnostmi) jsou propojeny s PLDA modelem zpracováním x-vektorů jako skrytých proměnných a jejich marginalizací. Navrhované pravděpodobnostní vložení použijeme jako vstup do algoritmu aglomerativní hierarchické klastrování (AHC) k provedení diarizace v hodnotící sadě DIHARD19. Vypočítáváme plnou pravděpodobnost PLDA podle knihy pro každou hypotézu shlukování, kterou zvažuje AHC. Provádíme společné diskriminační školení parametrů PLDA a pravděpodobnostního extraktoru x-vektorů. Prokazujeme zvýšení přesnosti vzhledem k základnímu algoritmu AHC, který se používá u tradičních xvektorů (bez nejistoty) a který používá spíše průměrování binárních log-pravděpodobnostních poměrů, než hodnocení podle knihy.
@INPROCEEDINGS{FITPUB12288, author = "Anna Silnova and Langenhoven Nikolaas Johan Brummer and A. Johan Rohdin and Themos Stafylakis and Luk\'{a}\v{s} Burget", title = "Probabilistic embeddings for speaker diarization", pages = "24--31", booktitle = "Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop", journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop", volume = 2020, number = 11, year = 2020, location = "Tokyo, JP", publisher = "International Speech Communication Association", ISSN = "2312-2846", doi = "10.21437/Odyssey.2020-4", language = "english", url = "https://www.fit.vut.cz/research/publication/12288" }