Detail publikace

Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings

BRUMMER Johan Nikolaas Langenhoven, SWART Albert du Preez, MOŠNER Ladislav, SILNOVA Anna, PLCHOT Oldřich, STAFYLAKIS Themos a BURGET Lukáš. Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 1446-1450. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/brummer22_interspeech.pdf
Název česky
Pravděpodobnostní sférická diskriminační analýza: Alternativa k PLDA pro embeddingy s normalizovanou délkou
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Brummer Johan Nikolaas Langenhoven, Dr. (Phonexia)
Swart Albert du Preez (Speechly)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Při rozpoznávání mluvčího, kdy jsou segmenty řeči mapovány na vložené hodnoty na jednotkové hyperploše, se běžně používají dva skórovací podklady, a to kosinové skórování nebo PLDA. Obě mají v závislosti na kontextu své výhody i nevýhody. Kosinové skórování přirozeně vyplývá ze sférické geometrie, ale pro PLDA je požehnáním smíšená normalizace délky, která gaussovsky upravuje rozdělení mezi mluvčími, ale porušuje předpoklad rozdělení nezávislého na mluvčím uvnitř mluvčího. Navrhujeme PSDA, analogii PLDA, která používá Von Misesovo-Fisherovo rozdělení na hypersféře pro rozdělení uvnitř i mezi třídami. Ukazujeme, jak samosouvislost tohoto rozdělení dává uzavřený tvar skóre pravděpodobnostního poměru, což z něj činí drop-in náhradu za PLDA v době skórování. Lze skórovat všechny druhy pokusů, včetně ověřování s jedním a více záznamy, a také složitější poměry pravděpodobnosti, které lze použít při shlukování a diarizaci. Učení se provádí pomocí EM-algoritmu s aktualizacemi v uzavřeném tvaru. Vysvětlíme model a představíme několik prvních experimentů.

Rok
2022
Strany
1446-1450
Časopis
Proceedings of Interspeech - on-line, roč. 2022, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724501126
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12845,
   author = "Langenhoven Nikolaas Johan Brummer and Preez du Albert Swart and Ladislav Mo\v{s}ner and Anna Silnova and Old\v{r}ich Plchot and Themos Stafylakis and Luk\'{a}\v{s} Burget",
   title = "Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings",
   pages = "1446--1450",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2022,
   number = 9,
   year = 2022,
   location = "Incheon, KR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2022-731",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12845"
}
Nahoru