Detail publikace
Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings
Swart Albert du Preez
Mošner Ladislav, Ing. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
speaker recognition, PSDA, Von Mises-Fisher
Při rozpoznávání mluvčího, kdy jsou segmenty řeči mapovány na vložené hodnoty na
jednotkové hyperploše, se běžně používají dva skórovací podklady, a to kosinové
skórování nebo PLDA. Obě mají v závislosti na kontextu své výhody i nevýhody.
Kosinové skórování přirozeně vyplývá ze sférické geometrie, ale pro PLDA je
požehnáním smíšená normalizace délky, která gaussovsky upravuje rozdělení mezi
mluvčími, ale porušuje předpoklad rozdělení nezávislého na mluvčím uvnitř
mluvčího. Navrhujeme PSDA, analogii PLDA, která používá Von Misesovo-Fisherovo
rozdělení na hypersféře pro rozdělení uvnitř i mezi třídami. Ukazujeme, jak
samosouvislost tohoto rozdělení dává uzavřený tvar skóre pravděpodobnostního
poměru, což z něj činí drop-in náhradu za PLDA v době skórování. Lze skórovat
všechny druhy pokusů, včetně ověřování s jedním a více záznamy, a také složitější
poměry pravděpodobnosti, které lze použít při shlukování a diarizaci. Učení se
provádí pomocí EM-algoritmu s aktualizacemi v uzavřeném tvaru. Vysvětlíme model
a představíme několik prvních experimentů.
@inproceedings{BUT179687,
author="Johan Nikolaas Langenhoven {Brummer} and Albert du Preez {Swart} and Ladislav {Mošner} and Anna {Silnova} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget}",
title="Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2022",
journal="Proceedings of Interspeech",
volume="2022",
number="9",
pages="1446--1450",
publisher="International Speech Communication Association",
address="Incheon",
doi="10.21437/Interspeech.2022-731",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/brummer22_interspeech.pdf"
}