Detail publikace
Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Klement Dominik, Ing. (UPGM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Delcroix Marc
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
diarizace mluvčích, vkládání mluvčích, detekce hlasové aktivity, detekce překrývající se řeči
Navzdory současné popularitě systémů end-to-end diarizace
dosahují modulární systémy složené z detekce hlasové aktivity
(VAD), extrakce a shlukování vložení mluvčího a detekce překrývající se řeči
(OSD) a jejího zpracování stále
konkurenceschopného výkonu v mnoha podmínkách. Jednou z
hlavních nevýhod modulárních systémů je však nutnost spouštět
(a trénovat) různé moduly nezávisle na sobě. V této práci
navrhujeme přístup ke společnému trénování modelu, který produkuje
vložení mluvčího, VAD a OSD současně a dosahuje konkurenceschopného
výkonu za zlomek inferenčního času modulárního
přístupu. Společná inference navíc vede ke zjednodušení
celkového procesu, což nás přibližuje o krok blíže k jednotné
metodě založené na shlukování, kterou lze trénovat end-to-end směrem k
cíli specifickému pro diarizaci.
@inproceedings{BUT198669,
author="Petr {Pálka} and Federico Nicolás {Landini} and Dominik {Klement} and Mireia {Diez Sánchez} and Anna {Silnova} and Marc {Delcroix} and Lukáš {Burget}",
title="Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization",
booktitle="Proceedings of Eusipco 2025",
year="2025",
pages="1--5",
publisher="IEEE Signal Processing Society",
address="Palermo",
url="https://www.fit.vut.cz/research/publication/13567/"
}