Detail publikace

Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization

PÁLKA, P.; LANDINI, F.; KLEMENT, D.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; DELCROIX, M.; BURGET, L. Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization. Proceedings of Eusipco 2025. Palermo: IEEE Signal Processing Society, 2025. p. 1-5.
Název česky
Společné tréninování extraktoru embeddingů mluvčích, detekce řeči a detekce překrytí mluvčích pro diarizaci
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova

diarizace mluvčích, vkládání mluvčích, detekce hlasové aktivity, detekce překrývající se řeči

Abstrakt

Navzdory současné popularitě systémů end-to-end diarizace
dosahují modulární systémy složené z detekce hlasové aktivity
(VAD), extrakce a shlukování vložení mluvčího a detekce překrývající se řeči
(OSD) a jejího zpracování stále
konkurenceschopného výkonu v mnoha podmínkách. Jednou z
hlavních nevýhod modulárních systémů je však nutnost spouštět
(a trénovat) různé moduly nezávisle na sobě. V této práci
navrhujeme přístup ke společnému trénování modelu, který produkuje
vložení mluvčího, VAD a OSD současně a dosahuje konkurenceschopného
výkonu za zlomek inferenčního času modulárního
přístupu. Společná inference navíc vede ke zjednodušení
celkového procesu, což nás přibližuje o krok blíže k jednotné
metodě založené na shlukování, kterou lze trénovat end-to-end směrem k
cíli specifickému pro diarizaci.

Rok
2025 (v tisku)
Strany
1–5
Sborník
Proceedings of Eusipco 2025
Konference
33. evropská konference o zpracování signálů (EUSIPCO 2025), Palermo, IT
Vydavatel
IEEE Signal Processing Society
Místo
Palermo
BibTeX
@inproceedings{BUT198669,
  author="Petr {Pálka} and Federico Nicolás {Landini} and Dominik {Klement} and Mireia {Diez Sánchez} and Anna {Silnova} and Marc {Delcroix} and Lukáš {Burget}",
  title="Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization",
  booktitle="Proceedings of Eusipco 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Palermo",
  url="https://www.fit.vut.cz/research/publication/13567/"
}
Nahoru