Detail publikace

Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization

PÁLKA, P.; LANDINI, F.; KLEMENT, D.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; DELCROIX, M.; BURGET, L. Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization. Proceedings of Eusipco 2025. Palermo: IEEE Signal Processing Society, 2025. p. 1-5.

Název česky

Společné tréninování extraktoru embeddingů mluvčích, detekce řeči a detekce překrytí mluvčích pro diarizaci

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Pálka Petr, Bc. (UPGM)
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Klement Dominik, Ing. (UPGM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Delcroix Marc
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

Klíčová slova

diarizace mluvčích, vkládání mluvčích, detekce hlasové aktivity, detekce překrývající se řeči

Abstrakt

Navzdory současné popularitě systémů end-to-end diarizace
dosahují modulární systémy složené z detekce hlasové aktivity
(VAD), extrakce a shlukování vložení mluvčího a detekce překrývající se řeči
(OSD) a jejího zpracování stále
konkurenceschopného výkonu v mnoha podmínkách. Jednou z
hlavních nevýhod modulárních systémů je však nutnost spouštět
(a trénovat) různé moduly nezávisle na sobě. V této práci
navrhujeme přístup ke společnému trénování modelu, který produkuje
vložení mluvčího, VAD a OSD současně a dosahuje konkurenceschopného
výkonu za zlomek inferenčního času modulárního
přístupu. Společná inference navíc vede ke zjednodušení
celkového procesu, což nás přibližuje o krok blíže k jednotné
metodě založené na shlukování, kterou lze trénovat end-to-end směrem k
cíli specifickému pro diarizaci.

Rok

2025 (v tisku)

Strany

1–5

Sborník

Proceedings of Eusipco 2025

Konference

33. evropská konference o zpracování signálů (EUSIPCO 2025), Palermo, IT

Vydavatel

IEEE Signal Processing Society

Místo

Palermo

BibTeX

@inproceedings{BUT198669,
  author="Petr {Pálka} and Federico Nicolás {Landini} and Dominik {Klement} and Mireia {Diez Sánchez} and Anna {Silnova} and Marc {Delcroix} and Lukáš {Burget}",
  title="Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization",
  booktitle="Proceedings of Eusipco 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Palermo",
  url="https://www.fit.vut.cz/research/publication/13567/"
}