Detail publikace

Leveraging Self-Supervised Learning for Speaker Diarization

HAN, J.; LANDINI, F.; ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; BURGET, L. Leveraging Self-Supervised Learning for Speaker Diarization. Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Název česky
Využití samoučení pro neurální diarizaci mluvčích
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Diarizace mluvčích, nedostatek dat, WavLM, Pyannote, data ze setkání ve vzdáleném
poli

Abstrakt

Komplexní neuronová diarizace se v posledních několika letech značně vyvinula,
ale nedostatek dat je stále hlavní překážkou pro další zlepšení. Metody
samostudia, jako je WavLM, prokázaly slibný výkon u několika následných úloh, ale
jejich aplikace na diarizaci mluvčího je poněkud omezená. V této práci zkoumáme
použití WavLM ke zmírnění problému nedostatku dat pro trénování neuronové
diarizace. Používáme stejný pipeline jako Pyannote a vylepšujeme lokální
komplexní neuronovou diarizaci pomocí WavLM a Conformeru. Experimenty na datových
sadách AMI, AISHELL-4 a AliMeeting ve vzdáleném poli ukazují, že naše metoda
podstatně překonává základní linii Pyannote a dosahuje nových špičkových výsledků
na AMI a AISHELL- 4. Kromě toho analýzou výkonu systému za různých scénářů
množství dat ukazujeme, že reprezentace WavLM jsou mnohem odolnější vůči
nedostatku dat než funkce filtračních bank, což umožňuje méně datově náročné
strategie trénování. Dále jsme zjistili, že simulovaná data, obvykle používaná
k trénování end-to-end modelů diarizace, nepomáhají při použití WavLM v našich
experimentech. Dále jsme náš model také vyhodnotili na nedávném úkolu CHiME8
NOTSOFAR-1, kde dosahuje lepšího výkonu než základní linie Pyannote. Náš zdrojový
kód je veřejně dostupný na adrese https://github.com/BUTSpeechFIT/DiariZen.

Rok
2025
Strany
1–5
Sborník
Proceedings of ICASSP 2025
Konference
25. konference ICASSP 2025, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad
DOI
BibTeX
@inproceedings{BUT198048,
  author="Jiangyu {Han} and Federico Nicolás {Landini} and Johan Andréas {Rohdin} and Anna {Silnova} and Mireia {Diez Sánchez} and Lukáš {Burget}",
  title="Leveraging Self-Supervised Learning for Speaker Diarization",
  booktitle="Proceedings of ICASSP 2025",
  year="2025",
  pages="1--5",
  publisher="IEEE Biometric Council",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10889475",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889475"
}
Soubory
Nahoru