Detail publikace
Leveraging Self-Supervised Learning for Speaker Diarization
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Diarizace mluvčích, nedostatek dat, WavLM, Pyannote, data ze setkání ve vzdáleném
poli
Komplexní neuronová diarizace se v posledních několika letech značně vyvinula,
ale nedostatek dat je stále hlavní překážkou pro další zlepšení. Metody
samostudia, jako je WavLM, prokázaly slibný výkon u několika následných úloh, ale
jejich aplikace na diarizaci mluvčího je poněkud omezená. V této práci zkoumáme
použití WavLM ke zmírnění problému nedostatku dat pro trénování neuronové
diarizace. Používáme stejný pipeline jako Pyannote a vylepšujeme lokální
komplexní neuronovou diarizaci pomocí WavLM a Conformeru. Experimenty na datových
sadách AMI, AISHELL-4 a AliMeeting ve vzdáleném poli ukazují, že naše metoda
podstatně překonává základní linii Pyannote a dosahuje nových špičkových výsledků
na AMI a AISHELL- 4. Kromě toho analýzou výkonu systému za různých scénářů
množství dat ukazujeme, že reprezentace WavLM jsou mnohem odolnější vůči
nedostatku dat než funkce filtračních bank, což umožňuje méně datově náročné
strategie trénování. Dále jsme zjistili, že simulovaná data, obvykle používaná
k trénování end-to-end modelů diarizace, nepomáhají při použití WavLM v našich
experimentech. Dále jsme náš model také vyhodnotili na nedávném úkolu CHiME8
NOTSOFAR-1, kde dosahuje lepšího výkonu než základní linie Pyannote. Náš zdrojový
kód je veřejně dostupný na adrese https://github.com/BUTSpeechFIT/DiariZen.
@inproceedings{BUT198048,
author="Jiangyu {Han} and Federico Nicolás {Landini} and Johan Andréas {Rohdin} and Anna {Silnova} and Mireia {Diez Sánchez} and Lukáš {Burget}",
title="Leveraging Self-Supervised Learning for Speaker Diarization",
booktitle="Proceedings of ICASSP 2025",
year="2025",
pages="1--5",
publisher="IEEE Biometric Council",
address="Hyderabad",
doi="10.1109/ICASSP49660.2025.10889475",
isbn="979-8-3503-6874-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889475"
}