Detail publikace
Analysis of the BUT Diarization System for Voxconverse Challenge
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Tento příspěvek popisuje systém vyvinutý týmem VUT pro čtvrtou stopu VoxCeleb Speaker Recognition Challenge se zaměřením na diarizaci na datové sadě VoxConverse. Systém se skládá z předzpracování signálu, detekce hlasové aktivity, extrakce vložení mluvčího, počátečního aglomerativního hierarchického shlukování s následnou diarizací pomocí Bayesovského skrytého Markovova modelu, kroku seskupení založeného na globálním vložení pro každého mluvčího a překrytí detekce a zpracování řeči. Poskytujeme srovnání pro každý z kroků a sdílíme implementaci nejdůležitějších modulů našeho systému. Náš systém zaznamenal v výzvě druhé místo, pokud jde o primární metriku (míra chyb diarizace) a první podle sekundární metriky (míra chyb Jaccard).
Podpořeno z projektu Ministerstva vnitra České republiky Robustní zpracování nahrávek pro operativu a bezpečnost (ROZKAZ), č. VJ01010108
@INPROCEEDINGS{FITPUB12520, author = "Nicol\'{a}s Federico Landini and Ond\v{r}ej Glembek and Pavel Mat\v{e}jka and A. Johan Rohdin and Luk\'{a}\v{s} Burget and Mireia S\'{a}nchez Diez and Anna Silnova", title = "Analysis of the BUT Diarization System for Voxconverse Challenge", pages = "5819--5823", booktitle = "ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)", year = 2021, location = "Toronto, Ontario, CA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-7605-5", doi = "10.1109/ICASSP39728.2021.9414315", language = "english", url = "https://www.fit.vut.cz/research/publication/12520" }