Detail publikace
Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?
Stafylakis Themos (OMILIA)
Landini Federico Nicolás (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
V tomto článku aplikujeme přístup s variačním informačním úzkým hrdlem na end-to-end neurální diarizaci s atraktory kodér-dekodér (EEND-EDA). To nám umožňuje zjistit, jaké informace jsou pro model zásadní. EEND-EDA využívá atraktory, vektorové reprezentace mluvčích v konverzaci. Naše analýza ukazuje, že atraktory nemusí nutně obsahovat informace o charakteristikách mluvčího. Na druhou stranu, poskytnutí větší volnosti atraktorům, které jim umožní zakódovat nějaké další (pravděpodobně specifické pro mluvčího) informace, vede k malým, ale konzistentním zlepšením diarizačního výkonu. Navzdory architektonickým rozdílům v systémech EEND je představa atraktorů a vestavění rámu pro většinu z nich společná a není specifická pro EEND-EDA. Domníváme se, že hlavní závěry této práce lze aplikovat i na další varianty EEND. Doufáme tedy, že tento dokument bude cenným příspěvkem, který pomůže komunitě činit informovanější rozhodnutí při navrhování nových systémů.
@INPROCEEDINGS{FITPUB13306, author = "Lin Zhang and Themos Stafylakis and Nicol\'{a}s Federico Landini and Mireia S\'{a}nchez Diez and Anna Silnova and Luk\'{a}\v{s} Burget", title = "Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?", pages = "123--130", booktitle = "Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop", year = 2024, location = "Qu\'{e}bec City, CA", publisher = "International Speech Communication Association", doi = "10.21437/odyssey.2024-18", language = "english", url = "https://www.fit.vut.cz/research/publication/13306" }