Detail publikace

From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization

LANDINI Federico Nicolás, LOZANO Díez Alicia, DIEZ Sánchez Mireia a BURGET Lukáš. From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 5095-5099. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/landini22_interspeech.pdf
Název česky
Od simulovaných směsí k simulovaným konverzacím využitým jako trénovací data pro end-to-end neurální diarizaci
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Landini Federico Nicolás (UPGM FIT VUT)
Lozano Díez Alicia (UAM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Koncová neuronová diarizace (EEND) je v současnosti jedním z nejvýznamnějších výzkumných témat v oblasti diarizace mluvčích. EEND představuje atraktivní alternativu ke standardním kaskádovým diarizačním systémům, protože k řešení celého problému diarizace je najednou natrénován jediný systém. Je navrženo několik variant a přístupů EEND, nicméně všechny tyto modely vyžadují pro trénování velké množství anotovaných dat, ale dostupných anotovaných dat je málo. Práce EEND proto k trénování většinou používaly simulované směsi. Simulované směsi se však v mnoha ohledech nepodobají skutečným konverzacím. V této práci představujeme alternativní metodu pro vytváření syntetických konverzací, které se podobají skutečným, pomocí statistik o rozložení pauz a překryvů odhadnutých na skutečných konverzacích. Dále analyzujeme vliv zdroje statistik, různých rozšíření a množství dat. Ukazujeme, že náš přístup funguje podstatně lépe než původní přístup a zároveň snižuje závislost na fázi jemného dolaďování. Experimenty provádíme na telefonních rozhovorech se dvěma mluvčími Callhome a DIHARD 3. Společně s touto publikací vydáváme naše implementace EEND a metodu pro vytváření simulovaných rozhovorů.

Rok
2022
Strany
5095-5099
Časopis
Proceedings of Interspeech - on-line, roč. 2022, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724505055
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12846,
   author = "Nicol\'{a}s Federico Landini and Alicia D\'{i}ez Lozano and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget",
   title = "From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization",
   pages = "5095--5099",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2022,
   number = 9,
   year = 2022,
   location = "Incheon, KR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2022-10451",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12846"
}
Nahoru