Detail publikace
Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Při rozpoznávání emocí z řeči narážíme na dva běžné problémy: jak optimálně zachytit emoci relevantní informace z řečového signálu a jak nejlépe kvantifikovat nebo kategorizovat hlučné subjektivní značky emocí. Předtrénované reprezentace s vlastním dohledem mohou robustně zachytit informace z řeči, což umožňuje nejmodernější výsledky v mnoha následných úlohách, včetně rozpoznávání emocí. Je však třeba zvážit lepší způsoby agregace informací v průběhu času, protože relevantní informace o emocích se pravděpodobně objeví po kouscích a ne jednotně napříč signálem. U značek musíme vzít v úvahu, že existuje značná míra šumu, který pochází ze subjektivních lidských anotací. V tomto článku navrhujeme nový přístup k pozornému sdružování založenému na korelacích mezi koeficienty reprezentace v kombinaci s vyhlazováním značek, což je metoda, jejímž cílem je snížit spolehlivost klasifikátoru na trénovacích značkách. Vyhodnocujeme námi navržený přístup na srovnávacím datovém souboru IEMOCAP a prokazujeme vysoký výkon, který převyšuje výkon v literatuře. Kód pro reprodukci výsledků je k dispozici na github.com/skakouros/s3prl_attentive_correlation.
@INPROCEEDINGS{FITPUB13054, author = "Sofoklis Kakouros and Themos Stafylakis and Ladislav Mo\v{s}ner and Luk\'{a}\v{s} Burget", title = "Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing", pages = "1--5", booktitle = "Proceedings of ICASSP 2023", year = 2023, location = "Rhodes Island, GR", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-6327-7", doi = "10.1109/ICASSP49357.2023.10094673", language = "english", url = "https://www.fit.vut.cz/research/publication/13054" }