Detail publikace
Convolutional Neural Networks and X-Vector Embedding for DCASE2018 Acoustic Scene Classification Challenge
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V tomto příspěvku jsou popsána podání týmu Vysokého učení technického v Brně (VUT) k úkolu 1 (Klasifikace akustické scény, ASC) výzvy DCASE-2018. Rovněž je poskytována analýza různých metod v sadě žebříčků. Navrhovaný přístup je fúzí dvou různých topologií konvoluční neurální sítě (CNN). První z nich je společný dvourozměrný CNN, který se používá hlavně při klasifikaci obrázků. Druhým z nich je jednorozměrný CNN pro extrakci vložení audio segmentu pevné délky, tzv. X-vektory, který se také používá při zpracování řeči, zejména pro rozpoznávání mluvčích. Kromě různých topologií byly testovány dva typy funkcí: log mel-spectrogram a funkce CQT. Nakonec jsou výstupy různých systémů sloučeny pomocí jednoduchého výstupu zprůměrovaného v nejvýkonnějším systému. Naše příspěvky se umístily na třetím místě mezi 24 týmy v dílčím úkolu ASC A (task-1a).
@INPROCEEDINGS{FITPUB11882, author = "Hossein Zeinali and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Convolutional Neural Networks and X-Vector Embedding for DCASE2018 Acoustic Scene Classification Challenge", pages = "1--5", booktitle = "Proceedings of DCASE 2018 Workshop", year = 2018, location = "Surrey, GB", publisher = "Tampere University of Technology", ISBN = "978-952-15-4262-6", language = "english", url = "https://www.fit.vut.cz/research/publication/11882" }