Detail publikace

Investigation of Specaugment for Deep Speaker Embedding Learning

WANG Shuai, ROHDIN Johan A., PLCHOT Oldřich, BURGET Lukáš, YU Kai a ČERNOCKÝ Jan. Investigation of Specaugment for Deep Speaker Embedding Learning. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020, s. 7139-7143. ISBN 978-1-5090-6631-5. Dostupné z: https://ieeexplore.ieee.org/document/9053481/authors#authors
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Wang Shuai (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Yu Kai (SJTU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

SpecAugment je nově navržená metoda rozšíření dat pro rozpoznávání řeči. Náhodným maskováním pásů v log Mel spektogramu tato metoda vede k působivým zlepšením výkonu. V tomto článku zkoumáme použití SpecAugment pro úkoly ověření mluvčího. K analýze účinnosti SpecAugments se používají dva různé modely, konkrétně 1-D konvoluční TDNN a 2-D konvoluční ResNet34, proškolené buď se ztrátou Softmax nebo AAM-Softmax. Experimenty jsou prováděny na datovém souboru Voxceleb a NIST SRE 2016. Aplikací SpecAugmentu na původní čistá data nepřetržitě bez složitých metod rozšiřování off-line dat jsme získali 3,72% a 11,49% EER pro kantonský NIST SRE 2016 a Tagalog. Pro vyhodnocovací sadu Voxceleb1 jsme získali 1,47% EER.

Rok
2020
Strany
7139-7143
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Barcelona, ES
ISBN
978-1-5090-6631-5
Vydavatel
IEEE Signal Processing Society
Místo
Barcelona, ES
DOI
UT WoS
000615970407081
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12278,
   author = "Shuai Wang and A. Johan Rohdin and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Kai Yu and Jan \v{C}ernock\'{y}",
   title = "Investigation of Specaugment for Deep Speaker Embedding Learning",
   pages = "7139--7143",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2020,
   location = "Barcelona, ES",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5090-6631-5",
   doi = "10.1109/ICASSP40776.2020.9053481",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12278"
}
Nahoru