Detail publikace
Utilizing VOiCES dataset for multichannel speaker verification with beamforming
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Článek pojednává o využití datasetu VOiCES pro multikanálové ověřování řečníka se směrováním akustického paprsku. VOiCES z výzvy Distance Distance Challenge 2019 zaměřené na hodnocení systémů ověřování mluvčího (SV) pomocí jednokanálových zkoušek založených na korpusu Voices Obscured in Complex Environment Settings (VOiCES). Jelikož obsahuje záznamy stejných promluv zachycených současně více mikrofony ve stejných prostředích, je vhodný i pro vícekanálové experimenty. V této práci navrhujeme vícekanálovou datovou sadu a vývojové a hodnotící testy pro SV inspirované výzvou VOiCES. Rovněž jsou uvedeny alternativy vyřazování závadných mikrofonů. Posuzujeme využití vytvořené datové sady pro x-vektorový SV s formováním paprsku jako front-end. Standardní pevné tvarování paprsků a tvarování paprsků podporované NN pomocí simulovaných dat a ideální binární masky (IBM) se porovnávají s jinou variantou tvarování paprsků podporovanou NN, která je trénována pouze na datech VOiCES. Nedostatek dat odhalený experimenty s VOiCESdata vyškoleným formovačem paprsků byl vyřešen pomocí varianty SpecAugment aplikované na spektra velikosti. Tento přístup vedl až k 10% relativnímu zlepšení v EER posunu výsledků blíže k těm, které získal dobrý formovač paprsků založený na IBM.
@INPROCEEDINGS{FITPUB12289, author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Jan \v{C}ernock\'{y}", title = "Utilizing VOiCES dataset for multichannel speaker verification with beamforming", pages = "187--193", booktitle = "Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop", journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop", volume = 2020, number = 11, year = 2020, location = "Tokyo, JP", publisher = "International Speech Communication Association", ISSN = "2312-2846", doi = "10.21437/Odyssey.2020-27", language = "english", url = "https://www.fit.vut.cz/research/publication/12289" }