Detail publikace

Utilizing VOiCES dataset for multichannel speaker verification with beamforming

MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A. a ČERNOCKÝ Jan. Utilizing VOiCES dataset for multichannel speaker verification with beamforming. In: Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Tokyo: International Speech Communication Association, 2020, s. 187-193. ISSN 2312-2846. Dostupné z: https://www.isca-speech.org/archive/Odyssey_2020/abstracts/80.html
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Článek pojednává o využití datasetu VOiCES pro multikanálové ověřování řečníka se směrováním akustického paprsku. VOiCES z výzvy Distance Distance Challenge 2019 zaměřené na hodnocení systémů ověřování mluvčího (SV) pomocí jednokanálových zkoušek založených na korpusu Voices Obscured in Complex Environment Settings (VOiCES). Jelikož obsahuje záznamy stejných promluv zachycených současně více mikrofony ve stejných prostředích, je vhodný i pro vícekanálové experimenty. V této práci navrhujeme vícekanálovou datovou sadu a vývojové a hodnotící testy pro SV inspirované výzvou VOiCES. Rovněž jsou uvedeny alternativy vyřazování závadných mikrofonů. Posuzujeme využití vytvořené datové sady pro x-vektorový SV s formováním paprsku jako front-end. Standardní pevné tvarování paprsků a tvarování paprsků podporované NN pomocí simulovaných dat a ideální binární masky (IBM) se porovnávají s jinou variantou tvarování paprsků podporovanou NN, která je trénována pouze na datech VOiCES. Nedostatek dat odhalený experimenty s VOiCESdata vyškoleným formovačem paprsků byl vyřešen pomocí varianty SpecAugment aplikované na spektra velikosti. Tento přístup vedl až k 10% relativnímu zlepšení v EER posunu výsledků blíže k těm, které získal dobrý formovač paprsků založený na IBM.

Rok
2020
Strany
187-193
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop, roč. 2020, č. 11, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop
Konference
Odyssey 2020: The Speaker and Language Recognition Workshop, Tokyo, JP
Vydavatel
International Speech Communication Association
Místo
Tokyo, JP
DOI
BibTeX
@INPROCEEDINGS{FITPUB12289,
   author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Jan \v{C}ernock\'{y}",
   title = "Utilizing VOiCES dataset for multichannel speaker verification with beamforming",
   pages = "187--193",
   booktitle = "Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop",
   journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop",
   volume = 2020,
   number = 11,
   year = 2020,
   location = "Tokyo, JP",
   publisher = "International Speech Communication Association",
   ISSN = "2312-2846",
   doi = "10.21437/Odyssey.2020-27",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12289"
}
Nahoru