Detail publikace

Utilizing VOiCES dataset for multichannel speaker verification with beamforming

MOŠNER, L.; PLCHOT, O.; ROHDIN, J.; ČERNOCKÝ, J. Utilizing VOiCES dataset for multichannel speaker verification with beamforming. Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Tokyo: International Speech Communication Association, 2020. p. 187-193. ISSN: 2312-2846.

Název česky

Využití datasetu VOiCES pro multikanálové ověřování řečníka se směrováním akustického paprsku

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

multichannel speaker verification, application-aware beamforming

Abstrakt

Článek pojednává o využití datasetu VOiCES pro multikanálové ověřování řečníka se směrováním akustického paprsku. VOiCES z výzvy Distance Distance Challenge 2019 zaměřené na hodnocení systémů ověřování mluvčího (SV) pomocí jednokanálových zkoušek založených na korpusu Voices Obscured in Complex Environment Settings (VOiCES). Jelikož obsahuje záznamy stejných promluv zachycených současně více mikrofony ve stejných prostředích, je vhodný i pro vícekanálové experimenty. V této práci navrhujeme vícekanálovou datovou sadu a vývojové a hodnotící testy pro SV inspirované výzvou VOiCES. Rovněž jsou uvedeny alternativy vyřazování závadných mikrofonů. Posuzujeme využití vytvořené datové sady pro x-vektorový SV s formováním paprsku jako front-end. Standardní pevné tvarování paprsků a tvarování paprsků podporované NN pomocí simulovaných dat a ideální binární masky (IBM) se porovnávají s jinou variantou tvarování paprsků podporovanou NN, která je trénována pouze na datech VOiCES. Nedostatek dat odhalený experimenty s VOiCESdata vyškoleným formovačem paprsků byl vyřešen pomocí varianty SpecAugment aplikované na spektra velikosti. Tento přístup vedl až k 10% relativnímu zlepšení v EER posunu výsledků blíže k těm, které získal dobrý formovač paprsků založený na IBM.

Rok

2020

Strany

187–193

Časopis

Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland, roč. 2020, č. 11, ISSN 2312-2846

Sborník

Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop

Konference

Odyssey 2020: Konference o rozpoznávání mluvčího a jazyka, Tokyo, JP

Vydavatel

International Speech Communication Association

Místo

Tokyo

DOI

10.21437/Odyssey.2020-27

BibTeX

@inproceedings{BUT164069,
  author="Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Jan {Černocký}",
  title="Utilizing VOiCES dataset for multichannel speaker verification with beamforming",
  booktitle="Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop",
  year="2020",
  journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
  volume="2020",
  number="11",
  pages="187--193",
  publisher="International Speech Communication Association",
  address="Tokyo",
  doi="10.21437/Odyssey.2020-27",
  issn="2312-2846",
  url="https://www.isca-speech.org/archive/Odyssey_2020/abstracts/80.html"
}

Soubory

pdf mosner_odyssey2020_80.pdf 297 kB