Detail publikace

Multisv: Dataset for Far-Field Multi-Channel Speaker Verification

MOŠNER Ladislav, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Multisv: Dataset for Far-Field Multi-Channel Speaker Verification. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 7977-7981. ISBN 978-1-6654-0540-9. Dostupné z: https://ieeexplore.ieee.org/document/9746833
Název česky
Multisv: Dataset pro vzdálené multikanálové ověřování mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Motivováni nekonsolidovanou datovou situací a nedostatkem standardního benchmarku v této oblasti, doplňujeme naše předchozí úsilí a představujeme komplexní korpus určený pro trénování a vyhodnocování textově nezávislých vícekanálových systémů ověřování mluvčích. Lze jej snadno použít také pro experimenty s dereverberací, odšumováním a zvýrazněním řeči. Vyřešili jsme všudypřítomný problém nedostatku vícekanálových trénovacích dat využitím simulace dat nad čistými částmi korpusu Voxceleb. Vývojové a vyhodnocovací testy jsou založeny na znovu přeneseném korpusu Voices Obscured in Complex Environmental Settings (VOiCES), který jsme upravili tak, aby poskytoval vícekanálové testy. Zveřejňujeme úplné recepty, které vytvářejí datovou sadu z veřejných zdrojů jako datovou sadu MultiSV, a poskytujeme výsledky se dvěma z našich vícekanálových systémů pro ověřování mluvčích založené na "beamforming" na bázi neuronové sítě založené buď na předpovídání ideálních binárních masek, nebo na novějším Conv-TasNet.

Rok
2022
Strany
7977-7981
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Singapore, SG
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore, SG
DOI
UT WoS
000864187908057
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12785,
  author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
  title = "Multisv: Dataset for Far-Field Multi-Channel Speaker Verification",
  pages = "7977--7981",
  booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year = 2022,
  location = "Singapore, SG",
  publisher = "IEEE Signal Processing Society",
  ISBN = "978-1-6654-0540-9",
  doi = "10.1109/ICASSP43922.2022.9746833",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12785"
}
Nahoru