Detail publikace

Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer

MOŠNER Ladislav, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 7982-7986. ISBN 978-1-6654-0540-9. Dostupné z: https://ieeexplore.ieee.org/document/9747771
Název česky
Multikanálové ověřování mluvčího se směrováním akustického paprsku založeným na Conv-Tasnet
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Zaměřujeme se na problém rozpoznávání mluvčích ve vzdálených vícekanálových datech. Hlavním přínosem je zavedení alternativního způsobu predikce prostorových kovariančních matic (SCM) pro beamformer ze signálu v časové oblasti. Navrhujeme použít ConvTasNet, známý model separace zdrojů, a přizpůsobíme jej tak, aby prováděl vylepšení řeči tím, že jej přinutíme oddělit řeč a aditivní šum. Experimentujeme s použitím STFT výstupů Conv-TasNet k získání SCM řeči a šumu a nakonec doladíme tento vícekanálový frontend w.r.t. cíl ověření mluvčího. Problém nedostatku realistické vícekanálové trénovací sady jsme úspěšně řešili pomocí simulovaných dat korpusu MultiSV. Analýza se provádí na jeho znovu přenášených a simulovaných testovacích částech. Konzistentních zlepšení dosahujeme s 2,7krát menším modelem, než je základní, na základě schématu s maskou odhadující NN.

Rok
2022
Strany
7982-7986
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Singapore, SG
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore, SG
DOI
UT WoS
000864187908058
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12786,
  author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
  title = "Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer",
  pages = "7982--7986",
  booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year = 2022,
  location = "Singapore, SG",
  publisher = "IEEE Signal Processing Society",
  ISBN = "978-1-6654-0540-9",
  doi = "10.1109/ICASSP43922.2022.9747771",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12786"
}
Nahoru