Detail publikace

Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer

MOŠNER, L.; PLCHOT, O.; BURGET, L.; ČERNOCKÝ, J. Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 7982-7986. ISBN: 978-1-6654-0540-9.

Název česky

Multikanálové ověřování mluvčího se směrováním akustického paprsku založeným na Conv-Tasnet

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Conv-TasNet, beamforming, embedding extractor, speaker verification, MultiSV

Abstrakt

Zaměřujeme se na problém rozpoznávání mluvčích ve vzdálených vícekanálových datech. Hlavním přínosem je zavedení alternativního způsobu predikce prostorových kovariančních matic (SCM) pro beamformer ze signálu v časové oblasti. Navrhujeme použít ConvTasNet, známý model separace zdrojů, a přizpůsobíme jej tak, aby prováděl vylepšení řeči tím, že jej přinutíme oddělit řeč a aditivní šum. Experimentujeme s použitím STFT výstupů Conv-TasNet k získání SCM řeči a šumu a nakonec doladíme tento vícekanálový frontend w.r.t. cíl ověření mluvčího. Problém nedostatku realistické vícekanálové trénovací sady jsme úspěšně řešili pomocí simulovaných dat korpusu MultiSV. Analýza se provádí na jeho znovu přenášených a simulovaných testovacích částech. Konzistentních zlepšení dosahujeme s 2,7krát menším modelem, než je základní, na základě schématu s maskou odhadující NN.

Rok

2022

Strany

7982–7986

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

2022 IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP), Singapore, SG

ISBN

978-1-6654-0540-9

Vydavatel

IEEE Signal Processing Society

Místo

Singapore

DOI

10.1109/ICASSP43922.2022.9747771

UT WoS

000864187908058

EID Scopus

2-s2.0-85119644968

BibTeX

@inproceedings{BUT178381,
  author="Ladislav {Mošner} and Oldřich {Plchot} and Lukáš {Burget} and Jan {Černocký}",
  title="Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="7982--7986",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9747771",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/document/9747771"
}

Soubory

pdf mosner_icassp2022_Multi-Channel_Speaker_Verification_with_Conv-Tasnet_Based_Beamformer.pdf 893 kB