Detail publikace
Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Zaměřujeme se na problém rozpoznávání mluvčích ve vzdálených vícekanálových datech. Hlavním přínosem je zavedení alternativního způsobu predikce prostorových kovariančních matic (SCM) pro beamformer ze signálu v časové oblasti. Navrhujeme použít ConvTasNet, známý model separace zdrojů, a přizpůsobíme jej tak, aby prováděl vylepšení řeči tím, že jej přinutíme oddělit řeč a aditivní šum. Experimentujeme s použitím STFT výstupů Conv-TasNet k získání SCM řeči a šumu a nakonec doladíme tento vícekanálový frontend w.r.t. cíl ověření mluvčího. Problém nedostatku realistické vícekanálové trénovací sady jsme úspěšně řešili pomocí simulovaných dat korpusu MultiSV. Analýza se provádí na jeho znovu přenášených a simulovaných testovacích částech. Konzistentních zlepšení dosahujeme s 2,7krát menším modelem, než je základní, na základě schématu s maskou odhadující NN.
@INPROCEEDINGS{FITPUB12786, author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer", pages = "7982--7986", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2022, location = "Singapore, SG", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-0540-9", doi = "10.1109/ICASSP43922.2022.9747771", language = "english", url = "https://www.fit.vut.cz/research/publication/12786" }