Detail publikace

Speaker Verification with Application-Aware Beamforming

MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., BURGET Lukáš a ČERNOCKÝ Jan. Speaker Verification with Application-Aware Beamforming. In: IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU). Sentosa, Singapore: IEEE Signal Processing Society, 2019, s. 411-418. ISBN 978-1-7281-0306-8.
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Vícekanálové aplikace pro zpracování řeči obvykle používají formovače paprsků jako prostředky pro vylepšení řeči prostřednictvím prostorového filtrování. Beamformery se naučitelnými parametry vyžadují trénování, aby se minimalizovala funkce ztráty, která nemusí nutně souviset s konečným cílem. V tomto článku představujeme rámec využívající nedávný generátor vlastních tvarů založených na neuronových sítích a model specifický pro aplikaci, který umožňuje optimalizaci formátoru paprsků w.r.t. cílová aplikace. V našem případě je aplikací ověření mluvčího, které využívá x-vektor extraktor embeddingu mluvčího, který výhodně přichází s požadovanou ztrátou. Ukazujeme, že aplikace specifické pro formování paprsku přináší zlepšení výkonu oproti systému vyškolenému standardním způsobem. Provádíme analýzu na nedávno představeném korpusu VOiCES, který obsahuje vícekanálová data a umožňuje nám upravit zkušební testy tak, aby záznamy zápisu zůstaly jednokanálové a testovací promluvy byly vícekanálové.

Rok
2019
Strany
411-418
Sborník
IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU)
Konference
2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU 2019), Singapore, SG
ISBN
978-1-7281-0306-8
Vydavatel
IEEE Signal Processing Society
Místo
Sentosa, Singapore, SG
DOI
UT WoS
000539883100055
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12152,
   author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Speaker Verification with Application-Aware Beamforming",
   pages = "411--418",
   booktitle = "IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU)",
   year = 2019,
   location = "Sentosa, Singapore, SG",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-0306-8",
   doi = "10.1109/ASRU46091.2019.9003932",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12152"
}
Nahoru