Detail publikace
Speaker Verification with Application-Aware Beamforming
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Vícekanálové aplikace pro zpracování řeči obvykle používají formovače paprsků jako prostředky pro vylepšení řeči prostřednictvím prostorového filtrování. Beamformery se naučitelnými parametry vyžadují trénování, aby se minimalizovala funkce ztráty, která nemusí nutně souviset s konečným cílem. V tomto článku představujeme rámec využívající nedávný generátor vlastních tvarů založených na neuronových sítích a model specifický pro aplikaci, který umožňuje optimalizaci formátoru paprsků w.r.t. cílová aplikace. V našem případě je aplikací ověření mluvčího, které využívá x-vektor extraktor embeddingu mluvčího, který výhodně přichází s požadovanou ztrátou. Ukazujeme, že aplikace specifické pro formování paprsku přináší zlepšení výkonu oproti systému vyškolenému standardním způsobem. Provádíme analýzu na nedávno představeném korpusu VOiCES, který obsahuje vícekanálová data a umožňuje nám upravit zkušební testy tak, aby záznamy zápisu zůstaly jednokanálové a testovací promluvy byly vícekanálové.
@INPROCEEDINGS{FITPUB12152, author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Speaker Verification with Application-Aware Beamforming", pages = "411--418", booktitle = "IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU)", year = 2019, location = "Sentosa, Singapore, SG", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-0306-8", doi = "10.1109/ASRU46091.2019.9003932", language = "english", url = "https://www.fit.vut.cz/research/publication/12152" }