Detail publikace
BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Pulugundla Bhargav, M.Sc. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Novotný Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
V tomto článku prezentujeme vítězné podání VUT v Brně do soutěže SdSV Challenge 2020, které se týkalo textově závislého úkolu. Vzhledem k velkému množství tréninkových dat dostupných v této výzvě jsme zkoumali úspěšné techniky z textově nezávislých systémů ve scénáři závislém na textu. Zejména jsme trénovali x-vektor extraktory na souborech dat v doméně i mimo doménu a kombinovali je s i-vektory trénovanými na zřetězených MFCC a bottleneckovými prvky, což se ukázalo být efektivním pro scénář závislý na textu. Navíc jsme navrhli použití frázově závislého backend PLDA pro skórování a jeho kombinaci s jednoduchým rozpoznávačem frází, která přináší až 63% relativní zlepšení našeho vývojového souboru s ohledem na používání standardního PLDA. Nakonec zkombinujeme náš různý i-vektor a systémy založené na x-vektorech pomocí jednoduché lineární logistické regrese fúze na úrovni skóre, která poskytuje 28% relativní zlepšení na hodnotící sadě s ohledem na náš nejlepší singl systém.
@INPROCEEDINGS{FITPUB12378, author = "Alicia D\'{i}ez Lozano and Anna Silnova and Bhargav Pulugundla and A. Johan Rohdin and Karel Vesel\'{y} and Luk\'{a}\v{s} Burget and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Ond\v{r}ej Novotn\'{y} and Pavel Mat\v{e}jka", title = "BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020", pages = "761--765", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2020, number = 10, year = 2020, location = "Shanghai, CN", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2020-2882", language = "english", url = "https://www.fit.vut.cz/research/publication/12378" }