Detail publikace
Analysis of Speaker Recognition Systems in Realistic Scenarios of the SITW 2016 Challenge
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V tomto příspěvku shrnujeme naše úsilí týkající se výzvy Speakers In The Wild (SITW) a prezentujeme naše poznatky s tímto novým souborem dat pro rozpoznávání mluvčích. Kromě standardního srovnání různých systémů SRE analyzujeme použití diarizace pro práci se zvukovými segmenty obsahujícími více reproduktorů, protože v rámci nově zavedených registračních a testovacích protokolů je diarizace nezbytnou součástí systému. Naše nejmodernější systémy použité v této práci využívají jak cepstrální, tak DNN úzké hrdlo a jsou založeny na i-vektorech následovaných klasifikátorem Pravděpodobnostní lineární diskriminační analýzy (PLDA) a kalibrací / fúzí logistické regrese. Představujeme úzkopásmové (8 kHz) i širokopásmové (16 kHz) systémy společně s jejich fúzí.
@INPROCEEDINGS{FITPUB11270, author = "Ond\v{r}ej Novotn\'{y} and Pavel Mat\v{e}jka and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Analysis of Speaker Recognition Systems in Realistic Scenarios of the SITW 2016 Challenge", pages = "828--832", booktitle = "Proceedings of Interspeech 2016", year = 2016, location = "San Francisco, US", publisher = "International Speech Communication Association", ISBN = "978-1-5108-3313-5", doi = "10.21437/Interspeech.2016-981", language = "english", url = "https://www.fit.vut.cz/research/publication/11270" }