Detail publikace
Text-dependent speaker verification based on i-vectors, Neural Networks and Hidden Markov Models
Sameti Hossein (SHARIF)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Inspirováni úspěchem Deep Neural Networks (DNN) v rozpoznávání řečníků nezávislých na textu jsme nedávno prokázali, že podobné myšlenky lze aplikovat také na ověřovací úlohu řečníka závislého na textu. V tomto článku popisujeme nové pokroky v našem nejmodernějším přístupu založeném na i-vektorech k verifikaci řečníka závislého na textu, který také využívá různé techniky DNN. Aby bylo možné shromáždit dostatečné statistiky pro extrakci i-vektorů, porovnávají se různé modely zarovnání rámců, jako jsou GMM, phonemic HMM nebo DNN trénované pro klasifikaci senonu. Rovněž experimentujeme s funkcemi úzkých míst založenými na DNN a jejich kombinacemi se standardními funkcemi MFCC. Experimentujeme s několika různými konfiguracemi DNN a zkoumáme důležitost tréninku DNN na 16kHz řeči. Výsledky jsou uvedeny v datové sadě RSR2015, kde je k dispozici školicí materiál pro všechny možné registrační a testovací fráze. Kromě toho vykazujeme výsledky také u náročnějších datových sad RedDots, kde je systém postaven skutečně nezávisle na frázi.
@ARTICLE{FITPUB11529, author = "Hossein Zeinali and Hossein Sameti and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Text-dependent speaker verification based on i-vectors, Neural Networks and Hidden Markov Models", pages = "53--71", journal = "Computer Speech and Language", volume = 2017, number = 46, year = 2017, ISSN = "0885-2308", doi = "10.1016/j.csl.2017.04.005", language = "english", url = "https://www.fit.vut.cz/research/publication/11529" }