Detail publikace
Analysis of X-Vectors for Low-Resource Speech Recognition
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Profant Ján (Phonexia)
Nytra Jiří (Phonexia)
Hlaváček Miroslav (Phonexia)
Pavlíček Tomáš, Ing. (Phonexia)
Příspěvek představuje studii použitelnosti x-vektorů pro adaptaci systémů automatického rozpoznávání řeči (ASR). X-vektory jsou založeny na vložení řečníků na základě neuronových sítí (NN), které byly nedávno navrženy v rozpoznávání řečníků (SR). Rychle nahradily běžné i-vektory a staly se novou nejmodernější technikou. Zde je stejný přístup přijat pro ASR s nadějí na podobný výsledek. Všechny experimenty byly provedeny na ASR pro nejnovější vyhodnocení IARPA MATERIÁLU běžící na paštštinu. Přes x% absolutní zlepšení bylo pozorováno u x-vektorů oproti tradičním i-vektorům, i když x-vektorový extraktor nebyl trénován na cílová paštštinová data.
Podpořeno z projektu Ministerstva vnitra České republiky Robustní zpracování nahrávek pro operativu a bezpečnost (ROZKAZ), č. VJ01010108
@INPROCEEDINGS{FITPUB12525, author = "Martin Karafi\'{a}t and Karel Vesel\'{y} and Jan \v{C}ernock\'{y} and J\'{a}n Profant and Ji\v{r}\'{i} Nytra and Miroslav Hlav\'{a}\v{c}ek and Tom\'{a}\v{s} Pavl\'{i}\v{c}ek", title = "Analysis of X-Vectors for Low-Resource Speech Recognition", pages = "6998--7002", booktitle = "ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)", year = 2021, location = "Toronto, Ontario, CA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-7605-5", doi = "10.1109/ICASSP39728.2021.9414725", language = "english", url = "https://www.fit.vut.cz/research/publication/12525" }