Detail výsledku

Analysis of X-Vectors for Low-Resource Speech Recognition

KARAFIÁT, M.; VESELÝ, K.; ČERNOCKÝ, J.; PROFANT, J.; NYTRA, J.; HLAVÁČEK, M.; PAVLÍČEK, T. Analysis of X-Vectors for Low-Resource Speech Recognition. In ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021. p. 6998-7002. ISBN: 978-1-7281-7605-5.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Karafiát Martin, Ing., Ph.D., UPGM (FIT)
Veselý Karel, Ing., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)
Profant Ján, Ing.
Nytra Jiří, Bc.
HLAVÁČEK, M.
Pavlíček Tomáš, Ing.
Abstrakt

The paper presents a study of usability of x-vectors for adaptationof automatic speech recognition (ASR) systems. Xvectorsare Neural Network (NN)-based speaker embeddingsrecently proposed in speaker recognition (SR). They quicklyreplaced common i-vectors and became new state-of-the-arttechnique. Here, the same approach is adopted for ASR withthe hope of similar outcome. All experiments were done onASR for the latest IARPA MATERIAL evaluation running onPashto language. Over 1% absolute improvement was observedwith x-vectors over traditional i-vectors, even whenthe x-vector extractor was not trained on target Pashto data.

Klíčová slova

speech recognition, adaptation, x-vectors,data augmentation, robustness

URL
Rok
2021
Strany
6998–7002
Sborník
ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Konference
2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto, Ontario
DOI
UT WoS
000704288407055
EID Scopus
BibTeX
@inproceedings{BUT175794,
  author="KARAFIÁT, M. and VESELÝ, K. and ČERNOCKÝ, J. and PROFANT, J. and NYTRA, J. and HLAVÁČEK, M. and PAVLÍČEK, T.",
  title="Analysis of X-Vectors for Low-Resource Speech Recognition",
  booktitle="ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
  year="2021",
  pages="6998--7002",
  publisher="IEEE Signal Processing Society",
  address="Toronto, Ontario",
  doi="10.1109/ICASSP39728.2021.9414725",
  isbn="978-1-7281-7605-5",
  url="https://www.fit.vut.cz/research/publication/12525/"
}
Soubory
Financováno

Podpořeno z projektu Ministerstva vnitra České republiky Robustní zpracování nahrávek pro operativu a bezpečnost (ROZKAZ), č. VJ01010108 [img]

Projekty
IARPA Strojový překlad pro anglické vyhledávání informací v libovolném jazyce (MATERIAL) - Automatické vyhledávání informací v cizím jazyce (FLAIR), IARPA, zahájení: 2017-09-21, ukončení: 2021-10-22, ukončen
Neuronové reprezentace v multimodálním a mnohojazyčném modelování, GAČR, Grantové projekty exelence v základním výzkumu EXPRO - 2019, GX19-26934X, zahájení: 2019-01-01, ukončení: 2023-12-31, ukončen
Robustní zpracování nahrávek pro operativu a bezpečnost, MV, PROGRAM STRATEGICKÁ PODPORA ROZVOJE BEZPEČNOSTNÍHO VÝZKUMU ČR 2019-2025 (IMPAKT 1) PODPROGRAMU 1 SPOLEČNÉ VÝZKUMNÉ PROJEKTY (BV IMP1/1VS), VJ01010108, zahájení: 2020-10-01, ukončení: 2025-09-30, ukončen
Síťová, textová analýza a analýza řeči v reálném čase pro boj s organizovaným zločinem, EU, Horizon 2020, zahájení: 2019-09-01, ukončení: 2022-12-31, ukončen
Výzkumné skupiny
Pracoviště
Nahoru