Detail výsledku

Region Dependent Linear Transforms in Multilingual Speech Recognition

KARAFIÁT, M.; JANDA, M.; ČERNOCKÝ, J.; BURGET, L. Region Dependent Linear Transforms in Multilingual Speech Recognition. In Proc. International Conference on Acoustics, Speech, and Signal Processing 2012. Kyoto: IEEE Signal Processing Society, 2012. p. 4885-4888. ISBN: 978-1-4673-0044-5.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Karafiát Martin, Ing., Ph.D., UPGM (FIT)
Janda Miloš, Ing., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Abstrakt

In today's speech recognition systems, linear or nonlinear transformationsare usually applied to post-process speech features forminginput to HMM based acoustic models. In this work, we experimentwith three popular transforms: HLDA,MPE-HLDA and Region DependentLinear Transforms (RDLT), which are trained jointly withthe acoustic model to extract maximum of the discriminative informationfrom the raw features and to represent it in a form suitablefor the following GMM-HMM based acoustic model. We focus onmulti-lingual environments, where limited resources are availablefor training recognizers of many languages. Using data from GlobalPhonedatabase, we show that, under such restrictive conditions,the feature transformations can be advantageously shared across languagesand robustly trained using data from several languages.

Klíčová slova

HLDA, Region Dependent Transforms, MinimumPhone Error, fMPE, multilingual speech recognition

URL
Rok
2012
Strany
4885–4888
Sborník
Proc. International Conference on Acoustics, Speech, and Signal Processing 2012
Konference
The 37th International Conference on Acoustics, Speech, and Signal Processing
ISBN
978-1-4673-0044-5
Vydavatel
IEEE Signal Processing Society
Místo
Kyoto
DOI
UT WoS
000312381404239
BibTeX
@inproceedings{BUT91480,
  author="Martin {Karafiát} and Miloš {Janda} and Jan {Černocký} and Lukáš {Burget}",
  title="Region Dependent Linear Transforms in Multilingual Speech Recognition",
  booktitle="Proc. International Conference on Acoustics, Speech, and Signal Processing 2012",
  year="2012",
  pages="4885--4888",
  publisher="IEEE Signal Processing Society",
  address="Kyoto",
  doi="10.1109/ICASSP.2012.6289014",
  isbn="978-1-4673-0044-5",
  url="http://www.fit.vutbr.cz/research/groups/speech/publi/2012/karafiat_icassp2012_0004885.pdf"
}
Projekty
Multiligvální rozpoznávání a vyhledávání v řeči pro elektronické slovníky, MPO, TIP, FR-TI1/034, zahájení: 2009-09-01, ukončení: 2013-08-31, ukončen
Rozpoznávání řeči pro jazyky s omezeným množstvím trénovacích zdrojů, GAČR, Postdoktorandské granty, GPP202/12/P604, zahájení: 2012-01-01, ukončení: 2014-12-31, ukončen
Technologie zpracování řeči pro efektivní komunikaci člověk-počítač, TAČR, Program aplikovaného výzkumu a experimentálního vývoje ALFA, TA01011328, zahájení: 2011-01-01, ukončení: 2014-12-31, ukončen
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru