Detail publikace

Temporal processing for feature extraction in speech recognition, shortened version of habilitation thesis

ČERNOCKÝ Jan. Temporal processing for feature extraction in speech recognition, shortened version of habilitation thesis. Vědecké spisy VUT. Edice Habilitační a inaugurační spisy, sv. 112. Brno: Nakladatelství Vysokého učení technického v Brně VUTIUM, 2003, s. 1-30. ISBN 80-214-2395-1.
Název česky
Časové zpracování pro výpočet příznaků v rozpoznávání řeči
Typ
kapitola v knize
Jazyk
angličtina
Autoři
URL
Abstrakt

Časové zpracování pro výpočet příznaků v rozpoznávání řeči

Anotace

Rozpoznávání řeči je rychle se rozvíjejícím oborem s množstvím aplikací v telekomunikacích (zvláště mobilních), automobilovém průmyslu, spotřební elektronice, vojenské a bezpečnostní oblasti, atd. Rozpoznávače řeči se klasicky skládají ze tří základních bloků: výpočtu příznaků (parametrizace), akustického srovnávání a jazykového modelu. Zatímco poslední dva bloky jsou trénovány na datech (akustika na anotovaných řečových databázích, LM na korpusech textových dat), parametrizace je často zanedbávána a na vstupech rozpoznávačů najdeme nejčastěji mel-frekvenční cepstrální koeficienty (MFCC). Tato práce se zaměřuje na dvě techniky, které by měly parametrizaci zkvalitnit. První z nich je časová filtrace trajektorií parametrů pomocí LDA-filtrů. Tyto jsou získány z řečových dat pomocí Lineární diskriminační analýzy (LDA). V práci ukážeme, že tato technika zlepšuje úspěšnost rozpoznávače při rozpoznávání izolovaných českých slov. Potvrdili jsme tak předchozí výsledky na americké angličtině, získané naší partnerskou skupinou na OGI Portland. Druhá část práce se zaměřuje na "revolučnější" přístup k parametrizaci pomocí časových trajektorií (TRAPs). Základ této metody byl rovněž položen skupinou na OGI a experimenty popsané v této práci byly provedeny během autorova sedmiměsíčního pobytu v Portlandu. I když jsme prokázali, že TRAP-příznaky jsou srovnatelné s MFCC pouze na rozpoznávání omezeného souboru slov, věříme, že kombinace zpracování v jednotlivých kmitočtových pásmech s neuronovými sítěmi nabude v následující dekádě na důležitosti a že se tyto techniky stanou standardními bloky v parametrizaci řeči.

Rok
2003
Strany
1-30
Kniha
Vědecké spisy VUT
Řada
Edice Habilitační a inaugurační spisy, sv. 112
ISBN
80-214-2395-1
Vydavatel
Nakladatelství Vysokého učení technického v Brně VUTIUM
Místo
Brno, CZ
BibTeX
@INBOOK{FITPUB7240,
   author = "Jan \v{C}ernock\'{y}",
   title = "Temporal processing for feature extraction in speech  recognition, shortened version of habilitation thesis",
   pages = "1--30",
   booktitle = "V\v{e}deck\'{e} spisy VUT",
   series = "Edice Habilita\v{c}n\'{i} a inaugura\v{c}n\'{i} spisy, sv. 112",
   year = 2003,
   location = "Brno, CZ",
   publisher = "Publishing house of Brno University of Technology VUTIUM",
   ISBN = "80-214-2395-1",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/7240"
}
Nahoru