Detail předmětu

Moderní metody zpracování řeči

MZD Ak. rok 2005/2006 letní semestr

Aktuální akademický rok

Od jednoduchých systémů k rozpoznávání ke statistickému modelování. Skryté Markovovy modely (HMM). Rozpoznávání souvislé řeči s velkým slovníkem. Jazykové modely. Tvorba řeči. Slyšení řeči: čas a frekvence. Metody pro odvození příznaků pro rozpoznávání založené na datech. Řečové databáze. Buzení v kódování řeči, CELP. Identifikace mluvčího.

Garant předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška

Rozsah

  • 39 hod. přednášky

Zajišťuje ústav

Získané dovednosti, znalosti a kompetence z předmětu

Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro rozpoznávání a kódování řeči využívajících moderní metody, a to v akademické i průmyslové sféře.

Cíle předmětu

Zmíníme se o metodách v současnosti implementovaných v průmyslových aplikacích (jako GSM telefony nebo komerčně dostupné rozpoznávače), ale neopomeneme ani perspektivní metody existující zatím pouze ve výzkumných laboratořích. Zvláštní pozornost bude věnována postupům odvozeným na řečových datech a využití poznatků o tvorbě a slyšení řeči lidmi.

Požadované prerekvizitní znalosti a dovednosti

základní znalost číslicového zpracování signálů, absolvování základního kursu o zpracování řeči je výhodou.

Literatura studijní

  • Moore, B.C.J., : An introduction to the psychology of hearing, Academic Press, 1989
  • Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998
  • Fukunaga, K.: Introduction to Statistical Pattern Recognition, Academic Press, 1990
  • Vapnik, V. N.: Statistical Learning Theory, Wiley-Interscience, 1998
  • Dutoit, T.: An Introduction to Text-To-Speech Synthesis, Kluwer Academic Publishers, 1997

Literatura referenční

  • Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995
  • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000
  • Texty z http://www.fit.vutbr.cz/~cernocky/speech/

Osnova přednášek

  • Základní pojmy: signálové vektory a matice parametrů, statistiky.
  • Statistické modelování parametrů, modelování času stavovými sekvencemi.
  • Skryté Markovovy modely (HMM), struktura, trénování.
  • Rozpoznávání řeči pomocí HMM: Viterbiho algoritmus, předávání žetonů (token passing).
  • ýslovnostní slovníky a jazykové modely.
  • Tvorba řeči a odvozené parametry: LPC, log area ratios (LAR), line spectral pairs (LSP).
  • Slyšení řeči a odvozené parametry - Mel-frekvenční cepstrální koeficienty, Perceptual linear prediction (PLP).
  • Časové vlastnosti sluchu - RASTA filtrování.
  • Trénování výpočtu příznaků na datech: lineární diskriminační analýza.
  • Řečové databáze: standardy, obsah, mluvčí, anotace.
  • Vokodéry a modelování jejich buzení, multipulsní a statistické modelování (GSM kódování).
  • CELP kódování: dlouhodobý prediktor, kódové knihy. Kódování s velmi malým bitovým tokem.
  • Současné metody identifikace a ověřování mluvčího.

Průběžná kontrola studia

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Kontrolovaná výuka

výuka není kontrolována, předmět je hodnocen na základě zkoušky nebo závěrečné zprávy

Nahoru