Fakulta informačních technologií VUT v Brně

Detail předmětu

Systémy zpracování řeči

SRE Ak. rok 2009/2010 zimní semestr 5 kreditů

Fonetika a fonologie. Statistické rozpoznávání vzorů. Trénování a adaptace HMM. Rozpoznávání HMM. Rozpoznávání fonémů. Detekce klíčových slov a vyhledávání. Identifikace a verifikace mluvčího. Identifikace jazyka. Kódování řeči CELP. Jazykové modelování. Psycholingvistika. Pravděpodobnostní parsování.

Garant předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška (písemná)

Rozsah

39 hod. přednášky, 13 hod. projekty

Bodové hodnocení

50 zkouška, 15 půlsemestrální test, 35 projekty

Zajišťuje ústav

Přednášející

Získané dovednosti, znalosti a kompetence z předmětu

Studenti si rozšíří vědomosti získalané v základním kursu o zpracování řečových signálů a zpracování přirozeného jazyka. Získají přehled o metodách v současnosti implementovaných v průmyslových aplikacích (GSM telefony nebo komerčně dostupné rozpoznávače).  Seznámí se s perspektivními metodami existujícími ve výzkumné oblasti.  Prohloubí své znalosti zpracování přirozeného jazyka a jazykového modelování. Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro zpracování řeči v akademické i průmyslové sféře.

Cíle předmětu

Rozšířit vědomosti o stavbě jazyka (fonetika, fonologie) a zorientovat se ve statistických klasifikátorech. Získat přehled o pokročilých metodách rozpoznávání a kódování řeči. Seznámit se s pokročilými metodami jazykového modelování a syntaktické analýzy.

Prerekvizity

Literatura studijní

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0.
  • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7.

Literatura referenční

  • Gussenhoven, J. and Jacobs, H.: Understanding Phonology, Oxford University Press, 1998, ISBN: 0-340-69218-9
  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0.
  • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7.
  • Moore, B.C.J.: An introduction to the psychology of hearing, Academic Press, 1989, ISBN 0-12-505627-3.
  • Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998, ISBN 0-262-10066-5.
  • Manning, C. and Schütze, H.: Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Osnova přednášek

  1. Fonetika a fonologie - struktura slabik, fonologické procesy a rozlišující rysy.
  2. Statistické rozpoznávání vzorů I. - Bayesovský rámec, Maximum likelihood učení, Gaussian mixture models. Parametry pro GMM modelování.
  3. Statistické rozpoznávání vzorů II. - umělé neuronové sítě, Support vector machines. Modelování sekvencí - skryté Markovovy modely HMM.
  4. Trénování a adaptace HMM  - MLLR, MAP, diskriminativníé trénování.
  5. Rozpoznávání HMM  - výslovnostní slovníky, rozpoznávací sítě, jazykový model, dekódování, lattices.
  6. Rozpoznávání fonémů. Detekce klíčových slov a vyhledávání - LVCSR, akustické, fonémové lattices. Figure of Merit.
  7. Identifikace a verifikace mluvčího - GMM, SVM. Normalizace a adaptace na přenosový kanál - feature mapping, eigen-voices a nuissance attributes projection (NAP). Vyhodnocení ověřování mluvčího - DET křivky, EER, cost function.
  8. Identifikace jazyka - akustická vs. fonotaktická, vyhodnocení.
  9. Kódování řeči - CELP - adaptivní a stochastická kódová kniha, GSM standardy.
  10. Jazykové modelování I. - n-gramové modely, modely založené na třídách.
  11. Jazykové modelování  II. - příznaky specifické pro jazyk, factored-language models
  12. Psycholingvistika - model rozpoznávání slov, slovní asociace. 
  13. Pravděpodobnostní parsování - algoritmus inside-outside, závislostní parsování.

Průběžná kontrola studia

  • půlsemestrální test - 20b
  • prezentace projektů - 30b
  • zkouška - 50b
Nahoru