Fakulta informačních technologií VUT v Brně

Detail předmětu

Zpracování řečových signálů

ZRE Ak. rok 2018/2019 letní semestr 5 kreditů

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Garant předmětu

Jazyk výuky

česky

Zakončení

zkouška (písemná)

Rozsah

26 hod. přednášky, 2 hod. cvičení, 12 hod. pc laboratoře, 12 hod. projekty

Bodové hodnocení

51 zkouška, 14 půlsemestrální test, 6 laboratoře, 29 projekty

Zajišťuje ústav

Přednášející

Cvičící

Získané dovednosti, znalosti a kompetence z předmětu

Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Cíle předmětu

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Literatura studijní

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7

Literatura referenční

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 
  • Rabiner, L., Juang, B.H.: Fundamentals of Speech Recognition, Signal Processing, Prentice Hall, Engelwood Cliffs, NJ, 1993, ISBN 0-13-015157-2 

Osnova přednášek

  1. Úvod, aplikace zpracování řeči. 
  2. Číslicové zpracování řečových signálů.
  3. Tvorba a řeči a její signálový model.
  4. Předzpracování a základní parametry, cepstrum. 
  5. Lineárně-prediktivní model. 
  6. Určování základního tónu hlasu
  7. Kódování řeči - základy.
  8. Kódování řeči CELP. 
  9. Základy rozpoznávání řeči, DTW. 
  10. Skryté Markovovy modely HMM. 
  11. Systémy pro rozpoznávání řeči s velkým slovníkem (LVCSR). 
  12. Rozpoznávání mluvčího a jazyka. Využití neuronových sítí ve zpracování řeči. 
  13. Syntéza řeči z textu. 

Osnova numerických cvičení

  1. Paramatrizace, DTW, HMM.

Průběžná kontrola studia

  • půlsemestrální test 14b
  • projekt 29b
  • presentace výsledků na poč. cvičeních 6b

Rozvrh

DenTypTýdnyMístn.OdDoPSKSkupInfo
Popoč. labsudý N103 09:0010:50 1MIT
Útpoč. labsudý O204 17:0018:50 1MIT
Stzkouška2019-06-05 E104 09:0010:50 1MIT 2MIT 2. oprava
Stpřednáškavýuky E104 09:0010:50 1MIT 2MIT MGM xx
Stcvičení2019-04-24 E105 11:0012:50 1MIT 2MIT
Čtzkouška2019-05-16 E105 15:0017:50 1MIT 2MIT řádná
Čtzkouška2019-05-30 E104 15:0016:50 1MIT 2MIT 1. oprava

Zařazení předmětu ve studijních plánech

  • Program IT-MGR-2, obor MBI, libovolný ročník, povinně volitelný skupina S
  • Program IT-MGR-2, obor MBS, MIS, MMM, libovolný ročník, volitelný
  • Program IT-MGR-2, obor MGM, 1. ročník, povinný
  • Program IT-MGR-2, obor MIN, libovolný ročník, povinně volitelný skupina C
  • Program IT-MGR-2, obor MPV, libovolný ročník, povinně volitelný skupina G
  • Program IT-MGR-2, obor MSK, 2. ročník, povinně volitelný skupina B
Nahoru