Detail předmětu

Zpracování řeči a audia člověkem a počítačem

ASD Ak. rok 2020/2021 zimní semestr

Třídenní intenzivní kurz

Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování.

Okruhy otázek k SDZ:

  1. Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?

    Popište strukturu lidského ucha.

    Jak lidsky sluch provádí frekvenční analýzu zvuku?

    Jak ucho sděluje informace z ucha lidskému mozku?

    Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?

    Co je maskováni lidského sluchu? K čemu může být dobré a proč?

    Co je simultánní maskováni a dopředné maskování v lidském sluchu?
  2. Na čem závisí hlasitost zvuku?
  3. Na kterých frekvencích slyšíme nejlépe?
  4. Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.

Garant předmětu

Jazyk výuky

český

Zakončení

zkouška (ústní)

Rozsah

39 hod. přednášky

Bodové hodnocení

100 zkouška

Zajišťuje ústav

Přednášející

Získané dovednosti, znalosti a kompetence z předmětu

Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.

Cíle předmětu

Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy zpracování kognitivních signálů a uvede posluchače do některých důležitých principů lidského zpracování řeči a obrazu.

Literatura referenční

  • Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011. 
  • Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013. 
  • Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.

Osnova přednášek

První den

  • Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč. 
  • Základy teorie informace a klasifikace vzorů.
  • Základy tvorby řeči.
  • Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).

Druhý den

  • Základy zpracování zvuku člověkem.
  • Vnímání výšky tónu a jeho hlasitosti.
  • Vlastnosti sluchu ve spektrální a časové oblasti.
  • Fenomén maskování jednoho zvuku druhým.
  • Důležité poznatky o  zpracování řeči člověkem.

 Třetí den

  • Úvod do technik zpracování používajících modely lidského sluchu.
  • Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
  • Metody zpracování signálu využívající časové oblasti.
  • Dynamické příznaky odvozené ze signálu.
  • Zpracování řeči využívající principů frekvenčních kanálů.
  • Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.

Kontrolovaná výuka

Ústní zkouška.

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4, obor DVI4, libovolný ročník, volitelný
Nahoru