Detail předmětu

Zpracování řeči a audia člověkem a počítačem

ASD Ak. rok 2025/2026 zimní semestr

Seznámení studentů inženýrství s principy zpracování zvukových a vizuálních signálů lidskými posluchači a stroji s cílem aplikovat tyto znalosti při navrhování technických systémů pro zpracování zvukových signálů. Studenti si uvědomí možnosti aplikace znalostí o lidském audiovizuálním vnímání při návrhu inženýrských systémů pro zpracování signálů v umělé inteligenci

Prerequisites: Curiosity and open mind

Okruhy otázek k SDZ:

  1. Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?
  2. Popište strukturu lidského ucha.
  3. Jak lidsky sluch provádí frekvenční analýzu zvuku?
  4. Jak ucho sděluje informace z ucha lidskému mozku?
  5. Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?
  6. Co je maskováni lidského sluchu? K čemu může být dobré a proč?
  7. Co je simultánní maskováni a maskování vpřed v lidském sluchu?
  8. Na čem závisí hlasitost zvuku?
  9. Na kterých frekvencích slyšíme nejlépe?
  10. Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.

Garant předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška (ústní)

Rozsah

  • 39 hod. přednášky

Bodové hodnocení

  • 100 bodů závěrečná zkouška

Zajišťuje ústav

Cíle předmětu

Seznámení studentů inženýrství s principy zpracování zvukových a vizuálních signálů lidskými posluchači a stroji s cílem aplikovat tyto znalosti při navrhování technických systémů pro zpracování zvukových signálů. Studenti si uvědomí možnosti aplikace znalostí o lidském audiovizuálním vnímání při návrhu inženýrských systémů pro zpracování signálů v umělé inteligenci

Literatura studijní

  • Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011.
  • Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
  • Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.

Osnova přednášek

Úvod

  • Propojení řeči a sluchu

Informace v psaném a mluveném jazyce

  • Měření informace
  • Kapacita kanálu
  • Přenos informací komunikačním kanálem
  • Informace v tištěném textu
  • Informace v řečovém signálu a v řečových zprávách

 

Základní vlastnosti sluchu

  • Současné a časové maskování
  • Kritické pásma sluchu
  • Vnímání výšky tónu
  • Čas ve vnímaní akustických signalů
  • Vnímání modulací signalu
  • Fyziologie sluchové periferie
  • Fyziologie vyšších sluchových stupňů
  • Zpětná vazba a její důsledky

 

Základní principy produkce řeči

  • Lineární model produkce řeči
  • Šíření zvuku ve vzduchu
  • Čtvrtvlnný rezonátor
  • Půlvlnné rezonátory
  • Důsledky zúžovani akustického traktu (zavedení redundancí ve frekvenci)

 

Dynamika řeči

  • Pohyby hlasového traktu
  • Korelace mezi pohyby hlasového traktu a dynamikou řečových obálek
  • Modulační spektrum řeči
  • Srozumitelnost řeči s modifikovanou dynamikou
  • Koartikulace (zavedení časových redundancí do řeči)

Krátkodobá spektrální analýza

  • Přehled Fourierovy transformace
  • Vzorkování a kvantizace
  • Krátkodobá Fourierova analýza
  • Princip neurčitosti ve spektrální analyze
  • Kepstrální analýza
  • Lineární prediktivní analýza
  • Aproximace spektrální obálky pomocí LP
  • Spektrální transformace LP
  • Perceptualní techniky pro odhad spektrální obálky
  • Využití spektrální dynamiky (RASTA filtry)

Zpracování s použitím dat

  • Lineární diskriminační analýza a návrh spektrálních projekcí
  • Lineární diskriminační analýza a návrh časových RASTA filtrů
  • Lineární diskriminační analýza a návrh 2D spektro-časových filtrů
  • Souvislosti mezi řečí a sluchem

 

Historie rozpoznávání řeči

  • Newton, Radio Rex, Spectrogram, první rozpoznávače a první poučení
  • Porovnávání šablon přiznaků
  • Principy stochastického rozpoznávání
  • Trénování a rozpoznávání s použitím skrytých markovských modelů
  • Umělé neuronové sítě
  • Odvození posteriorních pravděpodobností zvuků řeči (DNN/HMM hybridní metoda)
  • Alternativní použití umělých neuronových sítí (TANDEM)
  • Klasifikátor časových vzorů (TRAPS)
  • Součastné techniky

 

Rozpoznávání lidské řeči lidmi

  • Slova v kontextu a mimo kontext (paralelní kontextový kanál)
  • Rozpoznávání slabik filtrovaných horní a dolní propustí (Fletcher a kol.)
  • Přesnost rozpoznávání a index artikulace
  • Součin pravděpodobností chyb v dílčích pásmech
  • Možné implikace v inženýrství

Průběžná kontrola studia

Ústní zkouška.

Zařazení předmětu ve studijních plánech

  • Program DIT, libovolný ročník, povinně volitelný skupina O
  • Program DIT, libovolný ročník, povinně volitelný skupina O
  • Program DIT-EN (anglicky), libovolný ročník, povinně volitelný skupina O
  • Program DIT-EN (anglicky), libovolný ročník, povinně volitelný skupina O
Nahoru