Detail předmětu
Zpracování řeči a audia člověkem a počítačem
ASD Ak. rok 2025/2026 zimní semestr
Seznámení studentů inženýrství s principy zpracování zvukových a vizuálních signálů lidskými posluchači a stroji s cílem aplikovat tyto znalosti při navrhování technických systémů pro zpracování zvukových signálů. Studenti si uvědomí možnosti aplikace znalostí o lidském audiovizuálním vnímání při návrhu inženýrských systémů pro zpracování signálů v umělé inteligenci
Prerequisites: Curiosity and open mind
Okruhy otázek k SDZ:
- Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?
- Popište strukturu lidského ucha.
- Jak lidsky sluch provádí frekvenční analýzu zvuku?
- Jak ucho sděluje informace z ucha lidskému mozku?
- Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?
- Co je maskováni lidského sluchu? K čemu může být dobré a proč?
- Co je simultánní maskováni a maskování vpřed v lidském sluchu?
- Na čem závisí hlasitost zvuku?
- Na kterých frekvencích slyšíme nejlépe?
- Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.
Garant předmětu
Jazyk výuky
Zakončení
Rozsah
- 39 hod. přednášky
Bodové hodnocení
- 100 bodů závěrečná zkouška
Zajišťuje ústav
Cíle předmětu
Seznámení studentů inženýrství s principy zpracování zvukových a vizuálních signálů lidskými posluchači a stroji s cílem aplikovat tyto znalosti při navrhování technických systémů pro zpracování zvukových signálů. Studenti si uvědomí možnosti aplikace znalostí o lidském audiovizuálním vnímání při návrhu inženýrských systémů pro zpracování signálů v umělé inteligenci
Literatura studijní
- Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011.
- Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
- Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.
Osnova přednášek
Úvod
- Propojení řeči a sluchu
Informace v psaném a mluveném jazyce
- Měření informace
- Kapacita kanálu
- Přenos informací komunikačním kanálem
- Informace v tištěném textu
- Informace v řečovém signálu a v řečových zprávách
Základní vlastnosti sluchu
- Současné a časové maskování
- Kritické pásma sluchu
- Vnímání výšky tónu
- Čas ve vnímaní akustických signalů
- Vnímání modulací signalu
- Fyziologie sluchové periferie
- Fyziologie vyšších sluchových stupňů
- Zpětná vazba a její důsledky
Základní principy produkce řeči
- Lineární model produkce řeči
- Šíření zvuku ve vzduchu
- Čtvrtvlnný rezonátor
- Půlvlnné rezonátory
- Důsledky zúžovani akustického traktu (zavedení redundancí ve frekvenci)
Dynamika řeči
- Pohyby hlasového traktu
- Korelace mezi pohyby hlasového traktu a dynamikou řečových obálek
- Modulační spektrum řeči
- Srozumitelnost řeči s modifikovanou dynamikou
- Koartikulace (zavedení časových redundancí do řeči)
Krátkodobá spektrální analýza
- Přehled Fourierovy transformace
- Vzorkování a kvantizace
- Krátkodobá Fourierova analýza
- Princip neurčitosti ve spektrální analyze
- Kepstrální analýza
- Lineární prediktivní analýza
- Aproximace spektrální obálky pomocí LP
- Spektrální transformace LP
- Perceptualní techniky pro odhad spektrální obálky
- Využití spektrální dynamiky (RASTA filtry)
Zpracování s použitím dat
- Lineární diskriminační analýza a návrh spektrálních projekcí
- Lineární diskriminační analýza a návrh časových RASTA filtrů
- Lineární diskriminační analýza a návrh 2D spektro-časových filtrů
- Souvislosti mezi řečí a sluchem
Historie rozpoznávání řeči
- Newton, Radio Rex, Spectrogram, první rozpoznávače a první poučení
- Porovnávání šablon přiznaků
- Principy stochastického rozpoznávání
- Trénování a rozpoznávání s použitím skrytých markovských modelů
- Umělé neuronové sítě
- Odvození posteriorních pravděpodobností zvuků řeči (DNN/HMM hybridní metoda)
- Alternativní použití umělých neuronových sítí (TANDEM)
- Klasifikátor časových vzorů (TRAPS)
- Součastné techniky
Rozpoznávání lidské řeči lidmi
- Slova v kontextu a mimo kontext (paralelní kontextový kanál)
- Rozpoznávání slabik filtrovaných horní a dolní propustí (Fletcher a kol.)
- Přesnost rozpoznávání a index artikulace
- Součin pravděpodobností chyb v dílčích pásmech
- Možné implikace v inženýrství
Průběžná kontrola studia
Ústní zkouška.
Zařazení předmětu ve studijních plánech
- Program DIT, libovolný ročník, povinně volitelný skupina O
- Program DIT, libovolný ročník, povinně volitelný skupina O
- Program DIT-EN (anglicky), libovolný ročník, povinně volitelný skupina O
- Program DIT-EN (anglicky), libovolný ročník, povinně volitelný skupina O