Detail předmětu

Číslicové zpracování řeči

CZR Ak. rok 2005/2006 letní semestr 5 kreditů

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně prediktivní model, cepstrum, určování základního tónu hlasu, kódování (časová oblast a vokodéry), rozpoznávání (DTW a HMM), syntéza. Software a knihovny pro zpracování řeči.

Garant předmětu

Černocký Jan, prof. Dr. Ing. (UPGM)

Jazyk výuky

česky

Zakončení

zkouška

Rozsah

26 hod. přednášky
2 hod. cvičení
12 hod. pc laboratoře
12 hod. projekty

Zajišťuje ústav

Ústav počítačové grafiky a multimédií (UPGM)

Získané dovednosti, znalosti a kompetence z předmětu

Studenti se seznámí se základními metodami a algoritmy pro zpracování řečových signálů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Studenti prohloubí své znalosti ve zpracování signálů. Zdokonalí se v používání matematického a vizualizačního SW Matlab a v používání C/C++. Získají základní vědomosti o on-line zpracování zvuku v OS Windows a Linux. Během projektů si osvojí samostatnou vývojovou práci.

Cíle předmětu

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Požadované prerekvizitní znalosti a dovednosti

Základní znalosti ze zpracování signálů.

Literatura studijní

Krčmová, N.: Fonetika a fonologie: zvuková stavba současné češtiny. ISBN 80-210-0137-2. Masarykova univerzita, Brno, 1990
Rabiner, L. Juang, B.H.: Fundamentals of speech recognition, Signal Processing, Prentice Hall, Engelwood Cliffs, NJ, 1993
Rabiner, L.R., Schaeffer, L.W.: Digital processing of speech signals, Prentice Hall, 1978

Literatura referenční

Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995. K disposici v knihovně FIT.
Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley and Sons, 2000. K disposici v knihovně FIT.
Young, S., Jansen, J., Odell, J., Ollason, D., Woodland, P.: The HTK book, Entropics Cambridge Research Lab., 1996, Cambridge, UK. Výborný úvod do HMM, ke stažení na http://htk.eng.cam.ac.uk/
http://www.fit.vutbr.cz/~cernocky/speech/ - přednášky, cvika, funkce. Materiálu zde bude postupně přibývat.
http://www.fit.vutbr.cz/~cernocky/oldspeech/ - přednášky, cvika, funkce. Stará verze, ale zvláště některé laboratoře (vše v Matlabu) by mohly být zajímavé

Osnova přednášek

Organisace kursu, aplikace, vědy, informační obsah řeči, dema.
Číslicové zpracování řečových signálů: záznam řečového signálu - vzorkování, kvantování. Získání spektra řeči - Fourierova transformace - spojitý čas, co se děje, když navzorkujeme. Diskrétní Fourierova transformace. Náhodné signály, spektrální hustota výkonu. Úprava řeči - filtrace. Frekvenční charakteristiky filtru.
Předzpracování řeči: střední hodnota, preemfáze, rámce, základní parametry, Spektrogram. Tvorba řeči: Řečové ústrojí a jeho signálový model - hlasivky a artikulační trakt vs. buzení a filtr. Základní charakteristiky v čase a ve spektru: vliv buzení a filtru. Formanty. Co je vidět na short-term a long-term spektrogramu. Jak od sebe oddělit buzení a filtr: cepstrum + MFCC.
Lineárně-prediktivní model: K čemu slouží ? Chceme pouze charakteristiky hlas. traktu, ne buzení - aplikace v kódování a rozpoznávání. Předpověď následujícího vzorku z předcházejících - lineární predikce (LP). Chyba LP. Získání chyby LP jediným filtrem. Určení modelu artikulačního ústrojí pomocí pomocí LP analýzy. Spektrum pomocí lineární predikce. Parametry odvozené z LP - LAR a LSF. LPC-cepstrum.
Určování základního tónu. Terminologie. Charakteristiky základního tónu mužů, žen a dětí. Využití v systémech zpracování řeči. Metody založené na autokorelační funkci. NCCF. Dlouhodobý prediktor a cepstrální analýza pro určení základního tónu. Spolehlivost a problémy detektorů základního tónu.
Kódování řeči I: Cíl kódování. Bitový tok, objektivní a subjektivní měření kvality. Dělení kodérů podle bit. toku a kvality. Kódování signálu v časové oblasti. Vokodéry - LPC. Vektorové kvantování v kódování řeči.
Kódování II. - CELP, Kódování v GSM: GSM, GSM-EFR, GSM-HR, Voice over IP. Úvod do rozpoznávání - úkol, klasifikace: izolovaná slova - spojená slova - spojitá řeč, závislé na mluvčím - nezávislé na mluvčím. Základní funkční bloky. Detekce řečové aktivity pro izolovaná slova.
Rozpozonávání DTW Rozpoznávání založené na vzdálenostech řečových rámců - různé definice vzdáleností. Časování: lineární úprava, dynamické programování (Dynamic Time Warping DTW). Skryté Markovovy modely (HMM I.): Úvod do HMMs: proč to děláme a vztah s DTW. Struktura modelu, Gaussova rozložení, sekvence stavů
HMM II. pravděpodobnost promluvy podle sekvence stavů, Baum Welchova a Viterbiho pravděpodobnost. Trénování modelů: Baum Welch, rozpoznávání - Viterbi. Token passing. Spojená slova.
HMM III. Plynulá řeč s velkým slovníkem: Rozpoznávání pomocí menších jednotek - fonémy... Fonetická stavba jazyka. Samohlásky a souhlásky, charakteristiky, dělení fonémů. Mezinárodní normy pro označování fonémů: IPA, SAMPA, TIMIT. Koartikulace. Aplikace v rozpoznávání: kontextově závislé trifony, Velký slovník, modelování jazyka, lattice rescoring, forced alignment [Martin Karafiát].
Parametry pro rozpoznávání [Lukáš Burget, Petr Schwarz, Pavel Matějka]. Co od nich chceme - potlačení pitche, dekorelace, souvislost se spektrální obálkou. Jak to děláme a co používáme: LPCC, MFCC, pro dekorelaci PCA, LDA, HLDA, pro menší závislost na kanálu normalizaci. Další triky s features - delta, delta-delta. ``Hot-topics v parametrizaci'': TRAPs a FeatureNet, neuronové sítě. Tools pro zpracování řeči.
Syntéza řeči: Struktura syntezátoru. Převod textu do mluvené podoby: text-to-speech. Text normalizati

Osnova numerických cvičení

Numerické cvičení 3 hodiny: číslicový filtr, LPC, DTW, HMM

Osnova počítačových cvičení

Zpracování řeči v Matlabu: čtení/zápis zvukových souborů, základní operace, ukládání, nahrávání.
Zpracování signálů v Matlabu: návrh filtru, póly, nuly frekvenční charakteristiky, filtrace, Spektrální analýza: FT, PSD.
hraní se zvukem v C - třída pro vstup zvuku PROJEKT 1: Udělat jednoduchý frekv. analyzátor pomocí FFT, kterou dodáme - výstup pomocí ascii znaků (překreslování obrazovky, výška sloupečku odpovídá energii v pásmu...).
LPC v C: Korelace, Levinson a Durbin a funkce na výpočet energie. Check s Matlabem pro zvukový soubor. Příprava na kódování - uložení do jasné struktury.
NCCF a detekce základního tónu, nejprve v Matlabu, pak v C, určení prahů. Uložení do struktury. Advanced: vyhlazení odhadu mediánovým filtrem.
PROJEKT 2: - plný kodéru a dekodéru LPC v C (bez kvantování parametrů). Advanced: přehrávání on-line pomocí OSS (nastudovat).
Příprava na rozpoznávání: LPCC, detekce řečové aktivity a ukládání zvukových souborů a souborů s parametry (pro trénování HMM nebo jako reference pro DTW), příprava na volání rozpoznávače.
PROJEKT 3: plný on-line rozpoznávač s DTW (detekce ticha - rozsekání na slova - každé slovo je srovnáno se vzory, které si předtím musíme parametrizovat a uložit).
HTK - studenti si namluví malou databázi speaker-independent číslovek, pak HTK: - prototypy, trénování, rozpoznávání, vyhodnocení. Uschovat modely ! Budou potřeba na projekt 4...
Příprava na HMM rozpoznávač: Seznámení s dekodérem Lukáše Burgeta - čtení modelů, Funkce pro MFCC bude k disposici, ověření s HTK.
PROJEKT 4: HMM rozpoznávač: dopsání výpočtu výstupní pravděpodobnosti, napsání Viterbiho pomocí token passing interfacování s parametrizací a detektorem řeč. aktivity. Advanced: multi-threading a vlákna (jedno nahrává, druhé parametrizuje, třetí detekuje aktivitu, čtvrté rozpoznává!).
Syntéza: databáze s fonetickými značkami, pak syntéza z textu pomocí konkatenace: Konkatenace signálů s opravou energie. Advanced: použití HNM syntézy.

Průběžná kontrola studia

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Kontrolovaná výuka

4 projekty po 8-ti bodech - 32
půlsemestrálka - pouze teoretické otázky - 18
semestrálka - teorie i příklady - 50

Obě zkoušky se všemi materiály.
Projekty: Ke každému hlavně odevzdat software + minimální dokumentaci (jak se to zkompiluje a spustí, a co je tam použito za algoritmy).

Hranice pro úspěšnou zkoušku podle pravidel ECTS - 50 bodů.