Fakulta informačních technologií VUT v Brně

Detail předmětu

Číslicové zpracování řeči

CZR Ak. rok 2005/2006 letní semestr 5 kreditů

Aktuální akademický rok

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně prediktivní model, cepstrum, určování základního tónu hlasu, kódování (časová oblast a vokodéry), rozpoznávání (DTW a HMM), syntéza. Software a knihovny pro zpracování řeči.

Garant předmětu

Jazyk výuky

česky

Zakončení

zkouška

Rozsah

26 hod. přednášky, 2 hod. cvičení, 12 hod. pc laboratoře, 12 hod. projekty

Bodové hodnocení

50 zkouška, 25 půlsemestrální test, 12 laboratoře, 13 projekty

Zajišťuje ústav

Přednášející

Stránky předmětu

Získané dovednosti, znalosti a kompetence z předmětu

Studenti se seznámí se základními metodami a algoritmy pro zpracování řečových signálů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Dovednosti, znalosti a kompetence obecné

Studenti prohloubí své znalosti ve zpracování signálů. Zdokonalí se v používání matematického a vizualizačního SW Matlab a v používání C/C++. Získají základní vědomosti o on-line zpracování zvuku v OS Windows a Linux. Během projektů si osvojí samostatnou vývojovou práci.

Cíle předmětu

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.

Požadované prerekvizitní znalosti a dovednosti

Základní znalosti ze zpracování signálů.

Literatura studijní

  • Krčmová, N.: Fonetika a fonologie: zvuková stavba současné češtiny. ISBN 80-210-0137-2. Masarykova univerzita, Brno, 1990
  • Rabiner, L. Juang, B.H.: Fundamentals of speech recognition, Signal Processing, Prentice Hall, Engelwood Cliffs, NJ, 1993
  • Rabiner, L.R., Schaeffer, L.W.: Digital processing of speech signals, Prentice Hall, 1978

Literatura referenční

  • Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995. K disposici v knihovně FIT.
  • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley and Sons, 2000. K disposici v knihovně FIT.
  • Young, S., Jansen, J., Odell, J., Ollason, D., Woodland, P.: The HTK book, Entropics Cambridge Research Lab., 1996, Cambridge, UK. Výborný úvod do HMM, ke stažení na http://htk.eng.cam.ac.uk/
  • http://www.fit.vutbr.cz/~cernocky/speech/ - přednášky, cvika, funkce. Materiálu zde bude postupně přibývat.
  • http://www.fit.vutbr.cz/~cernocky/oldspeech/ - přednášky, cvika, funkce. Stará verze, ale zvláště některé laboratoře (vše v Matlabu) by mohly být zajímavé

Osnova přednášek

  1. Organisace kursu, aplikace, vědy, informační obsah řeči, dema.
  2. Číslicové zpracování řečových signálů: záznam řečového signálu - vzorkování, kvantování. Získání spektra řeči - Fourierova transformace - spojitý čas, co se děje, když navzorkujeme. Diskrétní Fourierova transformace. Náhodné signály, spektrální hustota výkonu. Úprava řeči - filtrace. Frekvenční charakteristiky filtru.
  3. Předzpracování řeči: střední hodnota, preemfáze, rámce, základní parametry, Spektrogram. Tvorba řeči: Řečové ústrojí a jeho signálový model - hlasivky a artikulační trakt vs. buzení a filtr. Základní charakteristiky v čase a ve spektru: vliv buzení a filtru. Formanty. Co je vidět na short-term a long-term spektrogramu. Jak od sebe oddělit buzení a filtr: cepstrum + MFCC.
  4. Lineárně-prediktivní model: K čemu slouží ? Chceme pouze charakteristiky hlas. traktu, ne buzení - aplikace v kódování a rozpoznávání. Předpověď následujícího vzorku z předcházejících - lineární predikce (LP). Chyba LP. Získání chyby LP jediným filtrem. Určení modelu artikulačního ústrojí pomocí pomocí LP analýzy. Spektrum pomocí lineární predikce. Parametry odvozené z LP - LAR a LSF. LPC-cepstrum.
  5. Určování základního tónu. Terminologie. Charakteristiky základního tónu mužů, žen a dětí. Využití v systémech zpracování řeči. Metody založené na autokorelační funkci. NCCF. Dlouhodobý prediktor a cepstrální analýza pro určení základního tónu. Spolehlivost a problémy detektorů základního tónu.
  6. Kódování řeči I: Cíl kódování. Bitový tok, objektivní a subjektivní měření kvality. Dělení kodérů podle bit. toku a kvality. Kódování signálu v časové oblasti. Vokodéry - LPC. Vektorové kvantování v kódování řeči.
  7. Kódování II. - CELP, Kódování v GSM: GSM, GSM-EFR, GSM-HR, Voice over IP. Úvod do rozpoznávání - úkol, klasifikace: izolovaná slova - spojená slova - spojitá řeč, závislé na mluvčím - nezávislé na mluvčím. Základní funkční bloky. Detekce řečové aktivity pro izolovaná slova.
  8. Rozpozonávání DTW Rozpoznávání založené na vzdálenostech řečových rámců - různé definice vzdáleností. Časování: lineární úprava, dynamické programování (Dynamic Time Warping DTW). Skryté Markovovy modely (HMM I.): Úvod do HMMs: proč to děláme a vztah s DTW. Struktura modelu, Gaussova rozložení, sekvence stavů
  9. HMM II. pravděpodobnost promluvy podle sekvence stavů, Baum Welchova a Viterbiho pravděpodobnost. Trénování modelů: Baum Welch, rozpoznávání - Viterbi. Token passing. Spojená slova.
  10. HMM III. Plynulá řeč s velkým slovníkem: Rozpoznávání pomocí menších jednotek - fonémy... Fonetická stavba jazyka. Samohlásky a souhlásky, charakteristiky, dělení fonémů. Mezinárodní normy pro označování fonémů: IPA, SAMPA, TIMIT. Koartikulace. Aplikace v rozpoznávání: kontextově závislé trifony, Velký slovník, modelování jazyka, lattice rescoring, forced alignment [Martin Karafiát].
  11. Parametry pro rozpoznávání [Lukáš Burget, Petr Schwarz, Pavel Matějka]. Co od nich chceme - potlačení pitche, dekorelace, souvislost se spektrální obálkou. Jak to děláme a co používáme: LPCC, MFCC, pro dekorelaci PCA, LDA, HLDA, pro menší závislost na kanálu normalizaci. Další triky s features - delta, delta-delta. ``Hot-topics v parametrizaci'': TRAPs a FeatureNet, neuronové sítě. Tools pro zpracování řeči.
  12. Syntéza řeči: Struktura syntezátoru. Převod textu do mluvené podoby: text-to-speech. Text normalization. Prozodie (melodie, přízvuky, časování) v syntéze řeči. Jednotky pro syntézu - ruční a automatický výběr (corpus-based). Generování signálu v časové a frekvenční oblasti. Metody PSOLA a HNM. Aplikace. SW pro syntézu: EPOS, MBROLA, Festival.
  13. Další témata ve zpracování řeči:
    • identifikace/verifikace řečníka (principy, pojem chybného přijetí, chybného odmítnutí, cost function, optimální pracovní bod, EER). [Černocký].
    • Rozpoznávání fonémů [Petr Schwarz, Petr Jenderka]
    • LVCSR [Martin Karafiát]
    • Recognizer merging [Lukáš Burget]
    • Very Low Bit Rate coding [Petr Motlíček, Černocký]
    • audio-video rozpoznávání [Petr Motlíček]
    • řečové databáze [Černocký].

Osnova numerických cvičení

Numerické cvičení 3 hodiny: číslicový filtr, LPC, DTW, HMM

Osnova laboratorních cvičení

  1. Zpracování řeči v Matlabu: čtení/zápis zvukových souborů, základní operace, ukládání, nahrávání.
  2. Zpracování signálů v Matlabu: návrh filtru, póly, nuly frekvenční charakteristiky, filtrace, Spektrální analýza: FT, PSD.
  3. hraní se zvukem v C - třída pro vstup zvuku PROJEKT 1: Udělat jednoduchý frekv. analyzátor pomocí FFT, kterou dodáme - výstup pomocí ascii znaků (překreslování obrazovky, výška sloupečku odpovídá energii v pásmu...).
  4. LPC v C: Korelace, Levinson a Durbin a funkce na výpočet energie. Check s Matlabem pro zvukový soubor. Příprava na kódování - uložení do jasné struktury.
  5. NCCF a detekce základního tónu, nejprve v Matlabu, pak v C, určení prahů. Uložení do struktury. Advanced: vyhlazení odhadu mediánovým filtrem.
  6. PROJEKT 2: - plný kodéru a dekodéru LPC v C (bez kvantování parametrů). Advanced: přehrávání on-line pomocí OSS (nastudovat).
  7. Příprava na rozpoznávání: LPCC, detekce řečové aktivity a ukládání zvukových souborů a souborů s parametry (pro trénování HMM nebo jako reference pro DTW), příprava na volání rozpoznávače.
  8. PROJEKT 3: plný on-line rozpoznávač s DTW (detekce ticha - rozsekání na slova - každé slovo je srovnáno se vzory, které si předtím musíme parametrizovat a uložit).
  9. HTK - studenti si namluví malou databázi speaker-independent číslovek, pak HTK: - prototypy, trénování, rozpoznávání, vyhodnocení. Uschovat modely ! Budou potřeba na projekt 4...
  10. Příprava na HMM rozpoznávač: Seznámení s dekodérem Lukáše Burgeta - čtení modelů, Funkce pro MFCC bude k disposici, ověření s HTK.
  11. PROJEKT 4: HMM rozpoznávač: dopsání výpočtu výstupní pravděpodobnosti, napsání Viterbiho pomocí token passing interfacování s parametrizací a detektorem řeč. aktivity. Advanced: multi-threading a vlákna (jedno nahrává, druhé parametrizuje, třetí detekuje aktivitu, čtvrté rozpoznává!).
  12. Syntéza: databáze s fonetickými značkami, pak syntéza z textu pomocí konkatenace: Konkatenace signálů s opravou energie. Advanced: použití HNM syntézy.

Osnova počítačových cvičení

  1. Zpracování řeči v Matlabu: čtení/zápis zvukových souborů, základní operace, ukládání, nahrávání.
  2. Zpracování signálů v Matlabu: návrh filtru, póly, nuly frekvenční charakteristiky, filtrace, Spektrální analýza: FT, PSD.
  3. hraní se zvukem v C - třída pro vstup zvuku PROJEKT 1: Udělat jednoduchý frekv. analyzátor pomocí FFT, kterou dodáme - výstup pomocí ascii znaků (překreslování obrazovky, výška sloupečku odpovídá energii v pásmu...).
  4. LPC v C: Korelace, Levinson a Durbin a funkce na výpočet energie. Check s Matlabem pro zvukový soubor. Příprava na kódování - uložení do jasné struktury.
  5. NCCF a detekce základního tónu, nejprve v Matlabu, pak v C, určení prahů. Uložení do struktury. Advanced: vyhlazení odhadu mediánovým filtrem.
  6. PROJEKT 2: - plný kodéru a dekodéru LPC v C (bez kvantování parametrů). Advanced: přehrávání on-line pomocí OSS (nastudovat).
  7. Příprava na rozpoznávání: LPCC, detekce řečové aktivity a ukládání zvukových souborů a souborů s parametry (pro trénování HMM nebo jako reference pro DTW), příprava na volání rozpoznávače.
  8. PROJEKT 3: plný on-line rozpoznávač s DTW (detekce ticha - rozsekání na slova - každé slovo je srovnáno se vzory, které si předtím musíme parametrizovat a uložit).
  9. HTK - studenti si namluví malou databázi speaker-independent číslovek, pak HTK: - prototypy, trénování, rozpoznávání, vyhodnocení. Uschovat modely ! Budou potřeba na projekt 4...
  10. Příprava na HMM rozpoznávač: Seznámení s dekodérem Lukáše Burgeta - čtení modelů, Funkce pro MFCC bude k disposici, ověření s HTK.
  11. PROJEKT 4: HMM rozpoznávač: dopsání výpočtu výstupní pravděpodobnosti, napsání Viterbiho pomocí token passing interfacování s parametrizací a detektorem řeč. aktivity. Advanced: multi-threading a vlákna (jedno nahrává, druhé parametrizuje, třetí detekuje aktivitu, čtvrté rozpoznává!).
  12. Syntéza: databáze s fonetickými značkami, pak syntéza z textu pomocí konkatenace: Konkatenace signálů s opravou energie. Advanced: použití HNM syntézy.

Osnova ostatní - projekty, práce

viz program počítačových laboratoří

Průběžná kontrola studia

  1. 4 projekty po 8-ti bodech - 32
  2. půlsemestrálka - pouze teoretické otázky - 18
  3. semestrálka - teorie i příklady - 50
  • Obě zkoušky se všemi materiály.
  • Projekty: Ke každému hlavně odevzdat software + minimální dokumentaci (jak se to zkompiluje a spustí, a co je tam použito za algoritmy).
Hranice pro úspěšnou zkoušku podle pravidel ECTS - 50 bodů.
Nahoru