Detail práce

Robustní rozpoznávání mluvčího

Bakalářská práce Student: Profant Ján Akademický rok: 2015/2016 Vedoucí: Matějka Pavel, Ing., Ph.D.
Název anglicky
Robust Speaker Verification
Jazyk práce
český
Abstrakt

Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.

Klíčová slova

rozpoznávání mluvčího, Pravděpodobnostní Lineární Diskriminační Analýza, Within-class Covariance Correction, i-vektor

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
15. června 2016
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B).

Otázky u obhajoby
  1. Jaký účel má L2-normalizace i-vektorů před jejich vstupem do PLDA, je zde nutná?
  2. Jaký je účel využití UBM-GMM v SRE systému?
  3. Vysvětlete z čeho se z nahrávky extrahuje i-vektor (každý rámec, segment souvislé řeči z VAD, celá nahrávka).
  4. Jaká je výhoda použití i-vektoru proti supervektoru?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Drahanský Martin, prof. Ing., Dipl.-Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Španěl Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
PROFANT, Ján. Robustní rozpoznávání mluvčího. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-15. Vedoucí práce Matějka Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/18679/
BibTeX
@bachelorsthesis{FITBT18679,
    author = "J\'{a}n Profant",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Robustn\'{i} rozpozn\'{a}v\'{a}n\'{i} mluv\v{c}\'{i}ho",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18679/"
}
Nahoru