Robustní rozpoznávání mluvčího

Název anglicky

Robust Speaker Verification

Jazyk práce

český

Abstrakt

Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.

Klíčová slova

rozpoznávání mluvčího, Pravděpodobnostní Lineární Diskriminační Analýza, Within-class Covariance Correction, i-vektor

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

obhájeno, hodnocení B

Obhajoba

15. června 2016

Oponent

Novotný Ondřej, Ing., Ph.D.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B).

Otázky u obhajoby

Jaký účel má L2-normalizace i-vektorů před jejich vstupem do PLDA, je zde nutná?
Jaký je účel využití UBM-GMM v SRE systému?
Vysvětlete z čeho se z nahrávky extrahuje i-vektor (každý rámec, segment souvislé řeči z VAD, celá nahrávka).
Jaká je výhoda použití i-vektoru proti supervektoru?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Drahanský Martin, prof. Ing., Dipl.-Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Španěl Michal, Ing., Ph.D. (UPGM FIT VUT), člen

Citace

PROFANT, Ján. Robustní rozpoznávání mluvčího. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-15. Vedoucí práce Matějka Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/18679/

BibTeX

@bachelorsthesis{FITBT18679,
    author = "J\'{a}n Profant",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Robustn\'{i} rozpozn\'{a}v\'{a}n\'{i} mluv\v{c}\'{i}ho",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18679/"
}