Detail práce
Robustní rozpoznávání mluvčího
Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.
rozpoznávání mluvčího, Pravděpodobnostní Lineární Diskriminační Analýza, Within-class Covariance Correction, i-vektor
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B).
- Jaký účel má L2-normalizace i-vektorů před jejich vstupem do PLDA, je zde nutná?
- Jaký je účel využití UBM-GMM v SRE systému?
- Vysvětlete z čeho se z nahrávky extrahuje i-vektor (každý rámec, segment souvislé řeči z VAD, celá nahrávka).
- Jaká je výhoda použití i-vektoru proti supervektoru?
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Drahanský Martin, prof. Ing., Dipl.-Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Španěl Michal, Ing., Ph.D. (UPGM FIT VUT), člen
@bachelorsthesis{FITBT18679, author = "J\'{a}n Profant", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Robustn\'{i} rozpozn\'{a}v\'{a}n\'{i} mluv\v{c}\'{i}ho", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2016, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/18679/" }