Detail práce

Unsupervised Evaluation of Speaker Recognition System

Bakalářská práce Student: Odehnal Ondřej Akademický rok: 2021/2022 Vedoucí: Matějka Pavel, Ing., Ph.D.
Název česky
Evaluace systému na rozpoznávání mluvčího na neznámých datech
Jazyk práce
anglický
Abstrakt

Tato práce je vystavěna nad moderním systémem pro rozpoznávání mluvčího (SID) založeného na x-vektorech. Cílem bakalářské práce je navrhnout a experimentálně vyhodnotit techniky pro evaluaci SID systému za použití audio nahrávek bez anotace tj. bez znalosti mluvčího. Pro tento účel je z každé nahrávky bez anotace vytvořen embedding. Ty se poté používají pro shlukování nahrávek a následné vytvoření pseudo-anotací. Na těchto anotacích se SID systém evaluuje pomocí equal error rate (EER) metriky. Za účelem vytvoření pseudo-anotací byly navrženy tyto shlukovací algoritmy učení bez učitele: K-means, Gaussian mixture models (GMM) a aglomerativní shlukování. Po testování vyšel jakožto nejlepší experimentální postup K-means se Silhouette metrikou, která používá kosinovou podobnost jako míru vzdálenosti. Nejlepší metoda dosáhla 5,72 % EER s referenčním EER = 5,15 %, které bylo spočítané se znalostí anotace na části datasetu SITW dev-core-core. Podobné výsledky byly získány na části datasetu SITW eval-core-core s odhadnutým EER = 5,86 % a referenčním 5,08 %. Rozdíl mezi hodnotami tvoří 0,57 % pro eval-core-core a 0, 78% pro dev-core-core. Další testy na NIST SRE16 a VoxCeleb1 datasetech byly provedeny za účelem ověření správnosti navrženého postupu. Obecně se dá říct, že navržený testovací postup měl chybu přibližně 1 %, což je poměrně dobrý výsledek pro algoritmus učení bez učitele.

Klíčová slova

rozpoznávání mluvčího, verifikace mluvčího, učení bez učitele, shlukování, evaluace, GMM, AHC, EER, K-means

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
15. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

In your work you focused on predicting the EER which is a calibration independent technique. Would you have some comments or results that would address the actual performance such as actual DCF as defined by NIST? In other words would you be able to estimate quality of calibration in an unsupervised way?

Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Citace
ODEHNAL, Ondřej. Unsupervised Evaluation of Speaker Recognition System. Brno, 2022. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-15. Vedoucí práce Matějka Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/24991/
BibTeX
@bachelorsthesis{FITBT24991,
    author = "Ond\v{r}ej Odehnal",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Unsupervised Evaluation of Speaker Recognition System",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/24991/"
}
Nahoru