Evaluation and Optimization of Computational Costs in Speaker Recognition Systems

Název česky

Evaluace a optimalizace výpočetní náročnosti v systémech pro rozpoznání řečníka

Jazyk práce

anglický

Abstrakt

Cieľom tejto práce je navrhnúť hodnotiacu metriku, ktorá zahŕňa výpočetné náklady. Všeobecne výpočetné náklady nepredstavujú vo výskume problém, ale môžu byť problematické v komerčnom produkčnom systéme, kedy je rýchlosť dôležitá. Navrhnuté metriky rozširujú existujúci rámec pre hodnotenie od NIST a pridávajú k nim parametre pre časovú jednotku a náklady pre časovú jednotku. Tieto metriky sú aplikované na skutočný ASV a experimenty ukazujú potenciál pre hlbší výskum a možné použitie. Vrámci experimentov bola limitovaná maximálna dĺžka nahrávok, ale aj maximálne dĺžka rámcov pre spracovanie pri extrakcii x-vektorov. Obe optimalizácie znížili celkové výpočetné náklady a dosiahli priaznivé výsledky pre nové metriky. Na záver sú výsledky z experimentov porovnané a jednotlivé modifikácie ohodnotené a zoradené podľa nových metrík.

Klíčová slova

rozpoznávanie rečníka, evaluácia systémov na rospoznávanie rečníka, optimalizácia systémov na rozpoznanie rečníka, výpočetné náklady, evaluačné metriky

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

obhájeno, hodnocení C

Obhajoba

10. července 2020

Oponent

Silnova Anna, MSc., Ph.D.

Průběh obhajoby

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby

You propose a Modified DCF metric and Time Constrained Protocol. Do you think they are interchangeable or there are tasks when one should be preferred over the other? If yes, give an example.
In your work, you present two approaches to truncate the input utterances to reduce the processing time (A and B as referenced in the text). How do you think, what are the reasons for the approach B (limiting the number of speech frames for x-vector extraction) to outperform A (simply truncating the audio)?
Have you considered other strategies to reduce the processing time except for those two described in the thesis? If yes, what were they and what advantages and disadvantages they have compared to those that you've used?
Kolik metod na rozpoznávání řeči jste použila?
Dávaly by vámi použité metriky smysl i pro jinou metodu rozpoznávání řeči?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen

Citace

GREGUŠOVÁ, Sabína. Evaluation and Optimization of Computational Costs in Speaker Recognition Systems. Brno, 2020. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-10. Vedoucí práce Rohdin Johan A.. Dostupné z: https://www.fit.vut.cz/study/thesis/23008/

BibTeX

@bachelorsthesis{FITBT23008,
    author = "Sab\'{i}na Gregu\v{s}ov\'{a}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Evaluation and Optimization of Computational Costs in Speaker Recognition Systems",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23008/"
}