Detail práce

Optimization of Gaussian Mixture Subspace Models and Related Scoring Algorithms in Speaker Verification

Disertační práce Student: Glembek Ondřej Akademický rok: 2012/2013 Vedoucí: Burget Lukáš, doc. Ing., Ph.D.
Název česky
Optimalizace modelování gaussovských směsí v podprostorech a jejich skórování v rozpoznávání mluvčího
Jazyk práce
anglický
Abstrakt

Tato práce pojednává o modelování v podprostoru parametrů směsí gaussovských rozložení pro rozpoznávání mluvčího. Práce se skládá ze tří částí. První část je věnována skórovacím metodám při použití sdružené faktorové analýzy k modelování mluvčího. Studované metody se liší převážně v tom, jak se vypořádávají s variabilitou kanálu testovacích nahrávek. Metody jsou prezentovány v souvislosti s obecnou formou funkce pravděpodobnosti pro sdruženou faktorovou analýzu a porovnány jak z hlediska přesnosti, tak i z hlediska rychlosti.  Je zde prokázáno, že použití lineární aproximace pravděpodobnostní funkce dává výsledky srovnatelné se standardním vyhodnocením pravděpodobnosti při dramatickém zjednodušení matematického zápisu a tím i zvýšení rychlosti vyhodnocování.

Druhá část pojednává o extrakci tzv. i-vektorů, tedy nízkodimenzionálních reprezentací nahrávek. Práce prezentuje dva přístupy ke zjednodušení extrakce. Motivací pro tuto část bylo jednak urychlení extrakce i-vektorů, jednak nasazení této úspěšné techniky na jednoduchá zařízení typu mobilní telefon, a také matematické zjednodušení umožněňující využití numerických optimalizačních metod pro diskriminativní trénování.  Výsledky ukazují, že na dlouhých nahrávkách je zrychlení vykoupeno poklesem úspěšnosti rozpoznávání, avšak na krátkých nahrávkách, kde je úspěšnost rozpoznávání nízká, se rozdíly úspěšnosti stírají.
Třetí část se zabývá diskriminativním trénováním v oblasti rozpoznávání mluvčího. Jsou zde shrnuty poznatky z předchozích prací zabývajících se touto problematikou. Kapitola navazuje na poznatky z předchozích dvou částí a pojednává o diskriminativním trénování parametrů extraktoru i-vektorů.  Výsledky ukazují, že při klasickém trénování extraktoru a následném diskriminatviním přetrénování tyto metody zvyšují úspěšnost.
Klíčová slova

rozpoznávání mluvčího, směs gaussovských rozložení, modelování v podprostoru parametrů, i-vector, sdružená faktorová analýza, diskriminativní trénování

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
13. listopadu 2012
Citace
GLEMBEK, Ondřej. Optimization of Gaussian Mixture Subspace Models and Related Scoring Algorithms in Speaker Verification. Brno, 2012. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2012-11-13. Vedoucí práce Burget Lukáš. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/209/
BibTeX
@phdthesis{FITPT209,
    author = "Ond\v{r}ej Glembek",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Optimization of Gaussian Mixture Subspace Models and Related Scoring Algorithms in Speaker Verification",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2012,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/209/"
}
Nahoru