Improving Robustness of Speaker Recognition using Discriminative Techniques

Název česky

Zvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních technik

Jazyk práce

anglický

Abstrakt

Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál.

Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory.

Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem. Nejdříve je věnována pozornost předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému. Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek.

Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích. Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení.

Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.

Klíčová slova

Rozpoznávání mluvčího, generativní trénování, diskriminativní trénování, obohacování řečového signálu, i-vektor, x-vektor, robustnost, šum, reverberace, neuronové sítě.

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Výpočetní technika a informatika, obor Výpočetní technika a informatika

Soubory

Stav

obhájeno

Obhajoba

3. prosince 2021

Citace

NOVOTNÝ, Ondřej. Improving Robustness of Speaker Recognition using Discriminative Techniques. Brno, 2021. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-12-03. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1033/

BibTeX

@phdthesis{FITPT1033,
    author = "Ond\v{r}ej Novotn\'{y}",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Improving Robustness of Speaker Recognition using Discriminative Techniques",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/1033/"
}