Detail práce

Improving Robustness of Speaker Recognition using Discriminative Techniques

Disertační práce Student: Novotný Ondřej Akademický rok: 2021/2022 Vedoucí: Černocký Jan, prof. Dr. Ing.
Název česky
Zvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních technik
Jazyk práce
anglický
Abstrakt

Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání  mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál.

Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou  jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory.

Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem.  Nejdříve je věnována pozornost  předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému.  Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek.

Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích.  Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení.

Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.

Klíčová slova

Rozpoznávání mluvčího, generativní trénování, diskriminativní trénování, obohacování řečového signálu, i-vektor, x-vektor, robustnost, šum, reverberace, neuronové sítě.

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
3. prosince 2021
Citace
NOVOTNÝ, Ondřej. Improving Robustness of Speaker Recognition using Discriminative Techniques. Brno, 2021. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-12-03. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1033/
BibTeX
@phdthesis{FITPT1033,
    author = "Ond\v{r}ej Novotn\'{y}",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Improving Robustness of Speaker Recognition using Discriminative Techniques",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/1033/"
}
Nahoru