Detail práce

Neurální extrakce řeči cílového řečníka

Disertační práce Student: Žmolíková Kateřina Akademický rok: 2021/2022 Vedoucí: Černocký Jan, prof. Dr. Ing.
Název anglicky
Neural target speech extraction
Jazyk práce
český
Abstrakt

S rostoucím nasazením řečových technologií v praxi roste důležitost jejich robustnosti. Zejména zpracování řeči poškozené rušícími překrývajícími se řečníky je stále výzva. Přístupy separace řeči tento problém řeší rozkladem smíchané řeči na signály jednotlivých řečníků. Tyto metody v nedávné době výrazně pokročily s využitím vývoje v hlubokém učení.Ve spoustě aplikací, jako jsou chytré telefony nebo digitální domácí asistenti, je cílem zvýraznit řečový signál jednoho cílového řečníka, a potlačit ostatní řečníky a šum. V~této práci formulujeme tento problém jako extrakci řeči cílového řečníka a navrhujeme přímé řešení --- použití neuronové sítě, která na vstupu přijímá předregistrovanou nahrávku cílového řečníka a pozorovanou směs, a na výstupu vrací extrahovanou řeč cílového řečníka. Diskutujeme a experimentálně ukazujeme výhody tohoto přístupu ve srovnání s konvenční separací řeči. Výhody zahrnují nepotřebnost počítání řečníku ve směsi nebo lepší konzistenci výstupu pro delší nahrávky. Zkoumáme různé aspekty neurální extrakce řeči cílového řečníka, jako jsou embeddingy reprezentující řečníka, metody jak informovat neuronovou síť, vstupní a výstupní doména a ztrátová funkce.Dále demonstrujeme, jak kombinovat extrakci cílového řečníka s multi-kanálovými metodami, jako je beamforming založený na neurálních maskách nebo prostorové shlukování. Tyto kombinace využívají jak konvenčních statistických metod pro zpracování prostorové informace, tak silné modelovací schopnosti neuronových sítí.Na závěr aplikujeme extrakci řeči cílového řečníka na dva finální úkoly: automatické rozpoznávání řeči a diarizaci založenou na shlukování. Zkoumáme jak nejlépe zkombinovat předzpracování signálu s cílovými systémy včetně společné optimalizace, nebo trénování se slabou supervizí založenou na informaci o řečnících.

Klíčová slova

extrakce řeči cílového řečníka, neuronové sítě, multi-kanálové zpracování, rozpoznávání řeči více řečníků, diarizace řeči více řečníků

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
23. června 2022
Citace
ŽMOLÍKOVÁ, Kateřina. Neurální extrakce řeči cílového řečníka. Brno, 2021. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-23. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1009/
BibTeX
@phdthesis{FITPT1009,
    author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a}",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Neur\'{a}ln\'{i} extrakce \v{r}e\v{c}i c\'{i}lov\'{e}ho \v{r}e\v{c}n\'{i}ka",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/phd-thesis/1009/"
}
Nahoru