Detail práce
Neurální extrakce řeči cílového řečníka
S rostoucím nasazením řečových technologií v praxi roste důležitost jejich robustnosti. Zejména zpracování řeči poškozené rušícími překrývajícími se řečníky je stále výzva. Přístupy separace řeči tento problém řeší rozkladem smíchané řeči na signály jednotlivých řečníků. Tyto metody v nedávné době výrazně pokročily s využitím vývoje v hlubokém učení.Ve spoustě aplikací, jako jsou chytré telefony nebo digitální domácí asistenti, je cílem zvýraznit řečový signál jednoho cílového řečníka, a potlačit ostatní řečníky a šum. V~této práci formulujeme tento problém jako extrakci řeči cílového řečníka a navrhujeme přímé řešení --- použití neuronové sítě, která na vstupu přijímá předregistrovanou nahrávku cílového řečníka a pozorovanou směs, a na výstupu vrací extrahovanou řeč cílového řečníka. Diskutujeme a experimentálně ukazujeme výhody tohoto přístupu ve srovnání s konvenční separací řeči. Výhody zahrnují nepotřebnost počítání řečníku ve směsi nebo lepší konzistenci výstupu pro delší nahrávky. Zkoumáme různé aspekty neurální extrakce řeči cílového řečníka, jako jsou embeddingy reprezentující řečníka, metody jak informovat neuronovou síť, vstupní a výstupní doména a ztrátová funkce.Dále demonstrujeme, jak kombinovat extrakci cílového řečníka s multi-kanálovými metodami, jako je beamforming založený na neurálních maskách nebo prostorové shlukování. Tyto kombinace využívají jak konvenčních statistických metod pro zpracování prostorové informace, tak silné modelovací schopnosti neuronových sítí.Na závěr aplikujeme extrakci řeči cílového řečníka na dva finální úkoly: automatické rozpoznávání řeči a diarizaci založenou na shlukování. Zkoumáme jak nejlépe zkombinovat předzpracování signálu s cílovými systémy včetně společné optimalizace, nebo trénování se slabou supervizí založenou na informaci o řečnících.
extrakce řeči cílového řečníka, neuronové sítě, multi-kanálové zpracování, rozpoznávání řeči více řečníků, diarizace řeči více řečníků
@phdthesis{FITPT1009, author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a}", type = "Diserta\v{c}n\'{i} pr\'{a}ce", title = "Neur\'{a}ln\'{i} extrakce \v{r}e\v{c}i c\'{i}lov\'{e}ho \v{r}e\v{c}n\'{i}ka", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2022, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/phd-thesis/1009/" }