Adversarial Augmentation for Robust Speech Separation

Název česky

Adversariální augmentace pro robustní separaci řeči

Jazyk práce

anglický

Abstrakt

Separace řečníků se zabývá separácí signálů jednotlivých řečníků z dané směsi vícero řečníků. Neuronové sítě trénované pro separaci řečníků fungují většinou dobře na uměle smíchaných nahrávkách, ovšem při použití směsí z reálného světa často selhávají. Pro zlepšení tohoto chování, je možné použít augmentaci trénovacích dat, jako je například přidání šumu. Nicméně tyto augmentace jsou limitovány tím, že musí být ručně navrhnuty. V této práci je použita modifikovaná verze modelu generativních adversarialních sítí (GAN), která může zlepšit tuto vlastnost tak, že generuje augmentace na základě míry zmatení separačního systému. Po každém kroku trénování generátoru a separátoru se systém separace řečníků stává více robustní. Takto navrhnutý model byl podroben experimentům. Během těchto experimentů byly různě nastavovány parametry GAN modelu, aby se nalezlo jejich nejlepší nastavení, které by vedlo ke správnému natrénování modelu, bez zkolabování do žádného módu. Během experimentů bylo takové nastavení nalezeno. Z takto natrénovaného modelu byl vybrán nejvíce robustní separátor a ten poté vyhodnocen. Výsledky hodnocení neukázaly zlepšení funkčnosti zrobustněného separačního systému vůči samému nezrobustněnému systému předtrénovanému na WSJ0-2mix datasetu, během testování na datasetu WHAM. Nicméně výsledky jiného hodnocení experimentů ukázaly, že separátor vybrán z trénování GAN modelu je značně zrobustněn oproti původnímu.

Klíčová slova

separace řečníků, GAN, adversarialní augmentace, robustní neuronová síť

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie a umělá inteligence, specializace Strojové učení

Soubory

Stav

obhájeno, hodnocení A

Obhajoba

21. června 2022

Oponent

Černocký Jan, prof. Dr. Ing.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

je SI-SNR (který navíc předpokládá dokonalou synchronizaci signálů) augmentovaného mixu a toho původního skutečně tím nejlepším kritériem pro diskriminátor ? Nejde vlastně proti augmentaci ?
Dala by na jednotlivé zdrojové signály samostatně aplikovat různé augmentace a pak teprve je sečíst ? Dala by se taková architektura natrénovat ?
v sekci 6.14 vyhodnocujete úspěšnost systému trénováno na GAN-augmentovaných datech na mixech získaných podobnou augmentací. Nebo by férovější vyrobit nějaké mixy ručně, klasickými technikami popsanými v sekci 4.2 ?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Zbořil František V., doc. Ing., CSc. (UITS FIT VUT), člen

Citace

PAVLUS, Ján. Adversarial Augmentation for Robust Speech Separation. Brno, 2022. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-21. Vedoucí práce Žmolíková Kateřina. Dostupné z: https://www.fit.vut.cz/study/thesis/25172/

BibTeX

@mastersthesis{FITMT25172,
    author = "J\'{a}n Pavlus",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Adversarial Augmentation for Robust Speech Separation",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/25172/"
}