Detail práce

Speech Enhancement with Cycle-Consistent Neural Networks

Diplomová práce Student: Karlík Pavol Akademický rok: 2019/2020 Vedoucí: Žmolíková Kateřina, Ing., Ph.D.
Název česky
Odstraňování šumu pomocí neuronových sítí s cyklickou konzistencí
Jazyk práce
anglický
Abstrakt

Hlboké neurónové siete sa bežne používajú v oblasti odstraňovania šumu. Trénovací proces neurónovej siete je možné rožšíriť využitím druhej neurónovej siete, ktorej cieľom je vložiť šum do čistej rečovej nahrávky. Tieto dve siete sa môžu spolu využiť k rekonštrukcii pôvodných čistých a zašumených nahrávok. Táto práca skúma efektivitu tejto techniky, zvanej cyklická konzistencia. Cyklická konzistencia zlepšuje robustnosť neurónovej siete bez toho, aby sa daná sieť akokoľvek modifikovala, nakoľko vystavuje sieť na odstraňovanie šumu rôznorodejšiemu množstvu zašumených dát. Avšak, táto technika vyžaduje trénovacie dáta skladajúce sa z párov vstupných a referenčných nahrávok. Tieto dáta niesu vždy dostupné. Na trénovanie modelov s nepárovanými dátami využívame generatívne neurónové siete s cyklickou konzistenciou. V tejto práci sme vykonali veľké množstvo experimentov s modelmi trénovanými na párovaných a nepárovaných dátach. Naše výsledky ukazujú, že využitie cyklickej konzistencie výrazne zlepšuje výkonnosť modelov.

Klíčová slova

odstraňovanie šumu, GAN, generatívne neurónové siete, hlboké učenie, cyklická konzistencia

Ústav
Studijní program
Informační technologie, obor Informační systémy
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
17. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Prováděl jste (alespoň u některých experimentů) hodnocení kvality výstupního signálu, např. pomocí SDR ? Jak to dopadlo ?
  2. Jaké byly přesně parametry výpočtu Mel-filterbank koeficientů - délka rámce, frame shift, použité okno, délka FFT ?
  3. Upřesněte, zda se přístupu nekooperativního učení sítí F a G (Uncooperative ACSE v sekci 7.2.3) dá stále ještě říkat "cyklostacionární".
  4. Na čem jste trénoval akustický model?
  5. Jaký šum jste použil?
Komise
Rogalewicz Adam, doc. Mgr., Ph.D. (UITS FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Chudý Peter, doc. Ing., Ph.D. MBA (UPGM FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
KARLÍK, Pavol. Speech Enhancement with Cycle-Consistent Neural Networks. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-17. Vedoucí práce Žmolíková Kateřina. Dostupné z: https://www.fit.vut.cz/study/thesis/23134/
BibTeX
@mastersthesis{FITMT23134,
    author = "Pavol Karl\'{i}k",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Speech Enhancement with Cycle-Consistent Neural Networks",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23134/"
}
Nahoru