Detail práce

Learning Speech Separation Using Spatial Cues

Bakalářská práce Student: Pavlus Ján Akademický rok: 2019/2020 Vedoucí: Žmolíková Kateřina, Ing., Ph.D.
Název česky
Učení separace řečníků pomocí prostorové informace
Jazyk práce
anglický
Abstrakt

Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.

Klíčová slova

Separace řečníků, deep clustering, prostorová informace, strojové učení, neuronové sítě, long-short term memory

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
10. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Odůvodněte, proč byly nejhorší výsledky dosaženy pro přístup využívající neuronové sítě trénované s využitím správných masek a nelepší výsledky pro přístup trénování bez učitele, který byl dále použit pro odhad masek (pro následné trénování nerunové sítě).
  2. Porovnejte vstupy neuronové sítě při trénování se správnými a odhadovanými maskami. Zdůvodněte rozdíly.
  3. Používal jste binární nebo pravděpodobnostní masky?
  4. Musí být masky exkluzivní?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
PAVLUS, Ján. Learning Speech Separation Using Spatial Cues. Brno, 2020. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-10. Vedoucí práce Žmolíková Kateřina. Dostupné z: https://www.fit.vut.cz/study/thesis/23153/
BibTeX
@bachelorsthesis{FITBT23153,
    author = "J\'{a}n Pavlus",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Learning Speech Separation Using Spatial Cues",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23153/"
}
Nahoru