Detail práce
Room Impulse Response Estimation from Speech Signal
Jakýkoliv zvuk šířící se místností je zkreslen impulsní odezvou této místnosti. Měření těchto impulsních odezev bylo vždy důležitou úlohou akustiky, která v dnešní době ještě nabyla na důležitosti, díky možnosti požití impulsních odezev při augmentaci dat pro účely trénování automatických rozpoznávačů řeči. Standardně je impulsní odezva místnosti měřena za pomoci čisté a zkreslené formy zvukového signálu. To je však v praxi nepraktické (například u domácích asistentů či chytrých domů), neboť zde je k dispozici jen zkreslený signál. Tato bakalářská práce se zabývá odhadem impulsní odezvy "naslepo, pouze pomocí zkresleného řečového signálu. Nejdříve jsme za použití datasetu BUT ReverbDB re-implementovali standardní techniky pro měření impulsní odezvy z čistého/zkresleného signálu. Poté jsme testovali dvě techniky odhadující impulsní odezvu místnosti pouze ze zkreslené řeči. První technika k tomu používá impulsní fonémy ve zkreslené řeči, u kterých se předpokládá, že se podobají impulsním odezvám místností. Bylo testováno průměrování a dekonvoluce těchto fonémů za účelem zvýšení kvality a robustnosti odhadu. Druhá technika využívá regresní neuronové sítě generující impulsní odezvy místností z řeči na vstupu. Ačkoliv žádná z navrhovaných technik nedosahuje odhadů na úrovni standardních měření, mají tyto odhady potenciál při augmentaci dat pro trénování automatických rozpoznávačů řeči.
Odhad Impulsní odezvy místnosti, Řečový signál
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
- Proč jste v rovnicích 3.10 a 3.14 zvolil zrovna průměr? Nebyla by průměrná odchylka či rozptyl vhodnější?
- Ukažte příklady slov obsahující foném T. Proč jste vybral zrovna tato slova?
- Můžete jasně definovat jaký byl váš baseline?
- Můžete porovnat množství trénovacích dat s velikostí modelu?
- Co počítaly rovnice 3.10 a 3.14?
- Jaké místnosti obsahoval dataset?
- Jsou z hlediska impulzní odezvy lepší menší nebo větší místnosti?
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
@bachelorsthesis{FITBT21947, author = "Adam Gregor", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Room Impulse Response Estimation from Speech Signal", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2020, location = "Brno, CZ", language = "english", url = "https://www.fit.vut.cz/study/thesis/21947/" }