Detail práce

Room Impulse Response Estimation from Speech Signal

Bakalářská práce Student: Gregor Adam Akademický rok: 2019/2020 Vedoucí: Černocký Jan, prof. Dr. Ing.
Název česky
Odhad impulsní odezvy místnosti z řečového signálu
Jazyk práce
anglický
Abstrakt

Jakýkoliv zvuk šířící se místností je zkreslen impulsní odezvou této místnosti. Měření těchto impulsních odezev bylo vždy důležitou úlohou akustiky, která v dnešní době ještě nabyla na důležitosti, díky možnosti požití impulsních odezev při augmentaci dat pro účely trénování automatických rozpoznávačů řeči. Standardně je impulsní odezva místnosti měřena za pomoci čisté a zkreslené formy zvukového signálu. To je však v praxi nepraktické (například u domácích asistentů či chytrých domů), neboť zde je k dispozici jen zkreslený signál. Tato bakalářská práce se zabývá odhadem impulsní odezvy "naslepo, pouze pomocí zkresleného řečového signálu. Nejdříve jsme za použití datasetu BUT ReverbDB re-implementovali standardní techniky pro měření impulsní odezvy z čistého/zkresleného signálu. Poté jsme testovali dvě techniky odhadující impulsní odezvu místnosti pouze ze zkreslené řeči.  První technika k tomu používá impulsní fonémy ve zkreslené řeči, u kterých se předpokládá, že se podobají impulsním odezvám místností. Bylo testováno průměrování a dekonvoluce těchto fonémů za účelem zvýšení kvality a robustnosti odhadu. Druhá technika využívá regresní neuronové sítě generující impulsní odezvy místností z řeči na vstupu. Ačkoliv žádná z navrhovaných technik nedosahuje odhadů na úrovni standardních měření, mají tyto odhady potenciál při augmentaci dat pro trénování automatických rozpoznávačů řeči.

Klíčová slova

Odhad Impulsní odezvy místnosti, Řečový signál

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
10. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky u obhajoby
  1. Proč jste v rovnicích 3.10 a 3.14 zvolil zrovna průměr? Nebyla by průměrná odchylka či rozptyl vhodnější?
  2. Ukažte příklady slov obsahující foném T. Proč jste vybral zrovna tato slova?
  3. Můžete jasně definovat jaký byl váš baseline?
  4. Můžete porovnat množství trénovacích dat s velikostí modelu?
  5. Co počítaly rovnice 3.10 a 3.14?
  6. Jaké místnosti obsahoval dataset?
  7. Jsou z hlediska impulzní odezvy lepší menší nebo větší místnosti?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
GREGOR, Adam. Room Impulse Response Estimation from Speech Signal. Brno, 2020. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-10. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/thesis/21947/
BibTeX
@bachelorsthesis{FITBT21947,
    author = "Adam Gregor",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Room Impulse Response Estimation from Speech Signal",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/21947/"
}
Nahoru