Detail práce

Conversion of Whispered to Normal Voice

Bakalářská práce Student: Gajda Richard Akademický rok: 2020/2021 Vedoucí: Brukner Jan, Ing.
Název česky
Konverze šeptané řeči na normální
Jazyk práce
anglický
Abstrakt

Cílem této práce je vyvinout funkční program, který konvertuje vstupní šeptanou řeč na neutrální za pomoci predikce hlasového buzení, která je získána pomocí neuronových sítí. Práce je založena na studii z Indian Institute of Science v indickém Bengalúru. Řešení je provedeno následovně: nejprve získáme trénovací dataset řečníků, poté implementujeme zpracování řeči a její parametrizaci za pomoci vokodéru WORLD, vytvoříme a natrénujeme neuronovou síť, provedeme experimenty, které vyhodnotíme, a nakonec navrhneme použití pro budoucí aplikace a vylepšení.

Klíčová slova

Syntéza řeči, šepot, WORLD, BLSTM, konverze.

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Na schématu 3.2 upřesněte, zda byly pro konverzi skutečně využity statické parametry z neutrální řeči a delta-koeficienty z šeptané?
  2. Jak byla vyhodnocována Mel Cepstral Distortion a jak koreluje s poslechovou kvalitou ?
  3. Je při pořízení nahrávky na mobilním telefonu tato nějak segmentována (pomocí VAD nebo rovnoměrně) nebo je na server poslána vcelku ?
  4. V čem je lepší tato metoda než využití filtrů pro zvýraznění konkrétních frekvencí v šeptané řeči?
  5. Zkoušel jste zašumět vstupní data pro trénování?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
GAJDA, Richard. Conversion of Whispered to Normal Voice. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Brukner Jan. Dostupné z: https://www.fit.vut.cz/study/thesis/22505/
BibTeX
@bachelorsthesis{FITBT22505,
    author = "Richard Gajda",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Conversion of Whispered to Normal Voice",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/22505/"
}
Nahoru