Detail práce

Personal Voice Activity Detection

Bakalářská práce Student: Sedláček Šimon Akademický rok: 2020/2021 Vedoucí: Švec Ján, Ing.
Název česky
Personal Voice Activity Detection
Jazyk práce
anglický
Abstrakt

Cílem této práce je implementovat, otestovat a vyhodnotit řečníkem podmíněnou metodu pro detekci hlasu (Voice Activity Detection, VAD) nazvanou Personal VAD. Pro detekci využívá tato metoda LSTM neuronových sítí a jejím účelem je vytvoření systému schopného spolehlivě detekovat řečové signály cílového řečníka při zachování vlastností typického VAD systému co se velikosti modelu, odezvy a nízkých nároků na zdroje týče. Systém je trénován pro klasifikaci řečových rámců do tří tříd: neřeč, řeč necílového a řeč cílového řečníka. Za tímto účelem využívá metoda speaker embedding vektory pro reprezentaci cílového řečníka jako součást vstupních příznaků. Některé z náročnějších variant systému využívají skórování rámců systémem pro verifikaci řečníka, což vede ke zvýšení spolehlivosti klasifikace. Vedle základní metody skórování představené v originálním článku byly navrženy dvě modifikace, jež základní metodu překonaly a zlepšily spolehlivost výsledného systému i v akusticky náročných prostředích.

Klíčová slova

detekce hlasové aktivity, detekce řeči, rekurentní neuronové sítě, long short-term memory, LSTM, rozpoznání mluvčího, speaker embeddings, d-vector

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
16. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Můžete ještě jednou upřesnit, v čem spočívá vaše rozšíření oproti původní metodě?
  2. Myslíte, že je možné zkombinovat tradiční metody s vaší metodou využívající neuronové sítě?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Citace
SEDLÁČEK, Šimon. Personal Voice Activity Detection. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-16. Vedoucí práce Švec Ján. Dostupné z: https://www.fit.vut.cz/study/thesis/23426/
BibTeX
@bachelorsthesis{FITBT23426,
    author = "\v{S}imon Sedl\'{a}\v{c}ek",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Personal Voice Activity Detection",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23426/"
}
Nahoru