Detail práce

Speaker Verification without Feature Extraction

Diplomová práce Student: Lukáč Peter Akademický rok: 2020/2021 Vedoucí: Mošner Ladislav, Ing.
Název česky
Verifikace osob podle hlasu bez extrakce příznaků
Jazyk práce
anglický
Abstrakt

Verifikácia osôb je oblasť, ktorá sa stále modernizuje, zlepšuje a snaží sa vyhovieť požiadavkám, ktoré sa na ňu kladú vo oblastiach využitia ako sú autorizačné systmémy, forenzné analýzy, atď. Vylepšenia sa uskutočňujú vďaka pokrom v hlbokom učení, tvorením nových trénovacích a testovacích dátovych sad a rôznych súťaží vo verifikácií osôb a workshopov. V tejto práci preskúmame modely pre verifikáciu osôb bez extrakcie príznakov. Používanie nespracovaných zvukových stôp ako vstupy modelov zjednodušuje spracovávanie vstpu a teda znižujú sa výpočetné a pamäťové požiadavky a redukuje sa počet hyperparametrov potrebných pre tvorbu príznakov z nahrávok, ktoré ovplivňujú výsledky. Momentálne modely bez extrakcie príznakov nedosahujú výsledky modelov s extrakciou príznakov. Na základných modeloch budeme experimentovať s modernými technikamy a budeme sa snažiť zlepšiť presnosť modelov. Experimenty s modernými technikamy značne zlepšili výsledky základných modelov ale stále sme nedosiahli výsledky vylepšeného modelu s extrakciou príznakov. Zlepšenie je ale dostatočné nato aby sme vytovrili fúziu so s týmto modelom. Záverom diskutujeme dosiahnuté výsledky a navrhujeme zlepšenia na základe týchto výsledkov.

Klíčová slova

verifikácia osôb, bez extrakcie príznakov, obtisk rečníka, residuálne siete, RawNet, VoxCeleb1, VoxCeleb2, VoxSRC, škálovenie máp príznakov, SincNet, Aditívna Uhlová Okrajová funkcia, fúzia

Ústav
Studijní program
Informační technologie a umělá inteligence, specializace Zpracování zvuku, řeči a přirozeného jazyka
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
24. června 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

On p6 you say that 2D convolutions such as in ResNet are ideal when the input is a feature and that 1D convolutions are ideal for processing raw waveforms. But what about having first one or more 1D convolutions that extracts "features" from the raw waveform and then continue to process them with 2D convolutions?

What kind of patterns do you think the RawNet can extract from the waveform that are missing in standard features such as fbank or MFCC?

Myslíte, že by druhá konvoluční vrstva mohla nahradit využitý high-pass filtr (HPF)?

Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bařina David, Ing., Ph.D. (UPGM FIT VUT), člen
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Zemčík Pavel, prof. Dr. Ing. (UPGM FIT VUT), člen
Citace
LUKÁČ, Peter. Speaker Verification without Feature Extraction. Brno, 2021. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-24. Vedoucí práce Mošner Ladislav. Dostupné z: https://www.fit.vut.cz/study/thesis/23746/
BibTeX
@mastersthesis{FITMT23746,
    author = "Peter Luk\'{a}\v{c}",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Speaker Verification without Feature Extraction",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23746/"
}
Nahoru