Detail práce

Microphone Arrays for Speaker Recognition

Diplomová práce Student: Mošner Ladislav Akademický rok: 2016/2017 Vedoucí: Černocký Jan, prof. Dr. Ing.
Název česky
Microphone Arrays for Speaker Recognition
Jazyk práce
anglický
Abstrakt

Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.

Klíčová slova

Rozpoznávání mluvčího, mikrofonní pole, beamforming, lokalizace mluvčího, i-vektor, impulsní odezva místnosti

Ústav
Studijní program
Informační technologie, obor Počítačová grafika a multimédia
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
22. června 2017
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Prof. Zemčík vznesl dotaz na předzpracování dat a možnosti vyhodnocení na simulovaných datech. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Dokážete posoudit vliv počtu mikrofonů v mikofonním poli na kvalitu rozpoznávání/lokalizace mluvčího?
  2. Jak moc je časově náročné zpracování vícekanálových dat oproti jednokanálovým datům vzhledem k výpočetní náročností ostatních částí natrénovaného systému?
Komise
Zemčík Pavel, prof. Dr. Ing. (UPGM FIT VUT), předseda
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Sochor Jiří, prof. Ing., CSc. (FI MUNI), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
MOŠNER, Ladislav. Microphone Arrays for Speaker Recognition. Brno, 2017. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2017-06-22. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/thesis/19199/
BibTeX
@mastersthesis{FITMT19199,
    author = "Ladislav Mo\v{s}ner",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Microphone Arrays for Speaker Recognition",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2017,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/19199/"
}
Nahoru