Detail práce
Microphone Arrays for Speaker Recognition
Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.
Rozpoznávání mluvčího, mikrofonní pole, beamforming, lokalizace mluvčího, i-vektor, impulsní odezva místnosti
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Prof. Zemčík vznesl dotaz na předzpracování dat a možnosti vyhodnocení na simulovaných datech. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
- Dokážete posoudit vliv počtu mikrofonů v mikofonním poli na kvalitu rozpoznávání/lokalizace mluvčího?
- Jak moc je časově náročné zpracování vícekanálových dat oproti jednokanálovým datům vzhledem k výpočetní náročností ostatních částí natrénovaného systému?
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Sochor Jiří, prof. Ing., CSc. (FI MUNI), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
@mastersthesis{FITMT19199, author = "Ladislav Mo\v{s}ner", type = "Diplomov\'{a} pr\'{a}ce", title = "Microphone Arrays for Speaker Recognition", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2017, location = "Brno, CZ", language = "english", url = "https://www.fit.vut.cz/study/thesis/19199/" }