Microphone Arrays for Speaker Recognition

Název česky

Jazyk práce

anglický

Abstrakt

Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.

Klíčová slova

Rozpoznávání mluvčího, mikrofonní pole, beamforming, lokalizace mluvčího, i-vektor, impulsní odezva místnosti

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie, obor Počítačová grafika a multimédia

Soubory

Stav

obhájeno, hodnocení A

Obhajoba

22. června 2017

Oponent

Plchot Oldřich, Ing., Ph.D.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Prof. Zemčík vznesl dotaz na předzpracování dat a možnosti vyhodnocení na simulovaných datech. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

Dokážete posoudit vliv počtu mikrofonů v mikofonním poli na kvalitu rozpoznávání/lokalizace mluvčího?
Jak moc je časově náročné zpracování vícekanálových dat oproti jednokanálovým datům vzhledem k výpočetní náročností ostatních částí natrénovaného systému?

Komise

Zemčík Pavel, prof. Dr. Ing. (UPGM FIT VUT), předseda
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Sochor Jiří, prof. Ing., CSc. (FI MUNI), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen

Citace

MOŠNER, Ladislav. Microphone Arrays for Speaker Recognition. Brno, 2017. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2017-06-22. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/thesis/19199/

BibTeX

@mastersthesis{FITMT19199,
    author = "Ladislav Mo\v{s}ner",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Microphone Arrays for Speaker Recognition",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2017,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/19199/"
}