Agreements and Disagreements between Automatic and Human Speaker Recognition

Název česky

Jazyk práce

anglický

Abstrakt

Tato práce se zabývá problémem rozpoznáváním mluvčího. Uvedený pojem je definován a doplněn o jednotlivé metody, které s ním souvisí. Cílem práce je poukázat na shody a rozdíly mezi lidským a automatickým procesem rozpoznávání mluvčího. V úvodu práce jsou popsány teoretické poznatky z obou zmíněných oblastí, tj. na jaké aspekty lidské řeči se zaměřuje člověk, resp. automatický systém. Následně je provedeno několik experimentů, které mají za úkol srovnat tyto dvě metody. Tyto experimenty jsou vyhodnoceny tak, že je možné pozorovat, které testovací úlohy dokáže lépe vyřešit člověk, aby následně bylo možné tyto poznatky použít ke zlepšení funkce automatického systému. V závěru práce je takovýto návrh na zlepšení automatického systému předveden a otestován. Testování proběhlo úspěšně a byla zaznamenána vyšší přesnost při vyhodnocování. Takový výsledek tedy může být užitý v dalších výzkumech a umožnit tak další vývoj v oblasti automatického rozpoznávání mluvčích.

Klíčová slova

rozpoznávání, mluvčí, lidské, automatické, hlas, řeč, fonetika, fonologie, forenzní vědy, systém, model, identifikace, verifikace, detekce, idiosynkratický, analýza

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

obhájeno, hodnocení A

Obhajoba

14. června 2019

Oponent

Matějka Pavel, Ing., Ph.D.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

What do you mean - explain the sentence in 3.2.3: "It was found out that although large scale data behave beneficially in the PLDA classifier, they may be a big problem to work with i-vector extractor." Why?
What is score calibration and why is it important for presenting scores to users in speaker recognition?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Hliněná Dana, doc. RNDr., Ph.D. (UMAT FEKT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen

Citace

VALENTA, Jakub. Agreements and Disagreements between Automatic and Human Speaker Recognition. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-14. Vedoucí práce Rohdin Johan A.. Dostupné z: https://www.fit.vut.cz/study/thesis/21943/

BibTeX

@bachelorsthesis{FITBT21943,
    author = "Jakub Valenta",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Agreements and Disagreements between Automatic and Human Speaker Recognition",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/21943/"
}