Detail práce

Topic Identification from Spoken TED-Talks

Bakalářská práce Student: Vašš Adam Akademický rok: 2018/2019 Vedoucí: Kesiraju Santosh
Název česky
Topic Identification from Spoken TED-Talks
Jazyk práce
anglický
Abstrakt

Táto práca sa zaoberá problémom spracovania prirodzeného jazyka a následnej klasifikácie. Použité systémy boli modelované na TED-LIUM korpuse. Systém automatického spracovania jazyka bol modelovaný s použitím sady nástrojov Kaldi. Vo výsledku bol dosiahnutý WER s hodnotou 16.6%. Problém klasifikácie textu bol adresovaný s pomocou metód na lineárnu klasifikáciu, konkrétne Multinomial Naive Bayes a Linear Support Vector Machines, kde druhá technika dosiahla vyššiu presnosť klasifikácie.

Klíčová slova

TED, talks, identifikácia tém, strojové učenie, klasifikácia, transkripcia, lineárna klasifikácia, Kaldi, support vector machines, akustický model, lingvistický model, TED-LIUM, ASR

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
29. srpna 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm "C".

Otázky u obhajoby

* How to describe in a few sentences the main components of the ASR system?
* How to analyze the results of the topic identification system?Is there any comparable results already published on similar corpus?
* Why the results from the ASR-TID system are sometimes better than the text based TID system.

Komise
Růžička Richard, doc. Ing., Ph.D., MBA (UPSY FIT VUT), předseda
Dytrych Jaroslav, Ing., Ph.D. (UPGM FIT VUT), člen
Křena Bohuslav, Ing., Ph.D. (UITS FIT VUT), člen
Ryšavý Ondřej, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Španěl Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
VAŠŠ, Adam. Topic Identification from Spoken TED-Talks. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-08-29. Vedoucí práce Kesiraju Santosh. Dostupné z: https://www.fit.vut.cz/study/thesis/22509/
BibTeX
@bachelorsthesis{FITBT22509,
    author = "Adam Va\v{s}\v{s}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Topic Identification from Spoken TED-Talks",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/22509/"
}
Nahoru