Topic Identification from Spoken TED-Talks

Název česky

Jazyk práce

anglický

Abstrakt

Táto práca sa zaoberá problémom spracovania prirodzeného jazyka a následnej klasifikácie. Použité systémy boli modelované na TED-LIUM korpuse. Systém automatického spracovania jazyka bol modelovaný s použitím sady nástrojov Kaldi. Vo výsledku bol dosiahnutý WER s hodnotou 16.6\%. Problém klasifikácie textu bol adresovaný s pomocou metód na lineárnu klasifikáciu, konkrétne Multinomial Naive Bayes a Linear Support Vector Machines, kde druhá technika dosiahla vyššiu presnosť klasifikácie.

Klíčová slova

TED, talks, identifikácia tém, strojové učenie, klasifikácia, transkripcia, lineárna klasifikácia, Kaldi, support vector machines, akustický model, lingvistický model, TED-LIUM, ASR

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

neobhájeno

Obhajoba

14. června 2019

Oponent

Ondel Yang Lucas Antoine Francois, Mgr., Ph.D.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Komise shledala nedostatky práce natolik závažné, že se práci rozhodla hodnotit jako nevyhovující. Práce je nedokončená, obsahuje řadu nekompletních sekcí, implementace není popsána, práce nemá minimální rozsah, a není splněn bod zadání číslo 6.

Otázky u obhajoby

* How to describe in a few sentences the main components of an ASR system?
* How to analyze the results of the topic identification system? Is there any comparable results already published on similar corpus?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Hliněná Dana, doc. RNDr., Ph.D. (UMAT FEKT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen

Citace

VAŠŠ, Adam. Topic Identification from Spoken TED-Talks. Brno, 2019. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-14. Vedoucí práce Kesiraju Santosh. Dostupné z: https://www.fit.vut.cz/study/thesis/21519/

BibTeX

@bachelorsthesis{FITBT21519,
    author = "Adam Va\v{s}\v{s}",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Topic Identification from Spoken TED-Talks",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/21519/"
}