Detail práce

Automatická detekce jazyka textového dokumentu

Bakalářská práce Student: Cakl Jan Akademický rok: 2015/2016 Vedoucí: Szőke Igor, Ing., Ph.D.
Název anglicky
Language Identification of Text Document
Jazyk práce
český
Abstrakt
Tato práce se zabývá rozpoznáním jazyka textového dokumentu. Výsledný program obsahuje implementaci dvou odlišných metod určených pro rozpoznání jazyka textu. První metoda je založena na frekvenčních statistikách N-gramu. Druhou metodou jsou Markovské řetězce a poslední metoda za účelem rozpoznání jazyka využívá umělou neuronovou síť. Řešení je implementováno v jazyce Python.
Klíčová slova

N-gram, umělá neuronová síť, rozpoznání jazyka, Markovské řetězce

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení B
Obhajoba
15. června 2016
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B).

Otázky u obhajoby
  1. Při získávání datových sad jste se zaměřil na paralelní korpusy, má to nějaký vliv na trénování systému? A pokud ano, jaký?
  2. U klasifikace češtiny a slovenštiny s diakritikou a bez (tabulka 5.3) se objevuje častá záměna Cestina za Slovenstina/Neznamy, ale tento výsledek není symetrický (Slovenstina má 98% přesnost). Proč tomu tak je?
  3. Při návrhu datových sad (tabulka 3.2) není stejné množství slov ve všech jazycích. Jak to může ovlivnit výkon klasifikátoru?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Drahanský Martin, prof. Ing., Dipl.-Ing., Ph.D. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Španěl Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
CAKL, Jan. Automatická detekce jazyka textového dokumentu. Brno, 2016. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2016-06-15. Vedoucí práce Szőke Igor. Dostupné z: https://www.fit.vut.cz/study/thesis/18569/
BibTeX
@bachelorsthesis{FITBT18569,
    author = "Jan Cakl",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Automatick\'{a} detekce jazyka textov\'{e}ho dokumentu",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2016,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/18569/"
}
Nahoru