Detail práce

Metody extrakce informace z textových dokumentů

Diplomová práce Student: Sychra Tomáš Akademický rok: 2007/2008 Vedoucí: Bartík Vladimír, Ing., Ph.D.
Název anglicky
Methods for Information Extraction in Text Documents
Jazyk práce
český
Abstrakt

Získávání znalostí z textových dokumentů představuje podmnožinu obecného získávání dat - dataminingu. Textové dokumenty však mají vlastnosti odlišné od běžných databází. Tato práce obsahuje přehled metod použitelných pro dolování informací z textů. Nejpoužívanější dolovací úlohou je klasifikace. Popíši možné přístupy při klasifikování dokumentů. V závěru představím algoritmus Winnow, který by měl při klasifikaci dosahovat dobrých výsledků v porovnání s ostatními algoritmy. Součástí práce je i popis implementace algoritmu Winnow a přehled dosažených výsledků.

Klíčová slova

textové dokumenty, extrakce, extrakce informace, klasifikace, kategorizace, lineární klasifikace, Winnow, Balanced Winnow, Positive Winnow

Ústav
Studijní program
Informační technologie, obor Informační systémy
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
22. února 2008
Oponent
Komise
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT), předseda
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, prof. RNDr., CSc. (UITS FIT VUT), člen
Matoušek Petr, doc. Ing., Ph.D., M.A. (UIFS FIT VUT), člen
Motyčka Arnošt, doc. Ing., CSc. (Mendelu), člen
Švéda Miroslav, prof. Ing., CSc. (UIFS FIT VUT), člen
Citace
SYCHRA, Tomáš. Metody extrakce informace z textových dokumentů. Brno, 2008. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2008-02-22. Vedoucí práce Bartík Vladimír. Dostupné z: https://www.fit.vut.cz/study/thesis/4772/
BibTeX
@mastersthesis{FITMT4772,
    author = "Tom\'{a}\v{s} Sychra",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Metody extrakce informace z textov\'{y}ch dokument\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2008,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/4772/"
}
Nahoru