Detail práce
Metody extrakce informace z textových dokumentů
Diplomová práce
Student: Sychra Tomáš
Akademický rok: 2007/2008
Vedoucí: Bartík Vladimír, Ing., Ph.D.
Název anglicky
Methods for Information Extraction in Text Documents
Jazyk práce
český
Abstrakt
Získávání znalostí z textových dokumentů představuje podmnožinu obecného získávání dat - dataminingu. Textové dokumenty však mají vlastnosti odlišné od běžných databází. Tato práce obsahuje přehled metod použitelných pro dolování informací z textů. Nejpoužívanější dolovací úlohou je klasifikace. Popíši možné přístupy při klasifikování dokumentů. V závěru představím algoritmus Winnow, který by měl při klasifikaci dosahovat dobrých výsledků v porovnání s ostatními algoritmy. Součástí práce je i popis implementace algoritmu Winnow a přehled dosažených výsledků.
Klíčová slova
textové dokumenty, extrakce, extrakce informace, klasifikace, kategorizace, lineární klasifikace, Winnow, Balanced Winnow, Positive Winnow
Ústav
Studijní program
Informační technologie, obor
Informační systémy
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
22. února 2008
Oponent
Komise
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT), předseda
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, prof. RNDr., CSc. (UITS FIT VUT), člen
Matoušek Petr, doc. Ing., Ph.D., M.A. (UIFS FIT VUT), člen
Motyčka Arnošt, doc. Ing., CSc. (Mendelu), člen
Švéda Miroslav, prof. Ing., CSc. (UIFS FIT VUT), člen
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, prof. RNDr., CSc. (UITS FIT VUT), člen
Matoušek Petr, doc. Ing., Ph.D., M.A. (UIFS FIT VUT), člen
Motyčka Arnošt, doc. Ing., CSc. (Mendelu), člen
Švéda Miroslav, prof. Ing., CSc. (UIFS FIT VUT), člen
Citace
SYCHRA, Tomáš. Metody extrakce informace z textových dokumentů. Brno, 2008. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2008-02-22. Vedoucí práce Bartík Vladimír. Dostupné z: https://www.fit.vut.cz/study/thesis/4772/
BibTeX
@mastersthesis{FITMT4772, author = "Tom\'{a}\v{s} Sychra", type = "Diplomov\'{a} pr\'{a}ce", title = "Metody extrakce informace z textov\'{y}ch dokument\r{u}", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2008, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/4772/" }