Detail předmětu

Získávání znalostí z databázi

ZZD Ak. rok 2005/2006 zimní semestr

Aktuální akademický rok

  1. Vysvětlení pojmu získávání znalostí z databází, charakteristika procesu získávání znalostí z databází a jeho jednotlivých kroků - čištění a integrace dat, selekce a transformace dat, dolování z dat, vyhodnoceni, prezentace a interpretace. Vztah získávání znalostí a dolování z dat. Charakteristika základních typů dolovaných znalostí - charakterizace a diskriminace, asociační pravidla, klasifikace a regrese, shluková analýza. Vztah OLAP technik a dolování z dat, role datových skladů při získávání znalostí z databází.
  2. Podstata a techniky předzpracování dat - čištění (zpracování chybějících hodnot a zašuměných dat), integrace (identifikace entit, redundance, datové konflikty). transformace (vyhlazování, agregace, generalizace, normalizace, konstrukce atributů, redukce dat). Techniky charakterizace a diskriminace - techniky založené na generalizaci a sumarizaci, analýza relevance - pojmy "informační zisk" a "entropie", dolování deskriptivních statistických hodnot. Techniky dolování asociačních pravidel - algoritmus Apriori, víceúrovňová asociační pravidla, vícedimenzionální asociační pravidla, kvantitativní asociační pravidla. Techniky klasifikace- algoritmy indukce rozhodovacího stromu, bayesovská klasifikace, klasifikace využívající neuronových sítí. Techniky regrese. Techniky shlukové analýzy - metody založené na rozčleňování, hierarchické metody, metody založené na hustotě. Techniky dolování v datech se složitou strukturou - dolování v objektových, obrazových a multimediálních datech, dolování v časových posloupnostech, dolování v textu, dolování na WWW. Standardy a jazyky pro oblast získávání znalostí z databází.

Část 1 představuje vymezení základních pojmů. Tuto část by měli dobře znát všichni absolventi předmětu. V části 2 by studenti měli prokazovat přehled a porozumění základům (formulace problému, základní charakteristika přístupů k řešení) u všech témat. Hlubší znalosti by měli vykazovat u tématu, které zpracovali a prezentovali na závěrečném semináři předmětu. Toto téma zpravidla nějak souvisí se zaměřením disertační práce.

Garant předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška

Rozsah

  • 39 hod. přednášky
  • 13 hod. projekty

Zajišťuje ústav

Získané dovednosti, znalosti a kompetence z předmětu

Studenti získají dostatečně široký a přitom i dostatečně do hloubky jdoucí přehled v oblasti získávání znalostí z dat. Hlubší znalosti získají především v oblasti související s tématem disertační práce.

Cíle předmětu

Seznámit studenty s problematikou získávání znalostí z různých typů datových zdrojů, vysvětlit typy užitečných znalostí a jednotlivé kroky procesu získávání znalostí z dat a seznámit je s technikami a nástroji používanými pří tomto procesu.

Požadované prerekvizitní znalosti a dovednosti

Studenti by měli mít základní znalosti pojmů a terminologie z databázových systémů, mít zkušenosti z programování. Užitečné, ale ne nezbytně nutné jsou i základy statistiky a strojového učení.

Literatura studijní

  • Bishop, CH. M.: Pattern Recognition and Machine Learning. Springer, 2006, 738 p. ISBN 978-0-387-31073-2.
  • Aggarwal, Ch.C. (ed.): Data Streams: Models and Algorithms. Advances in Database Systems. Springer, 2006, 358 p. ISBN 0387287590.
  • Příspěvky  v dostupných časopisech a sbornících konferencí (včetně dostupných v ACM Digital library, IEEE Digital library a jiných elektronických zdrojích).

Literatura referenční

  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Elsevier Inc., 2012, 703 p. ISBN 978-0-12-381479-1.
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p. ISBN 1-55860-901-3.

Osnova přednášek

  • Úvod - motivace, základní pojmy, typy zdrojů dat a získávaných znalostí.
  • Datové sklady a technologie OLAP pro získávání znalostí z dat.
  • Předzpracování dat v procesu získávání znalostí.
  • Systémy pro dolování dat - specifikace úlohy, dotazovací jazyky pro dolování, architektura systému.
  • Dolování charakteristik pojmů (tříd) - charakterizace a diskriminace.
  • Dolování asociačních pravidel z transakčních databází.
  • Dolování asociačních pravidel z relačních databází a datových skladů.
  • Klasifikace - rozhodovací strom, bayesovská klasifikace, využití neuronových sítí.
  • Další metody klasifikace. Predikce.
  • Shluková analýza.
  • Dolování ve složitě strukturovaných datech - dolování v objektových, prostorových a textových databázích.
  • Dolování v multimediálních databázích, časových posloupnostech a na WWW.
  • Aplikace a trendy v získávání znalostí z dat.

Průběžná kontrola studia

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Kontrolovaná výuka

Přednašky a zpracovaní projektu.

Nahoru