Detail předmětu

Vybrané problémy získávání znalostí z databází

ZZD Ak. rok 2017/2018 zimní semestr

Aktuální akademický rok

  1. Prohloubení znalostí základů získávání znalostí z databází - základy metod předzpracování (statistické veličiny používané při sumarizaci, přístupy k číštění, transformaci a redukci dat), základy datových skladů, základní metody a algoritmy dolování frekventovaných vzorů a asociačních pravidel (algoritmus Apriori, FP-strom, víceúrovňová asociační pravidla, dolování vícedimenzionálních asociačních pravidel z relačních databází), základní metody a algoritmy klasifikace (rozhodovací strom, bayesovská klasifikace, klasifikace využitím neuronových sítí, SVM) a predikce (lineární a nelineární regrese), základní metody a algoritmy shlukové analýzy (způsoby vyjadřování vzdálenosti dat, rozčleňovací metody, hierarchické metody, CF-strom, metody založené na hustotě, metody založené na mřížce a na modelu).
  2. Pokročilé techniky dolování dat - pokročilé techniky dolování znalostí z 'klasických' zdrojů dat, techniky dolování v proudech dat, časových řadách a posloupnostech, dolování v biologických datech, dolování v grafových strukturách, multirelační dolování, dolování v objektových, prostorových a multimediálních datech, dolování v textu, dolování na WWW.

Část 1 představuje základní témata.Dobrá znalost v této oblasti se očekává od všech absolventů předmětu. Tato část odpovídá kapitolám 1 až 12 v učebnici [1]. V části 2 se očekává od studentů přehled a porozumění základům (formulace problému, základní charakteristika přístupů k řešení) u všech témat. Hlubší znalosti se vyžaduje u tématu, které zpracovali a prezentovali na závěrečném semináři předmětu. Toto téma zpravidla nějak souvisí se zaměřením disertační práce. Tato část odpovídá kapitolám 8 až 10 v učebnici [2], ale zejména se předpokládá využití nejnovějších zdrojů informací dostupných ve sbornících z konferencí a v časopisech.

Okruhy otázek k SDZ:

  1. Předzpracování dat pro dolování.
  2. Dolování frekventovaných položek a asociačních pravidel.
  3. Klasifikace - rozhodovací stromy a bayesovská klasifikace.
  4. Klasifikace využitím neuronových sítí, SVM.
  5. Predikce.
  6. Shlukování - způsoby vyjadřování vzdálenosti, klasifikace metod a jejich charakteristika.
  7. Shlukování - rozčleňovací a hierarchické metody.
  8. Shlukování - metody založené na hustotě a mřížce.
  9. Dolování v proudech dat.
  10. Dolování na webu.

Garant předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška (ústní)

Bodové hodnocení

  • 51 bodů závěrečná zkouška (písemná část)
  • 49 bodů projekty

Zajišťuje ústav

Získané dovednosti, znalosti a kompetence z předmětu

Studenti získají dostatečně široký a přitom i dostatečně do hloubky jdoucí přehled v oblasti získávání znalostí z dat. Hlubší znalosti získají především v oblasti související s tématem disertační práce.

Cíle předmětu

Prohloubit znalosti studentů v oblasti získávání znalostí z databází a jiných datových zdrojů se zaměřením na teoretické základy používaných technik, algoritmů a modelů.

Požadované prerekvizitní znalosti a dovednosti

Studenti by měli mít základní znalosti ze statistiky, databázových systémů, teorie informace, strojového učení, neuronových sítí. Předpokládá se rovněž absolvování nějakého předmětu zaměřeného na základy získávání znalostí z databází v rámci magisterského studia.

Literatura studijní

  • Bishop, CH. M.: Pattern Recognition and Machine Learning. Springer, 2006, 738 p. ISBN 978-0-387-31073-2.
  • Aggarwal, Ch.C. (ed.): Data Streams: Models and Algorithms. Advances in Database Systems. Springer, 2006, 358 p. ISBN 0387287590.
  • Příspěvky  v dostupných časopisech a sbornících konferencí (včetně dostupných v ACM Digital library, IEEE Digital library a jiných elektronických zdrojích).

Literatura referenční

  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Elsevier Inc., 2012, 703 p. ISBN 978-0-12-381479-1.
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p. ISBN 1-55860-901-3.

Osnova seminářů

Osnova přednášek:
  1. Předzpracování dat. 
  2. Datové sklady.
  3. Asociační analýza.
  4. Klasifikace a predikce.
  5. Shluková analýza.
  6. Pokročilé techniky dolování znalostí z 'klasických' zdrojů dat.
  7. Dolování v proudech dat.
  8. Dolování v časových řadách a posloupnostech.
  9. Dolování v biologických datech.
  10. Dolování v grafových strukturách.
  11. Dolování v objektových, prostorových a multimediálních datech.
  12. Dolování v textu a na WWW.
  13. Dolování v datech pohybujících se objektů.

Osnova ostatní - projekty, práce:
  1. Prostudování a zpracování vybraného tématu týkajícího se získávání znalostí z dat, zpravidla souvisejícího s tématem disertační práce studenta. Prezentace zpracovaného tématu na závěrečném semináři.

Průběžná kontrola studia

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Kontrolovaná výuka

Konzultace, zpracování zadaného tématu, písemná zpráva a prezentace na závěrečném semináři.

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4, obor DVI4, libovolný ročník, volitelný
Nahoru