Detail předmětu

Získávání znalostí z databází

ZZN Ak. rok 2020/2021 zimní semestr 5 kreditů

Datové sklady. Techniky dolování různých typů znalostí -  asociační pravidla, klasifikace a predikce, shlukování. Dolování v netradičních datech - proudech dat, časových řadách a posloupnostech, grafech, prostorových a časoprostorových datech, multimediálních datech. Dolování v textu a na webu. Vypracování projektu využitím dostupného nástroje pro dolování v datech.

Aktuální informace

V souvislosti s pokračující online výukou se mění organizace půlsemestrální zkoušky takto:

  • Půlsemestrální zkouška se ruší a obsahově i bodově se přesouvá do závěrečné zkoušky.
  • Za závěrečnou zkoušku bude tedy možné získat 51 + 15 = 66 bodů.
  • Minimum pro započítání bodů závěrečné zkoušky se zvyšuje z 20 na 23 bodů.
  • Trvání závěrečné zkoušky se prodlouží ze dvou na dvě a půl hodiny.
  • Podmínka pro zápočet se snižuje z 24 bodů na 17 bodů, které lze získat za projekt a jako prémiové za vyřešené úlohy.
  • Přednáška, v rámci které měla půlsemestrální zkouška proběhnout, bude pravděpodobně zkrácena. Nevyužitý čas doporučujeme v takovém případě využít pro samostudium - zopakování si látky, která mohla být předmětem půlsemestrální zkoušky.

V tomto smyslu jsou upraveny i informace ve wiki.

Garant předmětu

Zástupce garanta předmětu

Jazyk výuky

český

Zakončení

zápočet+zkouška (písemná)

Rozsah

39 hod. přednášky, 13 hod. projekty

Bodové hodnocení

51 zkouška, 15 půlsemestrální test, 34 projekty

Zajišťuje ústav

Přednášející

Cvičící

Získané dovednosti, znalosti a kompetence z předmětu

  • Studenti získají dostatečně široký a přitom i dostatečně do hloubky jdoucí přehled v oblasti získávání znalostí z dat.
  • Jsou schopni nástroje pro získávání znalostí používat i vytvářet.

Dovednosti, znalosti a kompetence obecné

  • Student se naučí odborné terminologii v českém i anglickém jazyce.
  • Student získá zkušenost s řešením projektů v malém týmu.
  • Student se zdokonalí v prezentaci a obhajobě výsledků projektu.

Cíle předmětu

Seznámit studenty s metodami a algoritmy modelování dat pro získávání znalostí z nich.

Proč je předmět vyučován

Vzhledem k neustále rostoucím objemům dat ukládaným v současnosti v databázích a jiných datových zdrojích je potřeba hledat v datech pomocí pokročilých metod nové znalosti, které nelze získat běžným dotazováním. Proto je potřeba, v návaznosti na znalosti a dovednosti z předmětu UPA vztahující se k procesu získávání znalostí z dat a k přípravě dat před jejich modelováním, se seznámit s podstatou metod a algoritmů modelování dat. Ty využívají metody a techniky z různých oborů, jako je např. strojové učení nebo statistika.

Požadované prerekvizitní znalosti a dovednosti

  • Znalost základních kroků procesu získávání znalostí z dat a metod přípravy dat pro krok modelování dat (probráno v předmětu UPA - Ukládání a příprava dat).
  • Znalost základů pravděpodobnosti a statistiky.
  • Znalost databázových technologií na úrovni bakalářského předmětu.

Literatura studijní

  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, 703 p., ISBN 978-0-12-381479-1.
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p., ISBN 1-55860-901-3.
  • Skiena, S.S.: The Data Science Design Manual. Springer, 2017, 445 p. ISBN 978-3-319-55443-3.
  • Bishop, C.M: Pattern Recognition and Machine Learning. Springer, 2006, 738 p. ISBN 0387310738.
  • Zendulka, J. a kol.: Získávání znalostí z databází. FIT VUT v Brně, 160 s., 2009. (elektronicky)

Literatura referenční

  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, 703 p., ISBN 978-0-12-381479-1.
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p., ISBN 1-55860-901-3.

Osnova přednášek

  1. Datové sklady a technologie OLAP pro získávání znalostí z dat.
  2. Dolování frekventovaných vzorů a asociací - základní pojmy. Dolování frekventovaných vzorů a asociací - efektivní a škálovatelné metody hledání frekventovaných množin.
  3. Víceúrovňová asociační pravidla, asociační a korelační analýza, omezená asociační pravidla.
  4. Prediktivní modelování - základní pojmy, metody klasifikace - rozhodovací strom, bayesovská klasifikace, klasifikace založená na pravidlech.
  5. Klasifikace s využitím neuronových sítí. SVM klasifikátor, náhodné lesy.
  6. Další metody klasifikace a regrese. Hodnocení kvality výsledků klasifikace a regrese.
    Shluková analýza - základní pojmy, typy dat při shlukování.
  7. Metody shlukování založené na rozčleňování. Hierarchické metody shlukování. Další metody shlukování. Vyhodnocení kvality shluků.
  8. Analýza odlehlých hodnot. Dolování v biologických datech.
  9. Úvod do získávání znalostí z proudů dat a z časových řad.
  10. Úvod do získávání znalostí v sekvencích, z grafů, dat pohybujících se objektů a multimediálních dat.
  11. Dolování textu.
  12. Dolování na webu.
  13. Další vybraná témata (dolování v datech procesů, doporučovací systémy, dolování v rozlehlých datech).

Osnova ostatní - projekty, práce

  • Vypracování projektu v prostředí dostupného nástroje pro získávání znalostí z dat.

Průběžná kontrola studia

Půlsemestrální písemná zkouška, formulace dolovací úlohy, obhajoba projektu.

Kontrolovaná výuka

  • Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší garant.
  • Formulace dolovací úlohy v předepsaném termínu, omluvené neúčasti řeší cvičící.
  • Prezentace výsledků projektu v předepsaném termínu, omluvené neúčasti řeší cvičící.
  • Závěrečná zkouška, pro získání bodů ze zkoušky je nutné zkoušku vypracovat tak, aby byla hodnocena nejméně 20 body. V opačném případě bude zkouška hodnocena 0 body. Omluvenou neúčast řeší garant.

Podmínky zápočtu

Udělení zápočtu je podmíněno vypracováním projektu, jeho obhajobou v předepsaných termínech a ziskem minimálně 24 bodů za bodované aktivity v průběhu semestru.

Rozvrh

DenTypTýdnyMístn.OdDoPSKSkupInfo
Pozkouška2021-01-04 D0206 D0207 D105 E104 E105 E112 14:0016:50 1MIT 2MIT řádná
Útpřednáškavýuky D0207 12:0014:50 1MIT 2MIT NBIO - NISY NISY xx
Útpřednáška2., 3., 4., 5., 6., 7., 8., 12., 13. výuky D0207v 12:0014:50YT, ZP
Stzkouška2021-01-27 D0206 D0207 D105 E112 09:0011:50 1MIT 2MIT 2. oprava
Čtzkouška2021-01-14 D0206 D0207 D105 E104 E112 09:0011:50 1MIT 2MIT 1. oprava

Zařazení předmětu ve studijních plánech

Nahoru