Detail předmětu

Ukládání a příprava dat

UPA Ak. rok 2020/2021 zimní semestr 5 kreditů

Předmět se zaměřuje na moderní databázové systémy jako typické zdroje dat pro získávání znalostí a dále na přípravu dat k získávání znalostí. Jedná se o rozšířené relační (objektově-relační, s podporou pro práci s XML a JSON dokumenty), prostorové a NoSQL databázové systémy. Vysvětlený je odpovídající databázový model, způsob práce s daty a některé metody indexace dat. V kontextu výkladu základních kroků procesu získávání znalostí z dat je věnována pozornost popisným charakteristíkám dat a vizualizačním technikám používaným k pochopení dat a jejich vlastností. Dále jsou vysvětleny přístupy řešení typických úloh předzpracování dat pro získávání znalostí, jako je čištění, integrace, transformace, redukce apod. Rovněž jsou prezentovány přístupy k extrakci informace z webu pro účely získávání znalostí, charakterizovány nejčastěji používané jazyky a systémy pro získávání znalostí z dat a je uvedeno několik reálných případových studií.
V rámci předmětu studenti řeší projekt zaměřený na ...

Aktuální informace

V souvislosti s pokračující online výukou se mění organizace půlsemestrální zkoušky takto:

  • Půlsemestrální zkouška se ruší a obsahově i bodově se přesouvá do závěrečné zkoušky.
  • Za závěrečnou zkoušku bude tedy možné získat 60 + 20 = 80 bodů.
  • Minimum pro započítání bodů závěrečné zkoušky se zvyšuje z 25 na 30 bodů.
  • Trvání závěrečné zkoušky se prodlouží ze dvou na dvě a půl hodiny.
  • Podmínka pro zápočet se snižuje z 20 bodů na 12 bodů, které lze získat za projekt a jako prémiové za vyřešené úlohy.
  • Termín plánovaný pro konání půlsemestrální zkoušky doporučujeme využít pro samostudium - zopakování si látky, která mohla být předmětem půlsemestrální zkoušky.

V tomto smyslu jsou upraveny i informace ve wiki.

Garant předmětu

Zástupce garanta předmětu

Jazyk výuky

český

Zakončení

zápočet+zkouška (písemná)

Rozsah

26 hod. přednášky, 6 hod. cvičení, 6 hod. pc laboratoře, 14 hod. projekty

Bodové hodnocení

60 zkouška, 20 půlsemestrální test, 20 projekty

Zajišťuje ústav

Přednášející

Cvičící

Získané dovednosti, znalosti a kompetence z předmětu

Studenti budou schopni ukládat a manipulovat data ve vhodných databázových systémech, zkoumat vlastnosti dat a připravit je pro následné modelování v rámci získávání znalostí.

Dovednosti, znalosti a kompetence obecné

  • Student lépe zvládne práci s daty v různých situacích.
  • Student se zdokonalí v řešení malých projektů v malém týmu.


Cíle předmětu

Cílem předmětu je vysvětlit historický vývoj databázových technologií, motivaci získávání znalostí z dat a základní kroky procesu získávání znalostí, vysvětlit podstatu, vlastnosti a použití rozšířených relačních a NoSQL databází jako zdrojů dat pro získávání znalostí a vysvětlit přístupy a metody používané pro pochopení dat a přípravu dat pro získávání znalostí.

Proč je předmět vyučován

Předmět si klade za cíl ukázat, jak na složitá data kolem nás, jak je uložit, jak se v nich orientovat, získat z nich užitečné charakteristiky a připravit je pro extrakci skrytých informací/znalostí aplikací metod strojového učení a jiných pokročilých metod analýzy.

Požadované prerekvizitní znalosti a dovednosti

  • Základy relačních databází a jazyka SQL.
  • Objektově orientované paradigma.
  • Základy jazyka XML.
  • Základy výpočetní geometrie.
  • Základy statistiky a pravděpodobnosti.

Literatura studijní

  • Podklady k přednáškám (slajdy, skripty, apod.)
  • Lemahieu, W., Broucke, S., Baesens, B.: Principles of Database Management. Cambridge University Press. 2018, 780 s.
  • Kim, W. (ed.): Modern Database Systems, ACM Press, 1995, ISBN 0-201-59098-0
  • Melton, J.: Advanced SQL: 1999 - Understanding Object-Relational and Other Advanced. Morgan Kaufmann, 2002, 562 s., ISBN 1-558-60677-7
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, p. 703, ISBN 978-0-12-381479-1
  • Skiena, S.S.: The Data Science Design Manual. Springer, 2017, 445 s. ISBN 978-3-319-55443-3.
  • Shekhar, S., Chawla, S.: Spatial Databases: A Tour, Prentice Hall, 2002/2003, 262 s., ISBN 0-13-017480-7
  • Gaede, V., Günther, O.: Multidimensional Access Methods, ACM Computing Surveys, Vol. 30, No. 2, 1998, s. 170-231.

Literatura referenční

  • Lemahieu, W., Broucke, S., Baesens, B.: Principles of Database Management. Cambridge University Press. 2018, 780 s.
  • Kim, W. (ed.): Modern Database Systems, ACM Press, 1995, ISBN 0-201-59098-0
  • Melton, J.: Advanced SQL: 1999 - Understanding Object-Relational and Other Advanced. Morgan Kaufmann, 2002, 562 s., ISBN 1-558-60677-7
  • Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, p. 703, ISBN 978-0-12-381479-1
  • Skiena, S.S.: The Data Science Design Manual. Springer, 2017, 445 s. ISBN 978-3-319-55443-3.
  • Shekhar, S., Chawla, S.: Spatial Databases: A Tour, Prentice Hall, 2002/2003, 262 s., ISBN 0-13-017480-7
  • Gaede, V., Günther, O.: Multidimensional Access Methods, ACM Computing Surveys, Vol. 30, No. 2, 1998, s. 170-231. 

Osnova přednášek

  1. Historie vývoje databázových technologií a získávání znalostí z dat, proces získávání znalostí z dat.
  2. Objektový přístup v databázích.
  3. NoSQL databáze I - úvod do NoSQL, CAP teorém a BASE, databáze klíč-hodnota a způsob uložení dat, rozdělení (partitioning) a distribuce dat.
  4. NoSQL databáze II - modely dat v NoSQL databázích (sloupcové, dokumentové a grafové databáze), dotazování a agregace dat, NewSQL databáze.
  5. Extrakce dat z webu (web scraping).
  6. Příprava dat - porozumění datům: popisné charakteristiky, vizualizační techniky, korelační analýza.
  7. Příprava dat - předzpracování I: čištění dat, integrace.
  8. Příprava dat - předzpracování II: redukce dat a řešení nevyváženosti dat, transformace dat, další úlohy předzpracování.
  9. Půlsemestrální zkouška.
  10. Jazyky a systémy pro získávání znalostí z dat, reálné případové studie.
  11. Podpora pro práci s XML a JSON dokumenty v databázích.
  12. Prostorové databáze.
  13. Indexování vícedimenzionálních dat.

Osnova numerických cvičení

DEMO cvičení

  1. Objektově-relační a prostorové databáze, práce v nich, zvláštnosti užití
  2. Multimediální a XML databáze, indexace dat
  3. NoSQL databáze

Osnova počítačových cvičení

  1. Aplikační vazby na objektově relační databáze, aplikace v prostorových databázích
  2. Multimediální a XML databáze, indexace dat
  3. NoSQL databáze v aplikacích

Osnova ostatní - projekty, práce

  1. Vytvoření aplikace a demonstrace vlastností práce s nestrukturovanými i strukturovanými daty různé povahy.

Průběžná kontrola studia

  • Půlsemestrální zkouška, u které neexistuje náhradní, či opravný termín.
  • Řešení 1 projektu v průběhu semestru a jeho odevzdání ve stanoveném termínu.

Kontrolovaná výuka

  • Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší garant.
  • Formulace dolovací úlohy v předepsaném termínu, omluvené neúčasti řeší cvičící.
  • Prezentace výsledků projektu v předepsaném termínu, omluvené neúčasti řeší cvičící.
  • Závěrečná zkouška, pro získání bodů ze zkoušky je nutné zkoušku vypracovat tak, aby byla hodnocena nejméně 20 body. V opačném případě bude zkouška hodnocena 0 body. Omluvenou neúčast řeší garant.

Podmínky zápočtu

Student musí během semestru získat alespoň 50% bodů z možného maxima, tj. 20 bodů ze 40.
Pokud bude odhaleno plagiátorství nebo nedovolená spolupráce na projektech, či u půlsemestrální zkoušky, zápočet nebude udělen a dále bude zváženo zahájení disciplinárního řízení.

Rozvrh

DenTypTýdnyMístn.OdDoPSKSkupInfo
Popoč. lab4., 5., 10. výuky N103 N104 N105 12:0013:50 1MIT 2MIT xx
Popoč. lab2020-12-07 N103 N104 12:0013:50obhajoba proj. (rezerva)
Útpřednáškavýuky E104 E105 E112 08:0009:50 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx
Útpřednáška5. výuky E112v 08:0009:50TM, MST
Útpoč. lab2020-12-08 N103 N104 12:0014:50obhajoba proj.
Útpoč. lab4., 5., 10. výuky N103 N104 N105 13:0014:50 1MIT 2MIT xx
Stpoč. lab4., 5., 10. výuky N204 N205 14:0015:50 1MIT 2MIT xx
Stpoč. lab2020-12-09 N204 N205 14:0016:50obhajoba proj.
Čtzkouška2021-01-07 A112 A113 C228 D0206 D0207 D105 E104 E105 E112 G202 M103 M104 M105 N103 N104 N105 N203 N204 N205 09:0011:50 1MIT 2MIT řádná
Čtpoč. lab2020-12-10 N103 N104 10:0012:50obhajoba proj.
Čtzkouška2021-01-21 D0206 D0207 D105 E104 E105 E112 G202 M103 M104 M105 N103 N104 11:0013:50 1MIT 2MIT 1. oprava
Čtpoč. lab4., 5., 10. výuky N103 N104 N105 11:0012:50 1MIT 2MIT xx
Čtzkouška2021-01-07 D0206 D0207 D105 E104 E105 E112 G202 12:0014:50 1MIT 2MIT řádná
Čtzkouška2021-02-04 A112 D0206 D0207 D105 E105 E112 G202 13:0015:50 1MIT 2MIT 2. oprava
cvičení3., 4., 9. výuky D105 16:0017:50 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx demo

Zařazení předmětu ve studijních plánech

Nahoru