Detail předmětu
Ukládání a příprava dat
UPA Ak. rok 2020/2021 zimní semestr 5 kreditů
Předmět se zaměřuje na moderní databázové systémy jako typické zdroje dat pro získávání znalostí a dále na přípravu dat k získávání znalostí. Jedná se o rozšířené relační (objektově-relační, s podporou pro práci s XML a JSON dokumenty), prostorové a NoSQL databázové systémy. Vysvětlený je odpovídající databázový model, způsob práce s daty a některé metody indexace dat. V kontextu výkladu základních kroků procesu získávání znalostí z dat je věnována pozornost popisným charakteristíkám dat a vizualizačním technikám používaným k pochopení dat a jejich vlastností. Dále jsou vysvětleny přístupy řešení typických úloh předzpracování dat pro získávání znalostí, jako je čištění, integrace, transformace, redukce apod. Rovněž jsou prezentovány přístupy k extrakci informace z webu pro účely získávání znalostí, charakterizovány nejčastěji používané jazyky a systémy pro získávání znalostí z dat a je uvedeno několik reálných případových studií.
V rámci předmětu studenti řeší projekt zaměřený na ...
Aktuální informace
V souvislosti s pokračující online výukou se mění organizace půlsemestrální zkoušky takto:
V tomto smyslu jsou upraveny i informace ve wiki. |
Garant předmětu
Zástupce garanta předmětu
Jazyk výuky
Zakončení
Rozsah
Bodové hodnocení
Zajišťuje ústav
Přednášející
Burgetová Ivana, Ing., Ph.D. (UIFS FIT VUT)
Kolář Dušan, doc. Dr. Ing. (UIFS FIT VUT)
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT)
Zendulka Jaroslav, doc. Ing., CSc. (UIFS FIT VUT)
Cvičící
Získané dovednosti, znalosti a kompetence z předmětu
Studenti budou schopni ukládat a manipulovat data ve vhodných databázových systémech, zkoumat vlastnosti dat a připravit je pro následné modelování v rámci získávání znalostí.
Dovednosti, znalosti a kompetence obecné
- Student lépe zvládne práci s daty v různých situacích.
- Student se zdokonalí v řešení malých projektů v malém týmu.
Cíle předmětu
Cílem předmětu je vysvětlit historický vývoj databázových technologií, motivaci získávání znalostí z dat a základní kroky procesu získávání znalostí, vysvětlit podstatu, vlastnosti a použití rozšířených relačních a NoSQL databází jako zdrojů dat pro získávání znalostí a vysvětlit přístupy a metody používané pro pochopení dat a přípravu dat pro získávání znalostí.
Proč je předmět vyučován
Předmět si klade za cíl ukázat, jak na složitá data kolem nás, jak je uložit, jak se v nich orientovat, získat z nich užitečné charakteristiky a připravit je pro extrakci skrytých informací/znalostí aplikací metod strojového učení a jiných pokročilých metod analýzy.
Požadované prerekvizitní znalosti a dovednosti
- Základy relačních databází a jazyka SQL.
- Objektově orientované paradigma.
- Základy jazyka XML.
- Základy výpočetní geometrie.
- Základy statistiky a pravděpodobnosti.
Literatura studijní
- Podklady k přednáškám (slajdy, skripty, apod.)
- Lemahieu, W., Broucke, S., Baesens, B.: Principles of Database Management. Cambridge University Press. 2018, 780 s.
- Kim, W. (ed.): Modern Database Systems, ACM Press, 1995, ISBN 0-201-59098-0
- Melton, J.: Advanced SQL: 1999 - Understanding Object-Relational and Other Advanced. Morgan Kaufmann, 2002, 562 s., ISBN 1-558-60677-7
- Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, p. 703, ISBN 978-0-12-381479-1
- Skiena, S.S.: The Data Science Design Manual. Springer, 2017, 445 s. ISBN 978-3-319-55443-3.
- Shekhar, S., Chawla, S.: Spatial Databases: A Tour, Prentice Hall, 2002/2003, 262 s., ISBN 0-13-017480-7
- Gaede, V., Günther, O.: Multidimensional Access Methods, ACM Computing Surveys, Vol. 30, No. 2, 1998, s. 170-231.
Literatura referenční
- Lemahieu, W., Broucke, S., Baesens, B.: Principles of Database Management. Cambridge University Press. 2018, 780 s.
- Kim, W. (ed.): Modern Database Systems, ACM Press, 1995, ISBN 0-201-59098-0
- Melton, J.: Advanced SQL: 1999 - Understanding Object-Relational and Other Advanced. Morgan Kaufmann, 2002, 562 s., ISBN 1-558-60677-7
- Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Morgan Kaufmann Publishers, 2012, p. 703, ISBN 978-0-12-381479-1
- Skiena, S.S.: The Data Science Design Manual. Springer, 2017, 445 s. ISBN 978-3-319-55443-3.
- Shekhar, S., Chawla, S.: Spatial Databases: A Tour, Prentice Hall, 2002/2003, 262 s., ISBN 0-13-017480-7
- Gaede, V., Günther, O.: Multidimensional Access Methods, ACM Computing Surveys, Vol. 30, No. 2, 1998, s. 170-231.
Osnova přednášek
- Historie vývoje databázových technologií a získávání znalostí z dat, proces získávání znalostí z dat.
- Objektový přístup v databázích.
- NoSQL databáze I - úvod do NoSQL, CAP teorém a BASE, databáze klíč-hodnota a způsob uložení dat, rozdělení (partitioning) a distribuce dat.
- NoSQL databáze II - modely dat v NoSQL databázích (sloupcové, dokumentové a grafové databáze), dotazování a agregace dat, NewSQL databáze.
- Extrakce dat z webu (web scraping).
- Příprava dat - porozumění datům: popisné charakteristiky, vizualizační techniky, korelační analýza.
- Příprava dat - předzpracování I: čištění dat, integrace.
- Příprava dat - předzpracování II: redukce dat a řešení nevyváženosti dat, transformace dat, další úlohy předzpracování.
- Půlsemestrální zkouška.
- Jazyky a systémy pro získávání znalostí z dat, reálné případové studie.
- Podpora pro práci s XML a JSON dokumenty v databázích.
- Prostorové databáze.
- Indexování vícedimenzionálních dat.
Osnova numerických cvičení
DEMO cvičení
- Objektově-relační a prostorové databáze, práce v nich, zvláštnosti užití
- Multimediální a XML databáze, indexace dat
- NoSQL databáze
Osnova počítačových cvičení
- Aplikační vazby na objektově relační databáze, aplikace v prostorových databázích
- Multimediální a XML databáze, indexace dat
- NoSQL databáze v aplikacích
Osnova ostatní - projekty, práce
- Vytvoření aplikace a demonstrace vlastností práce s nestrukturovanými i strukturovanými daty různé povahy.
Průběžná kontrola studia
- Půlsemestrální zkouška, u které neexistuje náhradní, či opravný termín.
- Řešení 1 projektu v průběhu semestru a jeho odevzdání ve stanoveném termínu.
Kontrolovaná výuka
- Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší garant.
- Formulace dolovací úlohy v předepsaném termínu, omluvené neúčasti řeší cvičící.
- Prezentace výsledků projektu v předepsaném termínu, omluvené neúčasti řeší cvičící.
- Závěrečná zkouška, pro získání bodů ze zkoušky je nutné zkoušku vypracovat tak, aby byla hodnocena nejméně 20 body. V opačném případě bude zkouška hodnocena 0 body. Omluvenou neúčast řeší garant.
Podmínky zápočtu
Student musí během semestru získat alespoň 50% bodů z možného maxima, tj. 20 bodů ze 40.
Pokud bude odhaleno plagiátorství nebo nedovolená spolupráce na projektech, či u půlsemestrální zkoušky, zápočet nebude udělen a dále bude zváženo zahájení disciplinárního řízení.
Rozvrh
Den | Typ | Týdny | Místn. | Od | Do | PSK | Skup | Info |
---|---|---|---|---|---|---|---|---|
Po | poč. lab | 4., 5., 10. výuky | N103 N104 N105 | 12:00 | 13:50 | 1MIT 2MIT | xx | |
Po | poč. lab | 2020-12-07 | N103 N104 | 12:00 | 13:50 | obhajoba proj. (rezerva) | ||
Út | přednáška | výuky | E104 E105 E112 | 08:00 | 09:50 | 1MIT 2MIT | NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx | |
Út | přednáška | 5. výuky | E112v | 08:00 | 09:50 | TM, MST | ||
Út | poč. lab | 2020-12-08 | N103 N104 | 12:00 | 14:50 | obhajoba proj. | ||
Út | poč. lab | 4., 5., 10. výuky | N103 N104 N105 | 13:00 | 14:50 | 1MIT 2MIT | xx | |
St | poč. lab | 4., 5., 10. výuky | N204 N205 | 14:00 | 15:50 | 1MIT 2MIT | xx | |
St | poč. lab | 2020-12-09 | N204 N205 | 14:00 | 16:50 | obhajoba proj. | ||
Čt | zkouška | 2021-01-07 | A112 A113 C228 D0206 D0207 D105 E104 E105 E112 G202 M103 M104 M105 N103 N104 N105 N203 N204 N205 | 09:00 | 11:50 | 1MIT 2MIT | řádná | |
Čt | poč. lab | 2020-12-10 | N103 N104 | 10:00 | 12:50 | obhajoba proj. | ||
Čt | zkouška | 2021-01-21 | D0206 D0207 D105 E104 E105 E112 G202 M103 M104 M105 N103 N104 | 11:00 | 13:50 | 1MIT 2MIT | 1. oprava | |
Čt | poč. lab | 4., 5., 10. výuky | N103 N104 N105 | 11:00 | 12:50 | 1MIT 2MIT | xx | |
Čt | zkouška | 2021-01-07 | D0206 D0207 D105 E104 E105 E112 G202 | 12:00 | 14:50 | 1MIT 2MIT | řádná | |
Čt | zkouška | 2021-02-04 | A112 A113 D0206 D0207 D105 E105 E112 G202 | 13:00 | 15:50 | 1MIT 2MIT | 2. oprava | |
Pá | cvičení | 3., 4., 9. výuky | D105 | 16:00 | 17:50 | 1MIT 2MIT | NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx | demo |
Zařazení předmětu ve studijních plánech