Detail předmětu

Ukládání a příprava dat

UPA Ak. rok 2023/2024 zimní semestr 5 kreditů

Předmět se zaměřuje na moderní databázové systémy jako typické zdroje dat pro získávání znalostí a dále na přípravu dat k získávání znalostí. Jedná se o rozšířené relační (objektově-relační, s podporou pro práci s XML a JSON dokumenty), prostorové a NoSQL databázové systémy. Vysvětlený je odpovídající databázový model, způsob práce s daty a některé metody indexace dat. V kontextu výkladu základních kroků procesu získávání znalostí z dat je věnována pozornost popisným charakteristikám dat a vizualizačním technikám používaným k pochopení dat a jejich vlastností. Dále jsou vysvětleny přístupy řešení typických úloh předzpracování dat pro získávání znalostí, jako je čištění, integrace, transformace, redukce apod. Rovněž jsou prezentovány přístupy k extrakci informace z webu pro účely získávání znalostí, charakterizovány nejčastěji používané jazyky a systémy pro získávání znalostí z dat a je uvedeno několik reálných případových studií.

Garant předmětu

Koordinátor předmětu

Jazyk výuky

česky

Zakončení

zápočet+zkouška (písemná)

Rozsah

  • 26 hod. přednášky
  • 6 hod. seminář
  • 6 hod. pc laboratoře
  • 14 hod. projekty

Bodové hodnocení

  • 56 bodů závěrečná zkouška (písemná část)
  • 20 bodů půlsemestrální test (písemná část)
  • 24 bodů projekty

Zajišťuje ústav

Přednášející

Cvičící

Cíle předmětu

Cílem předmětu je vysvětlit historický vývoj databázových technologií, motivaci získávání znalostí z dat a základní kroky procesu získávání znalostí, vysvětlit podstatu, vlastnosti a použití rozšířených relačních a NoSQL databází jako zdrojů dat pro získávání znalostí a vysvětlit přístupy a metody používané pro pochopení dat a přípravu dat pro získávání znalostí.

Studenti budou schopni ukládat a manipulovat data ve vhodných databázových systémech, zkoumat vlastnosti dat a připravit je pro následné modelování v rámci získávání znalostí.

  • Student lépe zvládne práci s daty v různých situacích.
  • Student se zdokonalí v řešení malých projektů v malém týmu.

Proč je předmět vyučován

Předmět si klade za cíl ukázat, jak na složitá data kolem nás, jak je uložit, jak se v nich orientovat, získat z nich užitečné charakteristiky a připravit je pro extrakci skrytých informací/znalostí aplikací metod strojového učení a jiných pokročilých metod analýzy.

Požadované prerekvizitní znalosti a dovednosti

  • Základy relačních databází a jazyka SQL.
  • Objektově orientované paradigma.
  • Základy jazyka XML.
  • Základy výpočetní geometrie.
  • Základy statistiky a pravděpodobnosti.

Osnova přednášek

  1. Úvod do předmětu, objektový přístup v databázích.
  2. NoSQL databáze I - úvod do NoSQL, CAP teorém a BASE, databáze klíč-hodnota a způsob uložení dat, rozdělení (partitioning) a distribuce dat.
  3. NoSQL databáze II - modely dat v NoSQL databázích (sloupcové, dokumentové a grafové databáze), dotazování a agregace dat, NewSQL databáze.
  4. Příprava dat - porozumění datům: popisné charakteristiky, vizualizační techniky, korelační analýza.
  5. Příprava dat - předzpracování I: čištění dat, integrace.
  6. Příprava dat - předzpracování II: redukce dat a řešení nevyváženosti dat, transformace dat, další úlohy předzpracování.
  7. Půlsemestrální zkouška.
  8. Extrakce dat z webu (web scraping).
  9. Sémantický web a propojená data.
  10. Jazyky a systémy pro získávání znalostí z dat, reálné případové studie.
  11. Podpora pro práci s XML a JSON dokumenty v databázích.
  12. Prostorové databáze.
  13. Indexování vícedimenzionálních dat.

Osnova seminářů

  1. Objekty a dokumenty v databázích
  2. NoSQL databáze
  3. Získávání znalostí z dat - příprava dat

Osnova počítačových cvičení

  1. Objekty a dokumenty v databázích
  2. NoSQL databáze
  3. Získávání znalostí z dat - příprava dat

Osnova ostatní - projekty, práce

Vytvoření aplikace pro zpracování rozsáhlých strukturovaných i nestrukturovaných dat, které zahrnuje, mimo jiné, získání a načtení dat, jejich přípravou pro další využití (např. pro získávání znalostí z databází) a tvorbu popisných charakteristik pro zvolená data.

Průběžná kontrola studia

  • Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší zástupce garanta.
  • Vypracování a odevzdání výsledků projektu v předepsaných termínech, omluvené neúčasti řeší cvičící.
  • Závěrečná zkouška, kde je pro získání bodů ze zkoušky nutné zkoušku vypracovat tak, aby byla hodnocena nejméně 20 body (v opačném případě bude zkouška hodnocena 0 body). Omluvenou neúčast řeší zástupce garanta.

Podmínky zápočtu

Student musí během semestru získat alespoň 20 bodů ze 44 možných.
Pokud bude odhaleno plagiátorství nebo nedovolená spolupráce na projektech, či u půlsemestrální zkoušky, zápočet nebude udělen a dále bude zváženo zahájení disciplinárního řízení.

Rozvrh

DenTypTýdnyMístn.OdDoKapacitaPSKSkupInfo
Po zkouška 2024-01-08 A112 D0206 D105 09:0011:50 řádná
Po zkouška 2024-01-22 E112 09:0011:50 1. termín
Po poč. lab 3., 4. výuky N103 N104 N105 09:0010:5060 1MIT 2MIT xx Rychlý
Po poč. lab 2023-11-06 N103 N104 N105 09:0010:5060 1MIT 2MIT xx Burgetová
Út zkouška 2024-01-30 D0206 08:0010:50 2. termín
Út zkouška 2023-11-07 E104 E105 E112 15:0015:50 Půlsemestrální zkouška (1. běh)
Út přednáška 1., 2., 3., 11. výuky E104 E105 E112 15:0016:50294 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Rychlý
Út přednáška 5., 6., 7. výuky E104 E105 E112 15:0016:50294 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Burgetová
Út přednáška 9., 10. výuky E104 E105 E112 15:0016:50294 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Burget
Út přednáška 12., 13. výuky E104 E105 E112 15:0016:50294 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Kolář
Út přednáška 2023-10-10 E104 E105 E112 15:0016:50294 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Burgetová, Rychlý
Út přednáška 2023-11-07 E104 E105 E112 15:0016:50294 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Burget, Burgetová, Rychlý
Út zkouška 2023-11-07 E104 E105 E112 16:0016:50 Půlsemestrální zkouška (2. běh)
St poč. lab 3., 4. výuky N104 N105 08:0009:5040 1MIT 2MIT xx Rychlý
St poč. lab 2023-11-08 N104 N105 08:0009:5040 1MIT 2MIT xx Burgetová
St poč. lab 3., 4. výuky N103 N104 N105 10:0011:5060 1MIT 2MIT xx Rychlý
St poč. lab 2023-11-08 N103 N104 N105 10:0011:5060 1MIT 2MIT xx Burgetová
St poč. lab 2023-11-29 N103 N104 N105 10:0011:5060 1MIT 2MIT xx Rychlý mimořádné cv. k přednášce SAP Hana (nepovinné, jen pro zájemce)
Čt poč. lab 3., 4. výuky N103 N104 N105 12:0013:5060 1MIT 2MIT xx Rychlý
Čt poč. lab 2023-11-09 N103 N104 N105 12:0013:5060 1MIT 2MIT xx Burgetová
ostatní 2023-12-22 C231 15:0015:05 Bonus body - projekt 2.část
seminář 2., 3. výuky D105 17:0018:50316 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Rychlý
seminář 2023-09-22 D105 17:0018:50316 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx
seminář 2023-10-27 D105 17:0018:50316 1MIT 2MIT NBIO - NSPE NHPC - NEMB NISY NSEC - NGRI xx Burgetová

Zařazení předmětu ve studijních plánech

Nahoru