Dissertation Topic

Pokročilé extrakce a vyhodnocování veřejných dat na webu

Academic Year: 2024/2025

Supervisor: Burget Radek, doc. Ing., Ph.D.

Co-supervisor: Hynek Jiří, Ing., Ph.D.

Department: Department of Information Systems

Programs:
Information Technology (DIT) - full-time study
Information Technology (DIT) - combined study

This dissertation topic is available for Czech studies only.

Digitalizace veřejných institucí (např. logických samospráv nebo úřadů) přinesla zásadní změny v prezentaci informací, které jsou nyní stále častěji poskytovány v elektronické podobě (příkladem je portál data.brno.cz). Tento trend reflektuje snahu institucí zvýšit efektivitu, transparentnost a dostupnost informací pro občany. Elektronická prezentace umožňuje veřejným institucím poskytovat informace online prostřednictvím webových stránek, mobilních aplikací nebo elektronických bulletinů. Díky tomu mají občané okamžitý přístup k důležitým dokumentům, zprávám a oznámením. Zároveň umožňuje interaktivní prezentace dat a informací, což podporuje angažovanost veřejnosti a umožňuje občanům účinněji se zapojovat do veřejného života. Digitalizace tak představuje klíčový prvek modernizace veřejné správy a posiluje otevřenost a dostupnost informací ve prospěch občanů a dalších zúčastněných stran.

Jedním z hlavních problémů prezentace takových dat je nejednotnost formátů a struktury dat na různých webových stránkách různých samospráv. Každá samospráva může používat odlišné platformy a informace mohou být prezentovány různými způsoby, což značně komplikuje automatizovaný proces extrakce. Dalším aspektem je proměnlivost obsahu na webových stránkách samospráv, která může být překážkou pro konzistentní a spolehlivou extrakci dat. Často se stává, že informace, které jsou pro veřejnost relevantní, jsou umístěny na různých částech webových stránek, a tyto lokální změny mohou vyžadovat pružné a dynamické nástroje pro extrakci.

Za účelem výše zmíněných problémů vznikají iniciativy standardizace otevřených dat ve veřejné správě. Příkladem je Portál otevřených dat ČR (data.gov.cz, opendata.gov.cz), repositář Otevřená data ČR @ MVČR (github.com/opendata-mvcr) nebo portál otevřených dat města Brna (data.brno.cz).

Cílem této disertační práce je aplikovat přístupy strojového učení na klasifikaci a vyhodnocování otevřených dat v ČR a ve světě. Zejména se bude jednat o:

  • nové přístupy analýzy HTML kódu dokumentu (DOM)
  • aplikace strojového učení pro zpracování text dokumentů (hledání klíčových slov, statistická analýza textu, metody zpracování přirozeného jazyka)
  • nové metody pro vizuální organizaci (rozložení obsahu na stránce, vizuální vlastnosti)
  • algoritmy pro transformaci dat do standardizovaných modelů, případně návrh nových modelů
Back to top