Fakulta informačních technologií VUT v Brně

Detail publikace

Model-Based Integration of Unstructured Web Data Sources Using Graph Representation of Document Contents

BURGET Radek. Model-Based Integration of Unstructured Web Data Sources Using Graph Representation of Document Contents. In: 15th International Conference on Web Information Systems and Technologies. Vienna: SciTePress - Science and Technology Publications, 2019, s. 326-333. ISBN 978-989-758-386-5.
Název česky
Modelem řízená integrace nestrukturovaných datových zdrojů založená na grafové reprezentaci obsahu dokumentů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Burget Radek, Ing., Ph.D. (UIFS FIT VUT)
Abstrakt
Nestrukturované nebo částečně strukturované dokumenty na webu se často používají pro publikování strukturovaných dat specifických pro určitou doménu, která nejsou dostupná z jiných zdrojů. Integrace takových dokumentů jako zdrojů dat do standardního informačního systému představuje stále náročný problém kvůli velmi volné struktuře vstupních dokumentů a obvykle chybějící sémantické anotaci publikovaných dat. V tomto článku navrhujeme přístup k integraci dat, který využívá doménový model cílového informačního systému. Nejprve navrhujeme grafový model vstupního dokumentu, který umožňuje interpretovat obsažená data různými alternativními způsoby. Dále navrhujeme způsob zarovnání modelu dokumentu s modelem cílové domény na základě vyhodnocení všech možných mapování mezi těmito dvěma modely. A konečně demonstrujeme použitelnost navrhovaného přístupu na vzorové doméně jízdních řádů veřejné dopravy a předkládáme předběžné výsledky dosažené pro reálné dokumenty dostupné na webu.
Rok
2019
Strany
326-333
Sborník
15th International Conference on Web Information Systems and Technologies
Konference
15th International Conference on Web Information Systems and Technologies, Vienna, AT
ISBN
978-989-758-386-5
Vydavatel
SciTePress - Science and Technology Publications
Místo
Vienna, AT
BibTeX
@INPROCEEDINGS{FITPUB12003,
   author = "Radek Burget",
   title = "Model-Based Integration of Unstructured Web Data Sources Using Graph Representation of Document Contents",
   pages = "326--333",
   booktitle = "15th International Conference on Web Information Systems and Technologies",
   year = 2019,
   location = "Vienna, AT",
   publisher = "SciTePress - Science and Technology Publications",
   ISBN = "978-989-758-386-5",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12003"
}
Nahoru