Detail publikace

Scraping Data from Web Pages using SPARQL Queries

BURGET Radek. Scraping Data from Web Pages using SPARQL Queries. In: Web Engineering - 23rd International Conference, ICWE 2023. Lecture Notes in Computer Science. Alicante: Springer Nature Switzerland AG, 2023, s. 293-300. ISBN 978-3-031-34443-5. Dostupné z: https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21
Název česky
Získávání dat z webových stránek pomocí dotazů v jazyce SPARQL
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

Přes rostoucí využívání sémantických dat poskytují prosté webové stránky ve formátu HTML často jedinečné rozhraní pro přístup k datům z mnoha domén. Aby bylo možné tato data využít v počítačových aplikacích nebo je integrovat s jinými zdroji dat, je třeba je z kódu HTML extrahovat. V současné době to obvykle provádějí jednoúčelové programy nazývané scrapery. Pro každý zdroj dat je třeba vytvořit specifické scrapery, což vyžaduje důkladnou analýzu implementace zdrojové stránky v HTML. To činí z psaní a údržby sady scraperů složitý a časově náročný úkol. V tomto článku představujeme alternativní přístup, který umožňuje definovat scrapery na základě vizuálních vlastností prezentovaného obsahu namísto struktury kódu HTML. Nejprve renderujeme zdrojovou stránku a vytvoříme graf RDF, který popisuje vizuální vlastnosti každé části zobrazeného obsahu. Poté se pomocí jazyka SPARQL dotazujeme na tento model a získáváme data. Jak demonstrujeme na příkladech z praxe, tento přístup umožňuje snadno definovat robustnější scrappery, které lze použít na více webových stránkách a které se lépe vyrovnávají se změnami ve zdrojových dokumentech.

Rok
2023
Strany
293-300
Sborník
Web Engineering - 23rd International Conference, ICWE 2023
Řada
Lecture Notes in Computer Science
Konference
23rd International Conference on Web Engineering, Alicante, ES
ISBN
978-3-031-34443-5
Vydavatel
Springer Nature Switzerland AG
Místo
Alicante, ES
DOI
BibTeX
@INPROCEEDINGS{FITPUB12958,
   author = "Radek Burget",
   title = "Scraping Data from Web Pages using SPARQL Queries",
   pages = "293--300",
   booktitle = "Web Engineering - 23rd International Conference, ICWE 2023",
   series = "Lecture Notes in Computer Science",
   year = 2023,
   location = "Alicante, ES",
   publisher = "Springer Nature Switzerland AG",
   ISBN = "978-3-031-34443-5",
   doi = "10.1007/978-3-031-34444-2\_21",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12958"
}
Nahoru