Result Details

Extrakce informace z WWW na základě znalosti struktury dat

BURGET, R. Extrakce informace z WWW na základě znalosti struktury dat. Sborník příspěvků 2. ročníku konference Znalosti 2003. Ostrava: Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava, 2003. s. 271-280. ISBN: 80-248-0229-5.

English title

Information Extraction from WWW based on the data structure knowledge

Type

conference paper

Language

Czech

Authors

Burget Radek, doc. Ing., Ph.D., FIT (FIT)

Abstract

S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stáleaktuálnější problém jejich dalšího zpracování, například za účelem jejichintegrace do většího informačního celku, nebo za účelem získávání znalostíz těchto dat. Současné techniky automatické extrakce informace z HTMLdokumentů ve většině případů vycházejí z předpokladu, že existuje množinadokumentů generovaných stejným způsobem ze společné báze dat. Na základěanalýzy této množiny jsou pomocí různých postupů, ať již za asistenceuživatele či automaticky, určena pravidla pro extrakci konkrétních datz HTML dokumentu. V praxi však tento předpoklad často není splněn, mnohodokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky)nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomtopříspěvku navrhujeme nový přístup, který je založen na popisu logické strukturyobsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce datz tohoto popisu pomocí XSL transformace na základě předem připravenéspecifikace a dále se příspěvek zabývá možnostmi automatické extrakceinformace na základě srovnání struktury požadovaných dat se strukturoudokumentu za pomoci algoritmů pro porovnávání stromových struktur.

English abstract

This paper deals with the matter of modelling the logical structure ofa Web site and using such model for information extraction. It proposesan algorithm for creating a site model based on the HTML code analysisand a XML/XSL based system for information extraction from this model.Furthermore, the possibility of the usage of tree matching algorithmsfor automating the extraction process is discussed.

Keywords

Extrakce Informace, HTML, XML

English keywords

Information Extraction, HTML, XML

Published

2003

Pages

271–280

Proceedings

Sborník příspěvků 2. ročníku konference Znalosti 2003

Conference

Znalosti 2003

ISBN

80-248-0229-5

Publisher

Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava

Place

Ostrava

BibTeX

@inproceedings{BUT13790,
  author="Radek {Burget}",
  title="Extrakce informace z WWW na základě znalosti struktury dat",
  booktitle="Sborník příspěvků 2. ročníku konference Znalosti 2003",
  year="2003",
  pages="271--280",
  publisher="Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava",
  address="Ostrava",
  isbn="80-248-0229-5"
}

Research groups

Výzkumná skupina informačních a databázových systémů (RG IS)

Departments

Fakulta informačních technologií (FIT)
Ústav informačních systémů (DIFS)