Detail publikace

Visual HTML Document Modeling for Information Extraction

BURGET Radek. Visual HTML Document Modeling for Information Extraction. In: RAWS 2005. Ostrava: Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava, 2005, s. 17-24. ISBN 80-248-0864-1.
Název česky
Visuální modelování HTML dokumentů pro extrakci informace
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt

Současné metody pro extrakci informace z HTML dokumentů jsou založeny převážně na tzv. wrapperech, které zpracovávají HTML kód a identifikují data na základě vlastností okolních HTML značek a textu. Slabým místem tohoto přístupu je příliš úzká vazba na HTML kód. Povaha HTML umožňuje dosáhnout výsledného vzhledu dokumentu mnoha způsoby, které mohou být libovolně kombinovány, což způsobuje, že wrappery jsou omezeny na úzkou množinu dokumentů a krátký časový interval. Na druhou stranu však existují některá obecně uznávaná pravidla pro vizuální prezentaci dat v dokumentech. Prezentovaný přístup je založen na modelování vizuální informace v dokumentech za účelem identifikace dat. Definujeme formální modely vizuální informace a navrhujeme metodu pro extrakci informace založenou na přibližném porovnávání stromů.

Rok
2005
Strany
17-24
Sborník
RAWS 2005
Konference
First International Workshop on Representation and Analysis of Web Space, Praha - Točná, CZ
ISBN
80-248-0864-1
Vydavatel
Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava
Místo
Ostrava, CZ
BibTeX
@INPROCEEDINGS{FITPUB7880,
   author = "Radek Burget",
   title = "Visual HTML Document Modeling for Information Extraction",
   pages = "17--24",
   booktitle = "RAWS 2005",
   year = 2005,
   location = "Ostrava, CZ",
   publisher = "Faculty of Electrical Engineering and Computer Science, VSB-TU Ostrava",
   ISBN = "80-248-0864-1",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/7880"
}
Nahoru