Detail publikace

HTML Document Analysis for Information Extraction

BURGET, R. HTML Document Analysis for Information Extraction. Proceedings of 8th EEICT conference. Brno: Faculty of Information Technology BUT, 2002. p. 426-430. ISBN: 80-214-2116-9.

Název česky

Analýza HTML dokumentů pro extrakci informace

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)

Klíčová slova

HTML Analysis, Information Extraction

Abstrakt

Současný World Wide Web obsahuje obrovské množství informací obsažených v dokumentech HTML. Jazyk HTML ovšem popisuje především vzhled dokumentů a neobsahuje prostředky pro popis struktury obsažených dat. V tomto příspěvku navrhujeme model webového místa, který popisuje logickou strukturu obsahu. Dále navrhujeme metody pro vytvoření tohoto modelu na základě analýzy vzhledu a struktury HTML dokumentů.

Rok

2002

Strany

426–430

Sborník

Proceedings of 8th EEICT conference

ISBN

80-214-2116-9

Vydavatel

Faculty of Information Technology BUT

Místo

Brno

BibTeX

@inproceedings{BUT10014,
  author="Radek {Burget}",
  title="HTML Document Analysis for Information Extraction",
  booktitle="Proceedings of 8th EEICT conference",
  year="2002",
  pages="426--430",
  publisher="Faculty of Information Technology BUT",
  address="Brno",
  isbn="80-214-2116-9"
}