Detail publikace

HTML Document Analysis for Information Extraction

BURGET Radek. HTML Document Analysis for Information Extraction. In: Proceedings of 8th EEICT conference. Brno: Fakulta informačních technologií VUT v Brně, 2002, s. 426-430. ISBN 80-214-2116-9.
Název česky
Analýza HTML dokumentů pro extrakci informace
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt

Současný World Wide Web obsahuje obrovské množství informací obsažených v dokumentech HTML. Jazyk HTML ovšem popisuje především vzhled dokumentů a neobsahuje prostředky pro popis struktury obsažených dat. V tomto příspěvku navrhujeme model webového místa, který popisuje logickou strukturu obsahu. Dále navrhujeme metody pro vytvoření tohoto modelu na základě analýzy vzhledu a struktury HTML dokumentů.

Rok
2002
Strany
426-430
Sborník
Proceedings of 8th EEICT conference
Konference
ELECTRICAL ENGINEERING, INFORMATION AND COMMUNICATION TECHNOLOGIES 2002, Brno, CZ
ISBN
80-214-2116-9
Vydavatel
Fakulta informačních technologií VUT v Brně
Místo
Brno, CZ
BibTeX
@INPROCEEDINGS{FITPUB6921,
   author = "Radek Burget",
   title = "HTML Document Analysis for Information Extraction",
   pages = "426--430",
   booktitle = "Proceedings of 8th EEICT conference",
   year = 2002,
   location = "Brno, CZ",
   publisher = "Faculty of Information Technology BUT",
   ISBN = "80-214-2116-9",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/6921"
}
Nahoru