Detail publikace
HTML Document Analysis for Information Extraction
BURGET Radek. HTML Document Analysis for Information Extraction. In: Proceedings of 8th EEICT conference. Brno: Fakulta informačních technologií VUT v Brně, 2002, s. 426-430. ISBN 80-214-2116-9.
Název česky
Analýza HTML dokumentů pro extrakci informace
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT)
Abstrakt
Současný World Wide Web obsahuje obrovské množství informací obsažených v dokumentech HTML. Jazyk HTML ovšem popisuje především vzhled dokumentů a neobsahuje prostředky pro popis struktury obsažených dat. V tomto příspěvku navrhujeme model webového místa, který popisuje logickou strukturu obsahu. Dále navrhujeme metody pro vytvoření tohoto modelu na základě analýzy vzhledu a struktury HTML dokumentů.
Rok
2002
Strany
426-430
Sborník
Proceedings of 8th EEICT conference
Konference
ELECTRICAL ENGINEERING, INFORMATION AND COMMUNICATION TECHNOLOGIES 2002, Brno, CZ
ISBN
80-214-2116-9
Vydavatel
Fakulta informačních technologií VUT v Brně
Místo
Brno, CZ
BibTeX
@INPROCEEDINGS{FITPUB6921, author = "Radek Burget", title = "HTML Document Analysis for Information Extraction", pages = "426--430", booktitle = "Proceedings of 8th EEICT conference", year = 2002, location = "Brno, CZ", publisher = "Faculty of Information Technology BUT", ISBN = "80-214-2116-9", language = "english", url = "https://www.fit.vut.cz/research/publication/6921" }