Detail publikace
Layout Based Information Extraction from HTML Documents
BURGET Radek. Layout Based Information Extraction from HTML Documents. In: 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007, s. 624-629. ISBN 0-7695-2822-8.
Název česky
Extrakce informace z HTML dokumetnů založená na rozložení stránky
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT)
Abstrakt
Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci rozložení stránky a následný extrakční proces je založen na analýze vzájemných pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je robustnější, než tradiční metody založené na DOM a otevírá nové možnosti specifikace extrakční úlohy.
Rok
2007
Strany
624-629
Sborník
9th International Conference on Document Analysis and Recognition ICDAR 2007
Konference
9th International Conference on Document Analysis and Recognition, Curitiba, BR
ISBN
0-7695-2822-8
Vydavatel
IEEE Computer Society
Místo
Curitiba, BR
BibTeX
@INPROCEEDINGS{FITPUB8403, author = "Radek Burget", title = "Layout Based Information Extraction from HTML Documents", pages = "624--629", booktitle = "9th International Conference on Document Analysis and Recognition ICDAR 2007", year = 2007, location = "Curitiba, BR", publisher = "IEEE Computer Society", ISBN = "0-7695-2822-8", language = "english", url = "https://www.fit.vut.cz/research/publication/8403" }