Detail publikace

Cluster-based Page Segmentation - a fast and precise method for web page pre-processing

ZELENÝ Jan a BURGET Radek. Cluster-based Page Segmentation - a fast and precise method for web page pre-processing. In: The Third International Conference on Web Intelligence, Mining and Semantics. Madrid: Association for Computing Machinery, 2013, s. 1-12. ISBN 978-1-4503-1850-1.
Název česky
Cluster-based Page Segmentation - rychlá a přesná metoda pro předzpracování webových stránek
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt

Segmentace webových stránek může být jedním z prvních kroků při jejich zpracování. Ačkoliv v této oblasti již nějakou dobu probíhá výzkum, jednotlivé práce se zaměřují buď na kvalitu nebo výkonnost přístupu. Tato práce představuje postup, kterým lze dosáhnout vyšších výkonů vizuálně orientovaných algoritmů. Náš přístup je založen na konceptech moderního pojetí webu a velmi častém přístupu, kdy je více stránek zpracováváno v jedné dávce. Vezmeme-li v úvahu tento scénář, výrazné zrychlení může být získáno izomorfním mapováním DOM stromů jednotlivých stránek a následném využití již dříve existujících výsledků segmentace. V této práci představujeme kromě metody samotné také experimentální ověření a porovnání výsledků s algoritmem VIPS, který je v oblasti segmentace de facto průmyslovým standardem.

Rok
2013
Strany
1-12
Sborník
The Third International Conference on Web Intelligence, Mining and Semantics
Konference
International Conference on Web Intelligence, Mining and Semantics, Madrid, ES
ISBN
978-1-4503-1850-1
Vydavatel
Association for Computing Machinery
Místo
Madrid, ES
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB10252,
   author = "Jan Zelen\'{y} and Radek Burget",
   title = "Cluster-based Page Segmentation - a fast and precise method for web page pre-processing",
   pages = "1--12",
   booktitle = "The Third International Conference on Web Intelligence, Mining and Semantics",
   year = 2013,
   location = "Madrid, ES",
   publisher = "Association for Computing Machinery",
   ISBN = "978-1-4503-1850-1",
   doi = "10.1145/2479787.2479792",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/10252"
}
Nahoru