Detail publikace
Cluster-based Page Segmentation - a fast and precise method for web page pre-processing
Segmentace webových stránek může být jedním z prvních kroků při jejich zpracování. Ačkoliv v této oblasti již nějakou dobu probíhá výzkum, jednotlivé práce se zaměřují buď na kvalitu nebo výkonnost přístupu. Tato práce představuje postup, kterým lze dosáhnout vyšších výkonů vizuálně orientovaných algoritmů. Náš přístup je založen na konceptech moderního pojetí webu a velmi častém přístupu, kdy je více stránek zpracováváno v jedné dávce. Vezmeme-li v úvahu tento scénář, výrazné zrychlení může být získáno izomorfním mapováním DOM stromů jednotlivých stránek a následném využití již dříve existujících výsledků segmentace. V této práci představujeme kromě metody samotné také experimentální ověření a porovnání výsledků s algoritmem VIPS, který je v oblasti segmentace de facto průmyslovým standardem.
@INPROCEEDINGS{FITPUB10252, author = "Jan Zelen\'{y} and Radek Burget", title = "Cluster-based Page Segmentation - a fast and precise method for web page pre-processing", pages = "1--12", booktitle = "The Third International Conference on Web Intelligence, Mining and Semantics", year = 2013, location = "Madrid, ES", publisher = "Association for Computing Machinery", ISBN = "978-1-4503-1850-1", doi = "10.1145/2479787.2479792", language = "english", url = "https://www.fit.vut.cz/research/publication/10252" }