Detail výsledku

Visual Area Classification for Article Identification in Web Documents

BURGET, R. Visual Area Classification for Article Identification in Web Documents. 21st International Workshop on Databases and Expert Systems Applications. Bilbao: IEEE Computer Society, 2010. p. 171-175. ISBN: 978-0-7695-4174-7.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Abstrakt

In the World Wide Web, the news and other articles are usually published in complex HTML documents containing many types of additional information that is not explicitly marked. In this paper, we propose a visual information analysis approach to the article discovery in complex HTML documents. We use a classification approach for the identification the important parts of the article within the page and we propose an algorithm for the detection of the article bounds within the page. Finally, we provide the results of an experimental evaluation.

Klíčová slova

article extraction, document cleaning, page segmentation, visual analysis

Rok
2010
Strany
171–175
Sborník
21st International Workshop on Databases and Expert Systems Applications
Konference
9th International Workshop on Web Semantics
ISBN
978-0-7695-4174-7
Vydavatel
IEEE Computer Society
Místo
Bilbao
BibTeX
@inproceedings{BUT35628,
  author="Radek {Burget}",
  title="Visual Area Classification for Article Identification in Web Documents",
  booktitle="21st International Workshop on Databases and Expert Systems Applications",
  year="2010",
  pages="171--175",
  publisher="IEEE Computer Society",
  address="Bilbao",
  isbn="978-0-7695-4174-7"
}
Projekty
Rozpoznávání a prezentace informací z multimediálních dat, VUT, Vnitřní projekty VUT, FIT-S-10-2, 2010, zahájení: 2010-04-01, ukončení: 2010-12-31, ukončen
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru