Detail publikace
Web Page Element Classification Based on Visual Features
Typickým problémem při aplikaci tradičních metod získávání znalostí na dokumenty v síti World Wide Web je skutečnost, že většina těchto dokumentů obsahuje kromě hlavního obsahu i množství dodatečných informací různých druhů. Tyto dodatečné informace jako například navigace, reklama nebo kontaktní informace negativně ovlivňují výsledky metod získávání znalostí jako je například klasifikace dokumentu. V tomto příspěvku navrhujeme metodu detekce zajímavých oblastí webové stránky. Tato metoda je inspirovaná předpokládaných chováním běžného čtenáře. Nejdříve jsou ve stránce detekovány základní vizuální bloky a jejich význam je následně odhadován na základě jejich vzhledu. Popisujeme algoritmus segmentace stránek použitý pro detekci těchto bloků, navrhujeme způsob jejich klasifikace na základě vizuálních vlastností a představujeme výsledky experimentálního testování metody na reálných datech.
@INPROCEEDINGS{FITPUB8881, author = "Radek Burget and Ivana Rudolfov\'{a}", title = "Web Page Element Classification Based on Visual Features", pages = "67--72", booktitle = "1st Asian Conference on Intelligent Information and Database Systems ACIIDS 2009", year = 2009, location = "Dong Hoi, VN", publisher = "IEEE Computer Society", ISBN = "978-0-7695-3580-7", language = "english", url = "https://www.fit.vut.cz/research/publication/8881" }