Detail publikace
Automatic Web Document Restructuring Based on Visual Information Analysis
Mnoho dokumentů přístupných přes současný web má poměrně složitou strukturu, která umožňuje prezentovat různé druhy informací. Kromě hlavního obsahu proto stránky obvykle obsahují záhlaví a zápatí, navigační část a další druhy dodatečných informací. Pro mnoho aplikací, jako například indexování dokumentů nebo jejich prohlížení na speciálních zařízeních je vhodné, aby v HTML kódu dokumentu hlavní obsah předcházel ostatní informace. V tomto příspěvku představujeme metodu předzpracování dokumentů, která automaticky upraví strukturu dokumentu podle tohoto kritéria. Metoda využívá algoritmus segmentace stránek pro detekci základních bloků stránky. Relevance jednotlivých bloků je pak odhadnuta na základě jejich vizuálních vlastností.
@INPROCEEDINGS{FITPUB9027, author = "Radek Burget", title = "Automatic Web Document Restructuring Based on Visual Information Analysis", pages = "61--70", booktitle = "Advances in Intelligent Web Mastering - 2, Proceedings of the 6th Atlantic Web Intelligence Conference - AWIC'2009", series = "Advances in Intelligent and Soft Computing , Vol. 67", year = 2010, location = "Prague, CZ", publisher = "Springer Verlag", ISBN = "978-3-642-10686-6", doi = "10.1007/978-3-642-10687-3\_6", language = "english", url = "https://www.fit.vut.cz/research/publication/9027" }