Detail publikace
Extracting Visually Presented Element Relationships from Web Documents
Mnoho dokumentů na WWW prezentuje strukturovanou informaci, která se skládá s většího množství údajů, mezi kterými existují určité vztahy. I když často není obtížné identifikovat hodnoty jednotlivých údajů v textu dokumentu, vztahy mezi nimi často nejsou explicitně popsány v obsahu dokumentu. Jsou vyjádřeny pomocí vizuální prezentace obsahu interpretované čtenářem. V tomto článku popisujeme obecný formální model logických vztahů v dokumentu založený na interpretaci vzorů vizuální prezentace dat v dokumentu. Tento model popisuje vizuálně vyjádřené vztahy mezi jednotlivými částmi obsahu nezávisle na formátu dokumentu a konkrétním způsobu prezentace. Proto může být použit v mnoha aplikacích vyhledávání a extrakce informací. Formálně definujeme navržený model, představujeme metodu extrakce vztahů mezi částmi obsahu na základě analýzy vizuální prezentace a diskutujeme očekávané aplikace. Dále představujeme nový dataset skládající se z programů konferencí a dalších vědeckých událostí. Tento dataset je použit pro experimentální vyhodnocení výsledků implementované metody.
@ARTICLE{FITPUB10468, author = "Radek Burget and Pavel Smr\v{z}", title = "Extracting Visually Presented Element Relationships from Web Documents", pages = "13--29", journal = "International Journal of Cognitive Informatics and Natural Intelligence", volume = 2013, number = 2, year = 2013, ISSN = "1557-3958", doi = "10.4018/ijcini.2013040102", language = "english", url = "https://www.fit.vut.cz/research/publication/10468" }