Detail publikace
Hierarchies in HTML Documents: Linking Text to Concepts
HTML, Extrakce informace, Ontologie, Logická struktura dokumentu
Pro úspěšné nasazení sémantického webu je nezbytné zajistit nástroje pro přiřazování velkých objemů dat, která jsou v současnosti dostupná v dokumentech HTML, k ontologiím sémantického webu. Vzhledem ke značné variabilitě kódu HTML je velmi omezující definovat přímé vazby mezi konkrétními vzory HTML kódu a jednotlivými koncepty. Navrhujeme proto přístup založený na modelování vizuální stránky dokumentů a na obecném popisu klíčových charakteristik vizuální prezentace dat. Jako další krok navrhujeme způsob využití tohoto modelu pro vyhledávání instancí konceptů v dokumentech s použitím algoritmů pro přibližné vyhledávání podstromů a regulárních výrazů.
@INPROCEEDINGS{FITPUB7549, author = "Radek Burget", title = "Hierarchies in HTML Documents: Linking Text to Concepts", pages = "186--190", booktitle = "15th International Workshop on Database and Expert Systems Applications", year = 2004, location = "Zaragoza, ES", publisher = "IEEE Computer Society", ISBN = "0-7695-2195-9", language = "english", url = "https://www.fit.vut.cz/research/publication/7549" }