Detail publikace

Information Extraction from the Web by Matching Visual Presentation Patterns

BURGET, R. Information Extraction from the Web by Matching Visual Presentation Patterns. In Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia. Lecture Notes in Computer Science vol. 10579. Kobe: Springer International Publishing, 2017. p. 10-26. ISBN: 978-3-319-68722-3.

Název česky

Extrakce informací z webu založená na vyhledávání prezentačních vzorů

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)

URL

https://link.springer.com/chapter/10.1007/978-3-319-68723-0_2

Klíčová slova

web data integration, information extraction, structured record extraction, page segmentation, content classification, ontology mapping

Abstrakt

Dokumenty dostupné na WWW obsahují velké množství informací prezentované v tabulkách, seznamech a dalších pravidelných vizuálních strukturách. Tyto informace nejsou však často explicitně anotovány a jejich interpretace je ponechána na čtenáři. Jejich automatická extrakce z dokumentů proto představuje obtížný problém. Existující přístupy jsou obvykle založeny na analýze dokumentů shora dolů od celé stránky po jednotlivé datové záznamy. V tomto článku představujeme opačný přístup založený na přibližné identifikaci nejmenších datových položek a následně na zpřesňování prvotního odhadu pomocí hledání prezentačních vzorů v dokumentu.

popis-stručný

Dokumenty dostupné na webu obsahují velké množství informací uvedených v tabulkách, seznamech nebo jiných vizuálně pravidelných strukturách. Zveřejněné informace však obvykle nejsou explicitně ani implicitně anotovány a jejich interpretace je ponechána na lidském čtenáři. Díky tomu je automatická extrakce informací z webových dokumentů pro jejich další počítačové zpracování náročným problémem. V článku představujeme novou metodu, která na základě modelu cílové domény (např. sportovní výsledky, jízdní řády, informace o zboží a další) identifikuje odpovídající záznamy ve webových dokumentech na základě způsobu jejich vizuální prezentace a nalezených pravidelných vzorů.

popis-doplnění

Většina existujících přístupů je založena na přístupu shora dolů, který postupuje od větších oblastí stránky k jednotlivým záznamům dat. Tento přístup závisí na různých heuristikách, které se týkají vizuální prezentace obsahu a přesnost současných metod není použitelná pro reálné nasazení. V článku představujeme opačný přístup - zdola nahoru. Hrubě identifikujeme nejmenší datová pole v dokumentu a později tuto aproximaci upravíme porovnáním objevených vizuálních prezentačních vzorců s očekávanou sémantickou strukturou extrahovaných informací. Tento přístup umožňuje efektivně extrahovat strukturovaná data z heterogenních dokumentů bez jakýchkoli dalších anotací, jak experimentálně demonstrujeme na různých aplikačních doménách.
Dosud byla nalezena 1 citace článku.

Rok

2017

Strany

10–26

Sborník

Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia

Řada

Lecture Notes in Computer Science vol. 10579

Konference

The 15th International Semantic Web Conference, Kobe, JP

ISBN

978-3-319-68722-3

Vydavatel

Springer International Publishing

Místo

Kobe

DOI

10.1007/978-3-319-68723-0_2

UT WoS

000535971000002

EID Scopus

2-s2.0-85033475168

BibTeX

@inproceedings{BUT144386,
  author="Radek {Burget}",
  title="Information Extraction from the Web by Matching Visual Presentation Patterns",
  booktitle="Knowledge Graphs and Language Technology: ISWC 2016 International Workshops: KEKI and NLP&DBpedia",
  year="2017",
  series="Lecture Notes in Computer Science vol. 10579",
  pages="10--26",
  publisher="Springer International Publishing",
  address="Kobe",
  doi="10.1007/978-3-319-68723-0\{_}2",
  isbn="978-3-319-68722-3",
  url="https://link.springer.com/chapter/10.1007/978-3-319-68723-0_2"
}

Soubory