Result Details

Software pro doplňování informací o původcích dokumentů a dalších metadat na základě analýzy plných textů dokumentů

Created: 2019
English title
System for enrichment of bibliographic data based on full-text analysis
Type
software
Language
Czech
Authors
Description

Software pracuje primárně se souborem naskenovaných a pomocí OCR do textu převedených obsahů a rejstříků knih. Systém nejprve propojuje tyto záznamy s bibliografickými údaji, které jsou pro příslušné knihy k dispozici. Následně jsou identifikovány textové záznamy, v nichž se vyskytují známá křestní jména a příjmení. Tento krok je motivován snahou nalézt obsahy, které odpovídají knihám, složeným z příspěvků konkrétně jmenovaných autorů (a oddělit je od obsahů knih, uvádějících pouze seznamy kapitol).

Vyhledané záznamy jsou potom upraveny tak, aby text co nejlépe odrážel původní vizuální podobu zdrojového dokumentu (jednotlivé části obsahu na samostatných řádcích, případně identifikace bloků oddělujících seznam autorů od názvu kapitoly, jejího číselného označení, čísla strany apod.). V této fázi jsou také oddělovány záznamy, odpovídající strukturou rejstříkům, od klasických (sborníkových) obsahů.

Dalším krokem zpracování je potom klasifikace jednotlivých řádků obsahů podle typů informací, které obsahuje. V některých případech je bohužel i v rámci jednoho řádku smíšeno několik typů informací, např. je bez oddělovače spojen český a cizojazyčný název příspěvku/kapitoly. Pokud je dále hranice mezi jednotlivými částmi obsahu indikována speciální formou (např. seznam autorů končí dvojtečkou), je v této fázi vyznačen předpokládaný typ obou částí a forma oddělení.

V posledním kroku jsou jednotlivé oddělené části finálně klasifikovány, pomocí předpřipravených šablon jsou namapovány jednotlivé části a na základě kontextu je rozhodnuto o přiřazení kategorií nerozlišených řádků (např. když z předchozího zpracování nebylo jasné, zda se jedná o jméno autora či název příspěvku o daném člověku). Obdobně je postupováno při rozdělení řádků uvádějících více autorů, které se mohou lišit pořadím či zkracováním křestních jmen, oddělováním jednotlivých autorů atd. Výsledné záznamy jsou potom uloženy ve strukturované formě a mohou být využity pro vyhledávání v CPK.

Více informací lze nalézt na https://github.com/KNOT-FIT-BUT/CPKFulltextAnalyser.

English description

System semi-automatically enriches bibliographic data using full-text analysis of book indices and tables of contents. It identifies other relevant co-authors, who can be added to bibliographic records. Such information can be used for semantic querying. For more details, see https://github.com/KNOT-FIT-BUT/CPKFulltextAnalyser.

Keywords

sémantické obohacení, databáze národních autorit, obsah knihy, rejstřík knihy, Wikipedie

English keywords

semantic enrichment, National Authority Database, table of content, book index, Wikipedia

URL
License
In order to use the result by another entity, it is always necessary to acquire a license
License Fee
The licensor does not require a license fee for the result
License Conditions

Authorized software license

 

Brno University of Technology, faculty of Information Technology IČ 00216305, Božetěchova 2, 612 66 Brno, (further only FIT BUT) is entitled to license the authorized software accessible at the "Authorized software" pagehttp://www.fit.vutbr.cz/research/prod/index.php?id=177 (further only authorized software). Everyone who uses the software in any way at least once becomes the user. The user agrees to comply to the following conditions of use.

Before first usage of the software the user expressed his/her agreement with the following license conditions:

Authorized software

  • is only possible to use in compliance with these license conditions; the user must ensure that the conditions are fulfilled by the eventual third party who is able to access the authorized software,
  • it is not allowed to sell, rent, or otherwise transfer the license without the permission of FIT BUT,
  • is not allowed to include into other software product and distribute the such products derived from the original authorized software without the permission of FIT BUT, or modify the internal structure in any other way, 
  • cannot be modified as the whole or any of its parts so that the information about FIT BUT is removed,
  • is not allowed to reverse analyze, decompile, or modify in any other way,

As the license is granted for free, the software is not covered with any guarantee (this is valid to the maximum extent possible under the law). The user accepts the software „as it is" without any guarantee of any kind, namely, but not limited to, the guarantee of suitability for sales, suitability for the purpose, occurrence of flaws, functionality, quality, performance, or continuous availability or compatibility with other software. Brno University of Technology (to the maximum possible extent under the law) disclaims the duty to compensate any expenses connected with exploitation of the software now and in the future.

If any of the above conditions is violated, the license is automatically terminated and the user must stop use the authorized software immediately.

Projects
CPK - Using Semantic Technologies to Access Cultural Heritage Through The Central Portal of Czech Libraries, MK, Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II), DG16P02R006, start: 2016-03-01, end: 2020-12-31, completed
Research groups
Departments
Back to top