Detail produktu

Software pro doplňování informací o původcích dokumentů a dalších metadat na základě analýzy plných textů dokumentů

Vznik: 2019

Název anglicky
System for enrichment of bibliographic data based on full-text analysis
Typ
software
Licence
vyžadována - zdarma
Autoři
Klíčová slova

sémantické obohacení, databáze národních autorit, obsah knihy, rejstřík knihy, Wikipedie

Popis

Software pracuje primárně se souborem naskenovaných a pomocí OCR do textu převedených obsahů a rejstříků knih. Systém nejprve propojuje tyto záznamy s bibliografickými údaji, které jsou pro příslušné knihy k dispozici. Následně jsou identifikovány textové záznamy, v nichž se vyskytují známá křestní jména a příjmení. Tento krok je motivován snahou nalézt obsahy, které odpovídají knihám, složeným z příspěvků konkrétně jmenovaných autorů (a oddělit je od obsahů knih, uvádějících pouze seznamy kapitol).

Vyhledané záznamy jsou potom upraveny tak, aby text co nejlépe odrážel původní vizuální podobu zdrojového dokumentu (jednotlivé části obsahu na samostatných řádcích, případně identifikace bloků oddělujících seznam autorů od názvu kapitoly, jejího číselného označení, čísla strany apod.). V této fázi jsou také oddělovány záznamy, odpovídající strukturou rejstříkům, od klasických (sborníkových) obsahů.

Dalším krokem zpracování je potom klasifikace jednotlivých řádků obsahů podle typů informací, které obsahuje. V některých případech je bohužel i v rámci jednoho řádku smíšeno několik typů informací, např. je bez oddělovače spojen český a cizojazyčný název příspěvku/kapitoly. Pokud je dále hranice mezi jednotlivými částmi obsahu indikována speciální formou (např. seznam autorů končí dvojtečkou), je v této fázi vyznačen předpokládaný typ obou částí a forma oddělení.

V posledním kroku jsou jednotlivé oddělené části finálně klasifikovány, pomocí předpřipravených šablon jsou namapovány jednotlivé části a na základě kontextu je rozhodnuto o přiřazení kategorií nerozlišených řádků (např. když z předchozího zpracování nebylo jasné, zda se jedná o jméno autora či název příspěvku o daném člověku). Obdobně je postupováno při rozdělení řádků uvádějících více autorů, které se mohou lišit pořadím či zkracováním křestních jmen, oddělováním jednotlivých autorů atd. Výsledné záznamy jsou potom uloženy ve strukturované formě a mohou být využity pro vyhledávání v CPK.

Více informací lze nalézt na https://github.com/KNOT-FIT-BUT/CPKFulltextAnalyser.

Umístění
Licence

Licence k autorizovanému softwaru


Vysoké učení technické v Brně, Fakulta informačních technologií IČ 00216305, Božetěchova 2, 612 66 Brno, (dále jen FIT VUT v Brně) je oprávněno poskytovat licenci k autorizovanému softwaru přístupnému na stránce "Autorizovaného software"http://www.fit.vutbr.cz/research/prod/index.php?id=177 (dále jen autorizovaný software). Každý, kdo použije software, stává se uživatelem. Uživatel se zavazuje dodržovat licenční podmínky.

Prvním použitím software uživatel vyjádřil souhlas s následujícími licenčními podmínkami: 

Autorizovaný software


  • je možné používat jen při dodržování těchto licenčních podmínek; uživatel je povinen zabezpečit dodržování licenčních podmínek případnou třetí osobou, která má přístup k jím užívanému autorizovanému softwaru,
  • není možné dále prodávat, pronajímat a převádět získaná oprávnění bez souhlasu FIT VUT v Brně,
  • není možné zahrnout do jiného softwarového produktu a šířit produkty takto vzniklé, odvozené od původního autorizovaného softwaru, případně jakkoli jinak zasahovat do vnitřní struktury, bez souhlasu FIT VUT v Brně,
  • z autorizovaného softwaru ani žádných jeho součástí se nesmí jakýmkoli způsobem vyjímat informace o FIT VUT v Brně,
  • je zakázáno zpětně analyzovat, dekompilovat nebo jinak upravovat autorizovaný software,


Vzhledem k tomu, že licence k software je poskytována bez úplaty, nevztahuje se na poskytovaný software žádná záruka, a to v maximální možné míře povolené platným zákonem. Uživatel přijímá software "tak, jak je", bez záruky jakéhokoliv druhu, výslovně, ale nikoliv jen, bez záruky prodejnosti a vhodnosti software pro určitý účel, bez záruky bezchybnosti, funkčnosti, kvality, výkonnosti nebo nepřerušeného chodu software a bez záruky kompatibility software s jinými programy. Vysoké učení technické v Brně není povinno odstranit případné závady software. Vysoké učení technické v Brně se, v maximální možné míře povolené platným zákonem, zříká povinnosti hradit jakékoliv náklady nebo škodu, které vznikly nebo vzniknou v souvislosti s používáním software.

V případě porušení tohoto licenčního ujednání ze strany uživatele končí platnost tohoto licenčního ujednání a uživatel je povinen přestat autorizovaný software produkt dále jakkoli používat.

Projekty
Výzkumné skupiny
Nahoru