Result Details

AnnoPage – systém pro automatickou anotaci objektů na stránce

Created: 2025
English title
AnnoPage – a system for automatic annotation of visual document content
Type
software
Language
Czech
Authors
Kišš Martin, Ing., DCGM (FIT)
Hradiš Michal, Ing., Ph.D., UAMT (FEEC), DCGM (FIT)
Dvořáková Martina
Žabička Petr
Jebavý Filip
Lapoš Benjamin
Lehečka Boris
Hrzinová Jana
Jiroušek Václav
Pavčík Filip
Kersch Filip
Herudková Markéta
Najmanová Anna
Lhoták Martin
Description

AnnoPage je softwarový nástroj určený pro automatickou detekci a anotaci netextových prvků na stránkách digitalizovaných dokumentů. Systém identifikuje objekty, jako jsou fotografie, mapy, grafy či ilustrace, přiřazuje k nim odpovídající titulky a pomocí jazykových modelů generuje vícejazyčné popisy, klíčová slova a informace o barevnosti. Součástí řešení je také tvorba sémantických vektorových reprezentací (embeddingů) obrazových prvků, které umožňují jejich další analytické a vyhledávací využití. AnnoPage je dostupný jako nástroj příkazové řádky i jako distribuovaný systém založený na REST API, což umožňuje jeho integraci do knihovních a digitálně-humanitních workflow.

English description

AnnoPage is a software tool designed for the automatic detection and annotation of non-textual elements in digitized document pages. The system identifies objects such as photographs, maps, graphs, and illustrations, assigns corresponding captions, and uses large language models to generate multilingual descriptions, keywords, and color information. It also produces semantic vector representations (embeddings) of visual elements, enabling advanced analysis and retrieval. AnnoPage is available both as a command-line tool and as a distributed REST API–based system, allowing seamless integration into library and digital humanities workflows.

Keywords

tištěné dokumenty; zpracování digitalizovaných dokumentů; netextové elementy; obrázky; analýza obrazu

English keywords

printed documents; digitized documents processing; non-textual elements; images; image analysis

URL
License
Use of the result by another entity is possible without acquiring a license (the result is not licensed)
License Fee
The licensor does not require a license fee for the result
Projects
Reanimated book - digitized library treasures for the creative industries, MK, NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030, DH23P03OVV033, start: 2023-03-01, end: 2027-12-31, running
Departments
Back to top