Result Details

Topicer - Software pro analýzu témat v dokumentech

Created: 2025
English title
Topicer - Software for document topic analysis
Type
software
Language
Czech
Authors
Hradiš Michal, Ing., Ph.D., UAMT (FEEC), DCGM (FIT)
Dočekal Martin, Ing., DCGM (FIT)
Kostelník Martin, Ing., DCGM (FIT)
Kišš Martin, Ing., DCGM (FIT)
Fajčík Martin, Ing., Ph.D., DCGM (FIT)
Juřica Richard, FIT (FIT)
Sucharda Marek, FIT (FIT)
Description

Topicer je framework založený na jazyce Python pro objevování témat a návrh sémantických štítků ve velkých textových kolekcích, navržený pro použití jako knihovna i jako služba. Poskytuje jednotné API a konfiguračně řízené nastavení (YAML / factory pattern) pro spouštění end-to-end pipeline pro modelování témat a tagování nad dokumentovými korpusy.
Mezi jeho hlavní schopnosti patří objevování témat včetně pojmenování a popisu témat, tvorba přiřazení témat k dokumentům a několik backendů pro tagování (extrakce pomocí LLM s lokalizací úseků textu, tagování pomocí GLiNER a doladěné BERT cross-encodery), s modulárními komponentami pro embeddingy, vektorové databáze a poskytovatele LLM (včetně OpenAI API nebo lokálních backendů, jako je Ollama). Pro nasazení nabízí Topicer REST API a připravené pro nasazení pomocí Dockeru, umožňující hostovat více nakonfigurovaných metod a přistupovat k nim vzdáleně.

English description

Topicer is a Python-based framework for topic discovery and semantic tag proposal in large text collections, designed to be used both as a library and as a service. It provides a unified API and configuration-driven setup (YAML/factory pattern) to run end-to-end topic modeling and tagging pipelines over document corpora.
Its main capabilities include unsupervised topic discovery with topic naming/description, producing topic–document assignments, and multiple tagging backends (LLM-based extraction with span localization, GLiNER-based tagging, and fine-tuned BERT cross-encoders), with pluggable components for embeddings, vector stores, and LLM providers (including OpenAI APIs or local backends such as Ollama). For deployment, Topicer offers a REST API and Docker-based packaging so multiple configured methods can be hosted and accessed remotely.

Keywords

objevování témat; modelování témat; sémantické štítkování; automatické tagování; extrakce entit; LLM; embeddingy; vektorová databáze; REST API; Docker

English keywords

topic discovery; topic modeling; semantic tagging; automatic tagging; entity extraction; LLM; embeddings; vector database; REST API; Docker

URL
License
Use of the result by another entity is possible without acquiring a license (the result is not licensed)
License Fee
The licensor does not require a license fee for the result
Projects
semANT - Semantic Document Exploration, MK, NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030, DH23P03OVV060, start: 2023-03-01, end: 2027-12-31, running
Departments
Back to top