Result Details
Topicer - Software pro analýzu témat v dokumentech
Dočekal Martin, Ing., DCGM (FIT)
Kostelník Martin, Ing., DCGM (FIT)
Kišš Martin, Ing., DCGM (FIT)
Fajčík Martin, Ing., Ph.D., DCGM (FIT)
Juřica Richard, FIT (FIT)
Sucharda Marek, FIT (FIT)
Topicer je framework založený na jazyce Python pro objevování témat a návrh sémantických štítků ve velkých textových kolekcích, navržený pro použití jako knihovna i jako služba. Poskytuje jednotné API a konfiguračně řízené nastavení (YAML / factory pattern) pro spouštění end-to-end pipeline pro modelování témat a tagování nad dokumentovými korpusy.
Mezi jeho hlavní schopnosti patří objevování témat včetně pojmenování a popisu témat, tvorba přiřazení témat k dokumentům a několik backendů pro tagování (extrakce pomocí LLM s lokalizací úseků textu, tagování pomocí GLiNER a doladěné BERT cross-encodery), s modulárními komponentami pro embeddingy, vektorové databáze a poskytovatele LLM (včetně OpenAI API nebo lokálních backendů, jako je Ollama). Pro nasazení nabízí Topicer REST API a připravené pro nasazení pomocí Dockeru, umožňující hostovat více nakonfigurovaných metod a přistupovat k nim vzdáleně.
Topicer is a Python-based framework for topic discovery and semantic tag proposal in large text collections, designed to be used both as a library and as a service. It provides a unified API and configuration-driven setup (YAML/factory pattern) to run end-to-end topic modeling and tagging pipelines over document corpora.
Its main capabilities include unsupervised topic discovery with topic naming/description, producing topic–document assignments, and multiple tagging backends (LLM-based extraction with span localization, GLiNER-based tagging, and fine-tuned BERT cross-encoders), with pluggable components for embeddings, vector stores, and LLM providers (including OpenAI APIs or local backends such as Ollama). For deployment, Topicer offers a REST API and Docker-based packaging so multiple configured methods can be hosted and accessed remotely.
objevování témat; modelování témat; sémantické štítkování; automatické tagování; extrakce entit; LLM; embeddingy; vektorová databáze; REST API; Docker
topic discovery; topic modeling; semantic tagging; automatic tagging; entity extraction; LLM; embeddings; vector database; REST API; Docker