Detail projektu
semANT - Sémantický průzkumník textového kulturního dědictví
Období řešení: 1. 3. 2023 – 31. 12. 2027
Typ projektu: grant
Kód: DH23P03OVV060
Agentura: Ministerstvo kultury ČR
digitální knihovna, identifikace tématu, vyhledávání sémantických dokumentů,
průzkum obsahu, vizualizace obsahu
Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve
fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu
a možnosti přirozené navigace mezi tématicky podobnými dokumenty. Uživatelům
poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost
vyhledávat podle částí textu (například odstavců) s možností specifikovat
současně téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky
identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na
základě příkladů z textů.
Beneš Karel, Ing., Ph.D. (UPGM)
Dočekal Martin, Ing. (UPGM)
Fajčík Martin, Ing., Ph.D. (UPGM)
Kavalová Radka, Mgr. (VCIT)
Kišš Martin, Ing. (UPGM)
Kohút Jan, Ing. (UPGM)
Kostelník Martin, Ing. (UPGM)
Lampa Petr, Ing. (DFIT-OIP)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
2025
- FAJČÍK, M.; DOČEKAL, M.; DOLEŽAL, J.; ONDŘEJ, K.; BENEŠ, K.; SMRŽ, P.; POLOK, A.; HRADIŠ, M. BenCzechMark : A Czech-Centric Multitask and Multimetric Benchmark for Large Language Models with Duel Scoring Mechanism. Transactions of the Association for Computational Linguistics, 2025, vol. 13, no. 9,
p. 1068-1095. Detail - KIŠŠ, M.; HRADIŠ, M. Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets. In Document Analysis and Recognition – ICDAR 2025 Workshops. Cham: Springer Nature Switzerland, 2025.
p. 53-70. ISBN: 978-3-032-09367-7. Detail - KOHÚT, J.; HRADIŠ, M.;. Practical Fine-Tuning of Autoregressive Models on Limited Handwritten Texts. Document Analysis and Recognition – ICDAR 2025. Cham: Springer Nature Switzerland, 2025.
p. 22-39. ISBN: 978-3-032-04629-1. Detail - KOSTELNÍK, M.; HRADIŠ, M.; BENEŠ, K. TextBite: A Historical Czech Document Dataset for Logical Page Segmentation. In Document Analysis and Recognition – ICDAR 2025 Workshops. Cham: Springer Nature Switzerland, 2025.
p. 124-140. ISBN: 978-3-032-09367-7. Detail
2024
- KIŠŠ, M.; HRADIŠ, M. Self-supervised Pre-training of Text Recognizers. In Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024. Lecture Notes in Computer Science. Atény: Springer Nature Switzerland AG, 2024.
p. 218-235. ISBN: 978-3-031-70545-8. Detail - ŠTĚTINA, J.; FAJČÍK, M.; HRADIŠ, M.; ŠTEFÁNIK, M. A Comparative Study of Text Retrieval Models on DaReCzech. Recent Advances in Slavonic Natural Language Processing, 2024, no. 7,
p. 85-100. Detail
2023
- KOHÚT, J.; HRADIŠ, M. Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition. In Document Analysis and Recognition - ICDAR 2023. Lecture Notes in Computer Science. Lecture Notes in Computer Science. San José: Springer Nature Switzerland AG, 2023. no. 1,
p. 269-286. ISBN: 978-3-031-41684-2. ISSN: 0302-9743. Detail
2025
- Topicer - Software pro analýzu témat v dokumentech, software, 2025
Autoři: HRADIŠ, M.; DOČEKAL, M.; KOSTELNÍK, M.; KIŠŠ, M.; FAJČÍK, M.; JUŘICA, R.; SUCHARDA, M.
2024
- Textjuicer - Software for Generating Summaries, software, 2024
Autoři: DOČEKAL, M.; FAJČÍK, M.; HRADIŠ, M.
2023
- Systém pro analýzu struktury dokumentů, software, 2023
Autoři: KOSTELNÍK, M.; BENEŠ, K.; HRADIŠ, M.; VAŠKO, M.