Detail projektu
PERO - Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti
Období řešení: 1. 3. 2018 - 31. 12. 2022
Typ projektu: grant
Kód: DG18P02OVV055
Agentura: Ministerstvo kultury České republiky
Program: Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.
Bařina David, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Juránek Roman, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Zemčík Pavel, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel
Beneš Karel, Ing. (UPGM FIT VUT)
Hájková Gabriela, Mgr. (Děkanát FIT VUT)
Hříbek David, Ing. (UPGM FIT VUT)
Kodym Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Kopeczinski Daniela, Mgr. (Děkanát FIT VUT)
2022
- KIŠŠ Martin, KOHÚT Jan, BENEŠ Karel a HRADIŠ Michal. Importance of Textlines in Historical Document Classification. In: Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science, roč. 13237. La Rochelle: Springer Nature Switzerland AG, 2022, s. 158-170. ISBN 978-3-031-06554-5. Detail
- DVOŘÁKOVÁ Martina, HRADIŠ Michal, ŽABIČKA Petr, KOHÚT Jan, KIŠŠ Martin a BENEŠ Karel. Využití PERO OCR při přepisu rukopisů. Archivní časopis, roč. 72, č. 1, 2022, s. 14-27. ISSN 0004-0398. Detail
2021
- KIŠŠ Martin, BENEŠ Karel a HRADIŠ Michal. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In: Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science, roč. 12824. Lausanne: Springer Nature Switzerland AG, 2021, s. 463-477. ISBN 978-3-030-86336-4. Detail
- KODYM Oldřich a HRADIŠ Michal. Page Layout Analysis System for Unconstrained Historic Documents. In: Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021, s. 492-506. ISBN 978-3-030-86330-2. Detail
- KODYM Oldřich a HRADIŠ Michal. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition (IJDAR), roč. 2021, č. 1, s. 1-14. ISSN 1433-2825. Detail
- KOHÚT Jan a HRADIŠ Michal. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In: Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science, roč. 12824. Lausanne: Springer Nature Switzerland AG, 2021, s. 478-493. ISBN 978-3-030-86336-4. ISSN 0302-9743. Detail
2020
- KIŠŠ Martin, HRADIŠ Michal a KODYM Oldřich. Brno Mobile OCR Dataset. In: Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020, s. 1352-1357. ISBN 978-1-7281-3015-6. Detail
2022
- Software pro extrakci informace z polostrukturovaných dokumentů, software, 2022
Autoři: Hradiš Michal, Kišš Martin, Kohút Jan, Beneš Karel, Kostelník Martin Detail
2021
- Interaktivní polo-automatické rozpoznávání ručně psaného písma, software, 2021
Autoři: Hradiš Michal, Kišš Martin, Kohút Jan, Beneš Karel, Kodym Oldřich, Buchal Petr, Hříbek David Detail
2020
- Software pro adaptabilní rozpoznávání textu starých tisků, software, 2020
Autoři: Hradiš Michal, Kišš Martin, Kodym Oldřich, Kohút Jan, Beneš Karel, Buchal Petr Detail - Zařízení pro digitalizaci specificky poškozených dokumentů, funkční vzorek, 2020
Autoři: Hradiš Michal Detail
2019
- Softwarový nástroj pro automatické měření obrazové kvality digitalizovaných textových dokumentů, software, 2019
Autoři: Bako Matúš, Buchal Petr, Hradiš Michal Detail - Softwarový nástroj pro automatickou detekci a korekci vad a zkreslení digitalizátů, software, 2019
Autoři: Hradiš Michal, Kodym Oldřich Detail