Detail publikace

Importance of Textlines in Historical Document Classification

KIŠŠ Martin, KOHÚT Jan, BENEŠ Karel a HRADIŠ Michal. Importance of Textlines in Historical Document Classification. In: Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science, roč. 13237. La Rochelle: Springer Nature Switzerland AG, 2022, s. 158-170. ISBN 978-3-031-06554-5. Dostupné z: https://pero.fit.vutbr.cz/publications
Název česky
Význam řádků textu při klasifikaci historických dokumentů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kišš Martin, Ing. (UPGM FIT VUT)
Kohút Jan, Ing. (UPGM FIT VUT)
Beneš Karel, Ing. (UPGM FIT VUT)
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Tento článek popisuje systém připravený na VUT v Brně pro soutěž ICDAR 2021 Historical Document Classification, experimenty vedoucí k jeho návrhu a hlavní zjištění. Řešené úlohy zahrnují klasifikaci skriptu a fontu, lokalizaci původu dokumentu a datování. Kombinovali jsme přístupy na úrovni čtvercových výřezů a na úrovni řádků textu, přičemž systém na úrovni řádků využívá existující, veřejně dostupný nástroj pro analýzu rozložení stránek. V obou systémech poskytují neuronové sítě lokální předpovědi, které jsou kombinovány do výstupu na úrovni stránky, a výsledky obou systémů jsou sloučeny pomocí lineární nebo logaritmicko-lineární fúze. Součástí řešení jsou také navržené chybové funkce vhodné pro weakly supervised klasifikační úlohu, kde je k dispozici více možných anotací, a také chybové funkce vhodné pro intervalovou regresi v datovací úloze. Systém na úrovni řádků výrazně zlepšuje výsledky v klasifikaci skriptu a fontu a v datovací úloze. Úplný systém dosáhl 98,48%, 88,84% a 79,69% přesnosti v úlohách klasifikace písma, písma a lokace. V úloze datování dosáhl náš systém průměrné absolutní chyby 21,91 let. Náš systém dosáhl nejlepších výsledků ve všech úlohách a stal se celkovým vítězem soutěže.

Rok
2022
Strany
158-170
Sborník
Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems
Řada
Lecture Notes in Computer Science
Svazek
13237
Konference
International Workshop on Document Analysis System, La Rochelle, FR
ISBN
978-3-031-06554-5
Vydavatel
Springer Nature Switzerland AG
Místo
La Rochelle, FR
DOI
UT WoS
000870314500011
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12706,
  author = "Martin Ki\v{s}\v{s} and Jan Koh\'{u}t and Karel Bene\v{s} and Michal Hradi\v{s}",
  title = "Importance of Textlines in Historical Document Classification",
  pages = "158--170",
  booktitle = "Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems",
  series = "Lecture Notes in Computer Science",
  volume = 13237,
  year = 2022,
  location = "La Rochelle, FR",
  publisher = "Springer Nature Switzerland AG",
  ISBN = "978-3-031-06554-5",
  doi = "10.1007/978-3-031-06555-2\_11",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12706"
}
Nahoru