Detail publikace

Brno Mobile OCR Dataset

KIŠŠ Martin, HRADIŠ Michal a KODYM Oldřich. Brno Mobile OCR Dataset. In: Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020, s. 1352-1357. ISBN 978-1-7281-3015-6. Dostupné z: https://pero.fit.vutbr.cz/publications
Název česky
Brno Mobilní OCR Dataset
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kišš Martin, Ing. (UPGM FIT VUT)
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT)
Kodym Oldřich, Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

OCR, CTC, mobilní, datová sada

Abstrakt


Představujeme brněnský mobilní OCR dataset (B-MOD) pro rozpoznávání textu z obrazů s nízkou kvalitou pořízených ručními mobilními zařízeními. Zatímco rozpoznávání textu ve vysoce kvalitních naskenovaných dokumentů je již poměrně prozkoumávaná oblast, kde je k dispozici mnoho komerčních nástrojů a existují velké datové sady textu, žádné existující datové sady nemohou být použity pro vývoj a testování metod rozpoznávání textu odolných vůči nerovnoměrnému osvětlení, rozmazání obrazu, silnému zašumění, vestavěné redukci šumu, ostření, kompresi a dalším artefaktům přítomných na mnoha fotografiích z mobilních zařízení.

Tento soubor obsahuje 2 113 unikátních stránek z náhodných vědeckých článků, které byly fotografovány několika lidmi pomocí 23 různých mobilních zařízení. Výsledných 19 728 fotografií různé vizuální kvality je doprovázeno přesnými pozicemi a textovými anotacemi 500 000 řádků textu. Dále poskytujeme metodiku hodnocení, včetně vyhodnocovacího serveru a testovací sady s neveřejnými anotacemi.

Poskytujeme první výsledky rozpoznávání textu postaveného na konvoluční a rekurentní neuronové síti trénované s chybovou funkcí Connectionist Temporal Classification. Výsledky dosahujíí 2 %, 23 % a 73 % chyb na úrovni slov na jednoduchých, středních a těžkých částech datové sady, což potvrzuje, že soubor dat je náročný.

Prezentovaný soubor dat umožní budoucí vývoj a vyhodnocení analýzy dokumentů pro obrazy nízké kvality. Je primárně určen pro rozpoznávání textu na úrovni řádků a může být dále použit pro lokalizaci řádků, analýzu rozložení, obnovu obrazu a binarizaci textu.

Rok
2020
Strany
1352-1357
Sborník
Proceedings of the International Conference on Document Analysis and Recognition, ICDAR
Konference
International Conference on Document Analysis and Recognition, Sydney, Australia, AU
ISBN
978-1-7281-3015-6
Vydavatel
Institute of Electrical and Electronics Engineers
Místo
Sydney, AU
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11983,
   author = "Martin Ki\v{s}\v{s} and Michal Hradi\v{s} and Old\v{r}ich Kodym",
   title = "Brno Mobile OCR Dataset",
   pages = "1352--1357",
   booktitle = "Proceedings of the International Conference on Document Analysis and Recognition, ICDAR",
   year = 2020,
   location = "Sydney, AU",
   publisher = "Institute of Electrical and Electronics Engineers",
   ISBN = "978-1-7281-3015-6",
   doi = "10.1109/ICDAR.2019.00218",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11983"
}
Nahoru