Detail výsledku

TS-Net: OCR Trained to Switch Between Text Transcription Styles

KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. no. 1, p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Kohút Jan, Ing., UPGM (FIT)
Hradiš Michal, Ing., Ph.D., UAMT (FEKT), UPGM (FIT)
Abstrakt

Multiple transcribers produce transcriptions in inconsistent transcription styles. 
This presents a problem for training consistent neural network systems for text recognition.
We propose Transcription Style Block (TSB) which can learn to switch between multiple transcription styles without any explicit knowledge about the transcription rules.
TSB is an adaptive instance normalization conditioned by transcription style identifiers e.g. document numbers or transcriber names and it can be added near the end of any standard text recognition network. 
We show that TSB is robust towards the number and complexity of transcription styles and does not degrade the text recognition performance.
With time and data efficient adaptation to a new transcription style, we achieved up to 77\% relative test character error reduction in comparison to a network without the TSB. 

Klíčová slova

Transcription styles, Adaptive instance normalization, Text recognition, Neural networks, CTC

URL
Rok
2021
Strany
478–493
Časopis
Lecture Notes in Computer Science, roč. 12824, č. 1, ISSN 0302-9743
Sborník
Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021
Řada
Lecture Notes in Computer Science
Konference
International Conference on Document Analysis and Recognition
ISBN
978-3-030-86336-4
Vydavatel
Springer Nature Switzerland AG
Místo
Lausanne
DOI
UT WoS
000711880100032
EID Scopus
BibTeX
@inproceedings{BUT169806,
  author="Jan {Kohút} and Michal {Hradiš}",
  title="TS-Net: OCR Trained to Switch Between Text Transcription Styles",
  booktitle="Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021",
  year="2021",
  series="Lecture Notes in Computer Science",
  journal="Lecture Notes in Computer Science",
  volume="12824",
  number="1",
  pages="478--493",
  publisher="Springer Nature Switzerland AG",
  address="Lausanne",
  doi="10.1007/978-3-030-86337-1\{_}32",
  isbn="978-3-030-86336-4",
  issn="0302-9743",
  url="https://pero.fit.vutbr.cz/publications"
}
Projekty
Moderní metody zpracování, analýzy a zobrazování multimediálních a 3D dat, VUT, Vnitřní projekty VUT, FIT-S-20-6460, zahájení: 2020-03-01, ukončení: 2023-02-28, ukončen
Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti, MK, Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II), DG18P02OVV055, zahájení: 2018-03-01, ukončení: 2022-12-31, ukončen
Výzkumné skupiny
Pracoviště
Nahoru