Detail publikace
TG2: text-guided transformer GAN for restoring document readability and perceived quality
Většina metod vylepšení obrazu zaměřených na obnovu digitalizovaných textových dokumentů je omezena na případy, kdy je textová informace stále zachována ve vstupním obrazu, což často nemusí být splněno.
V této práci navrhujeme novou generativní metodu restaurování dokumentu, která umožňuje podmiňovat restaurování přepisem cílového textu a která nepotřebuje pro trénování spárované obrázky vysoké a nízké kvality. Představujeme architekturu neuronové sítě s implicitním modulem zarovnání textu na obrázek.
Metoda dosahuje dobrých výsledků v úlohách doplňování textu, debinarizace a odstranění rozmazání. Natrénované modely lze také použít k záměnám textu (editaci) v obrázcích dokumentů.
Uživatelská studie ukázala, že si lidští pozorovatelé pletou výstupy navrhované metody s referenčními vysoce kvalitními snímky až ve 30 % případů.
@ARTICLE{FITPUB12333, author = "Old\v{r}ich Kodym and Michal Hradi\v{s}", title = "TG2: text-guided transformer GAN for restoring document readability and perceived quality", pages = "1--14", booktitle = "International Journal on Document Analysis and Recognition", journal = "International Journal on Document Analysis and Recognition (IJDAR)", volume = 2021, number = 1, year = 2021, publisher = "Springer Verlag", ISSN = "1433-2825", doi = "10.1007/s10032-021-00387-z", language = "english", url = "https://www.fit.vut.cz/research/publication/12333" }