Detail publikace

SoftCTC-semi-supervised learning for text recognition using soft pseudo-labels

KIŠŠ Martin, HRADIŠ Michal, BENEŠ Karel, BUCHAL Petr a KULA Michal. SoftCTC-semi-supervised learning for text recognition using soft pseudo-labels. International Journal on Document Analysis and Recognition (IJDAR), roč. 2024, č. 99, 2023, s. 1-17. ISSN 1433-2825. Dostupné z: https://link.springer.com/article/10.1007/s10032-023-00452-9
Název česky
SoftCTC - semi-supervised učení pro rozpoznávání textu pomocí měkkých pseudo-labelů
Typ
článek v časopise
Jazyk
angličtina
Autoři
Kišš Martin, Ing. (UPGM FIT VUT)
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT)
Beneš Karel, Ing. (UPGM FIT VUT)
Buchal Petr, Ing. (UPGM FIT VUT)
Kula Michal, Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Tento článek se zabývá semi-supervised pro sekvenční úlohy, jako je optické rozpoznávání znaků nebo automatické rozpoznávání řeči. Navrhujeme novou loss funkci - SoftCTC - která je rozšířením CTC umožňujícím zohlednit více variant transkripce najednou. To umožňuje vynechat krok filtrování založený na jistotě, který je jinak klíčovou součástí přístupů založených na pseudo-labelingu v semi-supervised učení. Účinnost naší metody demonstrujeme na náročné úloze rozpoznávání rukopisu a docházíme k závěru, že SoftCTC se vyrovná úspěšnosti zpracování pomocí velmi specificky nastaveného filtrování. SoftCTC jsme také vyhodnotili z hlediska výpočetní efektivity a dospěli jsme k závěru, že je výrazně efektivnější než naivní přístup založený na CTC pro učení na více variantách transkripce, a zveřejnili jsme naši implementaci na GPU.

Rok
2023
Strany
1-17
Časopis
International Journal on Document Analysis and Recognition (IJDAR), roč. 2024, č. 99, ISSN 1433-2825
Kniha
International Journal on Document Analysis and Recognition
Vydavatel
Springer Verlag
DOI
UT WoS
001118969400001
EID Scopus
BibTeX
@ARTICLE{FITPUB12904,
   author = "Martin Ki\v{s}\v{s} and Michal Hradi\v{s} and Karel Bene\v{s} and Petr Buchal and Michal Kula",
   title = "SoftCTC-semi-supervised learning for text recognition using soft pseudo-labels",
   pages = "1--17",
   booktitle = "International Journal on Document Analysis and Recognition",
   journal = "International Journal on Document Analysis and Recognition (IJDAR)",
   volume = 2024,
   number = 99,
   year = 2023,
   ISSN = "1433-2825",
   doi = "10.1007/s10032-023-00452-9",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12904"
}
Nahoru