Detail publikace
Vision UFormer: Long-Range Monocular Absolute Depth Estimation
Čadík Martin, doc. Ing., Ph.D. (UPGM FIT VUT)
Keller Yosi, prof. MSc., Ph.D. (BIU)
Beneš Bedřich, prof., Ph.D. (PU)
Odhad Absolutní Hloubky, Monokulární Odhad Hloubky, Dlouhá Vzdálenost, Transformer, UNet, Postupné Trénování
V této práci představujeme nový model Vision UFormer (ViUT), který odhaduje hloubku z obrazu za použití hlubokého učení. Jeho vstupem je RGB fotografie a výstupem je odhad absolutní vzdálenosti pro každý pixel. ViUT je kombinací enkodéru založeného na architektuře Transformer a ResNet dekodéru zapojených ve stylu UNet. Model je trénován postupně na celkové množině 1M obrazů obsažených v deseti datasetech. Takto je model trénován od jednodušších relativních vzdáleností až po náročnější případy odhadu pro otevřené přírodní scény. ViUT model dosahuje srovnatelných výsledku na klasických datasetech s relativní hloubkou - např. NYUv2 a KITTI. Navíc také úspěšně predikuje absolutní hloubky v metrech. Navržený model je ověřen na široké škále otevřených přírodních scén, na kterých dosahuje zlepšení až o 23% oproti SotA přístupům. Predikce absolutních hloubek je využitelná v mnoha oblastech, mezi které patří i prezentované příklady s kompozicí obrazu, anotací vzdálenosti, do-ostřením a rekonstrukcí scén.
@ARTICLE{FITPUB12743, author = "Tom\'{a}\v{s} Pol\'{a}\v{s}ek and Martin \v{C}ad\'{i}k and Yosi Keller and Bed\v{r}ich Bene\v{s}", title = "Vision UFormer: Long-Range Monocular Absolute Depth Estimation", pages = "180--189", journal = "Computers and Graphics", volume = 111, number = 4, year = 2023, ISSN = "0097-8493", doi = "10.1016/j.cag.2023.02.003", language = "english", url = "https://www.fit.vut.cz/research/publication/12743" }