Detail publikace

Vision UFormer: Long-Range Monocular Absolute Depth Estimation

POLÁŠEK Tomáš, ČADÍK Martin, KELLER Yosi a BENEŠ Bedřich. Vision UFormer: Long-Range Monocular Absolute Depth Estimation. Computers and Graphics, roč. 111, č. 4, 2023, s. 180-189. ISSN 0097-8493. Dostupné z: https://www.sciencedirect.com/science/article/pii/S0097849323000262
Název česky
Vision UFormer: Absolutní Predikce Hloubek na Dlouhé Vzdálenosti
Typ
článek v časopise
Jazyk
angličtina
Autoři
Polášek Tomáš, Ing. (UPGM FIT VUT)
Čadík Martin, doc. Ing., Ph.D. (UPGM FIT VUT)
Keller Yosi, prof. MSc., Ph.D. (BIU)
Beneš Bedřich, prof., Ph.D. (PU)
URL
Klíčová slova

Odhad Absolutní Hloubky, Monokulární Odhad Hloubky, Dlouhá Vzdálenost, Transformer, UNet, Postupné Trénování

Abstrakt

V této práci představujeme nový model Vision UFormer (ViUT), který odhaduje hloubku z obrazu za použití hlubokého učení. Jeho vstupem je RGB fotografie a výstupem je odhad absolutní vzdálenosti pro každý pixel. ViUT je kombinací  enkodéru založeného na architektuře Transformer a ResNet dekodéru zapojených ve stylu UNet. Model je trénován postupně na celkové množině 1M obrazů obsažených v deseti datasetech. Takto je model trénován od jednodušších relativních vzdáleností až po náročnější případy odhadu pro otevřené přírodní scény. ViUT model dosahuje srovnatelných výsledku na klasických datasetech s relativní hloubkou - např. NYUv2 a KITTI. Navíc také úspěšně predikuje absolutní hloubky v metrech. Navržený model je ověřen na široké škále otevřených přírodních scén, na kterých dosahuje zlepšení až o 23% oproti SotA přístupům. Predikce absolutních hloubek je využitelná v mnoha oblastech, mezi které patří i prezentované příklady s kompozicí obrazu, anotací vzdálenosti, do-ostřením a rekonstrukcí scén.

Rok
2023
Strany
180-189
Časopis
Computers and Graphics, roč. 111, č. 4, ISSN 0097-8493
Vydavatel
Elsevier Science
DOI
UT WoS
000954860700001
EID Scopus
BibTeX
@ARTICLE{FITPUB12743,
   author = "Tom\'{a}\v{s} Pol\'{a}\v{s}ek and Martin \v{C}ad\'{i}k and Yosi Keller and Bed\v{r}ich Bene\v{s}",
   title = "Vision UFormer: Long-Range Monocular Absolute Depth Estimation",
   pages = "180--189",
   journal = "Computers and Graphics",
   volume = 111,
   number = 4,
   year = 2023,
   ISSN = "0097-8493",
   doi = "10.1016/j.cag.2023.02.003",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12743"
}
Nahoru