Detail výsledku
BoxCars: Improving Fine-Grained Recognition of Vehicles using 3-D Bounding Boxes in Traffic Surveillance
Špaňhel Jakub, Ing., Ph.D., UPGM (FIT)
Herout Adam, prof. Ing., Ph.D., UPGM (FIT)
In this paper, we focus on fine-grained recognition of vehicles mainly in traffic surveillance applications. We propose an approach that is orthogonal to recent advancements in fine-grained recognition (automatic part discovery, bilinear pooling). Also, in contrast to other methods focused on fine-grained recognition of vehicles, we do not limit ourselves to a frontal/rear viewpoint, but allow the vehicles to be seen from any viewpoint. Our approach is based on 3D bounding boxes built around the vehicles. The bounding box can be automatically constructed from traffic surveillance data. For scenarios where it is not possible to use precise construction, we propose a method for an estimation of the 3D bounding box. The 3D bounding box is used to normalize the image viewpoint by "unpacking" the image into a plane. We also propose to randomly alter the color of the image and add a rectangle with random noise to a random position in the image during the training of Convolutional Neural Networks. We have collected a large fine-grained vehicle dataset BoxCars116k, with 116k images of vehicles from various viewpoints taken by numerous surveillance cameras. We performed a number of experiments which show that our proposed method significantly improves CNN classification accuracy (the accuracy is increased by up to 12 percentage points and the error is reduced by up to 50% compared to CNNs without the proposed modifications). We also show that our method outperforms state-of-the-art methods for fine-grained recognition.
fine-grained recognition, traffic surveillance, 3D bounding boxes, convolutional neural networks
Publikace popisuje metodu klasifikace vozidel v obraze do podrobných tříd (výrobce, model, typ karoserie a modelový rok vozidla) s pomocí vizuálních znaků získaných ze snímků vozidla. Popisovaná metoda je zaměřená na obrazová data z dohledových kamer, kdy může být vozidlo pozorováno z různých úhlů a může docházet i k částečných překryvům vozidel.
Základním novodobým přístupem pro klasifikaci různých typů objektů, tedy i vozidel, jsou konvoluční neuronové sítě. Tato publikace navrhuje různé modifikace standardních modelů konvolučních neuronových sítí pro klasifikaci, aby byly robustnější proti variancím v pozorovacích úhlech kamer, částečným překryvům vozidel či různým barvám stejného modelu vozidla.
Největším přínosem této publikace je inovativní postup konstrukce 3D obalového tělesa vozidla, který výrazně zlepšuje robustnost klasifikátorů vůči různým pozorovacím úhlům. Publikace popisuje způsob konstrukce tohoto obalového tělesa pomocí detekce kontury vozidla a odhadu pozorovacího úhlu (pomocí samostatné neuronové sítě).
Na prvním snímku je vidět detekce vozidla ve 2D. Druhý a třetí snímek reprezentuje detekci kontury pomocí teplotní mapy a získání finální kontury vyhledáváním maximálních hodnot v této mapě. Následuje ukázka odhadu pozorovacího úhlu vozidla a finální odhad 3D obalového tělesa vozidla (červenou přerušovanou čárou), vůči ground truth (zeleně).
Metoda popsaná v této publikaci lze aplikovat i na jednotlivé snímky vozidel, tedy bez nutnosti dlouhodobého pozorování scény.
Dále publikace popisuje postupy pro augmentaci dat během trénování neuronových sítí, které zvyšují odolnosti vůči částečnému překrytí a změny barvy.
Součástí této publikace je také zaznamená datová sada specificky určená pro problematiku podrobné klasifikace vozidel. Datová sada s názvem BoxCars116k obsahuje 116 000 obrázků vozidel pozorovaných z různých úhlů s podrobnou anotací typu vozidla, která je svou velikostí i rozmanitostí ve světě unikátní.
Na této datové sadě metoda prezentovaná v této publikaci dosahuje o 12 procentních bodů lepších výsledků v porovnání se standardním klasifikační modelem, což v tomto případě představuje redukci chyby klasifikace o 50%.
Publikace popisuje metodu klasifikace vozidel v obraze do podrobných tříd (výrobce, model, typ karoserie a modelový rok vozidla) s pomocí vizuálních znaků získaných ze snímků vozidla. Metoda prezentována v této publikaci je založená na strojovém učení, konkrétně konvolučních neuronových sítích.
Metoda je zaměřená na obrazová data z dohledových kamer, kdy může být vozidlo pozorováno z různých úhlů. Přístup popsaný v této publikaci je odolný vůči změnám úhlu pozorování, částečným překryvům i změnám barvy vozidel. Toho je dosaženo konstrukcí 3D obalového tělesa vozidla a umělou úpravou dat během trénování neuronové sítě.
Součástí publikace je také datová sada s názvem BoxCars116k, speciálně zaznamenaná pro problematiku podrobné klasifikace vozidel. Datová sada, která obsahuje 116 000 obrázků vozidel s podrobnou anotací typu vozidla, je svou velikostí i rozmanitostí ve světě unikátní.
Aktuální počet citací: 21 (Zdroj: scholar.google.com)
https://scholar.google.com/scholar?cites=17708423618611798927&as_sdt=2005&sciodt=0,5&hl=cs
@article{BUT146507,
author="Jakub {Sochor} and Jakub {Špaňhel} and Adam {Herout}",
title="BoxCars: Improving Fine-Grained Recognition of Vehicles using 3-D Bounding Boxes in Traffic Surveillance",
journal="IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS",
year="2018",
volume="2019",
number="1",
pages="97--108",
doi="10.1109/TITS.2018.2799228",
issn="1524-9050",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8307405"
}