Título
Deep learning for large-scale fine-grained recognition of cars
Autor
Cruz, João Rodrigo Romão Marinho Pinto da
Resumo
pt
Deep Learning (DL) é um termo cada vez mais mencionado nos dias de hoje, com vastas aplicações
em classificação de imagens e detecção de objectos. Por detrás de muitas destas aplicações está a
utilização de Convolutional Neural Networks (CNN) cujo funcionamento é, para um dado input
(imagem) e output (nome do objecto representado/classe), produzir representações que definem e
permitem distinguir vários tipos de objectos.
As redes neuronais são computacionalmente exigentes e podem levar horas a ser treinadas.
Convolutional Neural Networks são ainda mais exigentes visto o seu input ser, usualmente,
imagens - um tipo de dados rico que contém muita informação. Com a rápida evolução do poder
computacional aliada à evolução no campo de Computer Vision com recurso a CNNs é possível,
somente nos últimos anos, treinar CNNs para classificação de imagens com alto nível de precisão.
Em sites de classificados de carros as imagens são um dos tipos de conteúdo mais importante.
Todavia até aos dias de hoje, pouco conhecimento/metadados são gerados a partir das mesmas. O
utilizador tem sempre que, para inserir um anúncio na plataforma, preencher um vasto número de
campos, entre eles a categoria do veículo, a cor do carro e a respectiva marca, modelo e versão, e
inserir uma imagem do carro para venda.
Nesta dissertação são utilizadas CNNs para o reconhecimento da marca, modelo e versão de
carros em que se utiliza transfer learning e fine-tuning para transferir o conhecimento “aprendido”
numa tarefa e adaptá-lo para outra. O trabalho é estendido de forma a demonstrar, também, a
eficácia destas redes neuronais para as tarefas de reconhecimento da categoria do veículo e
reconhecimento de cor de carros. Pretendemos validar como as CNNs se comportam nestes
diferentes tipos de tarefas.
Abordagens como remoção do fundo da imagem e data augmentation são utilizadas para
reduzir overfitting.É obtido um dos maiores datasets para a tarefa de reconhecimento de marca, modelo e versão
de carros, composto por 1,2 milhões de imagens pertencentes a 790 classes.
Os resultados apresentados são dos melhores para este tipo de tarefa (precisão de 92.7% com
um ensemble) considerando tanto o número de classes a classificar como o número de imagens
utilizadas.
Os resultados obtidos evidenciam a eficácia das arquitecturas de CNNs modernas para a
classificação granular onde a variação intra-classe é reduzida e a variação da perspectiva é elevada,
quando é utilizado um dataset de grandes dimensões.
en
Deep learning (DL) is widely used nowadays, with several applications in image classification and
object detection. Among many of these applications is the use of Convolutional Neural Networks
(CNNs) whose operation is: for a given input (image) and output (label/class), generate
representations that define and allow to distinguish different kinds of objects.
Neural Networks are computationally demanding, taking hours to train. Convolutional
Neural Networks are even more demanding since their input data are usually images – a rich data
type that holds a lot of information. The fast evolution in Computer Vision, using deep learning
techniques, and computing power recently allowed to train CNNs which can classify images with
high precision.
In car classifieds websites images are one of the most important types of content. However,
until today, little knowledge/metadata is produced from such images. In order to insert an advert
in the platform, the user must upload an image of the car for sale and fill a certain number of fields,
among them the vehicle category, the color of the car and its respective make, model and version.
In this dissertation, CNNs are used for the recognition of the make, model and version of cars
where transfer learning and fine-tuning are two approaches used for transferring the knowledge
learned in one task and adapting it to another. We extend the work to also validate the efficacy of
these neural networks on the tasks of vehicle category and cars’ color recognition. We pretend to
validate how CNNs behave in these different tasks.
Approaches like background removal and data augmentation are explored for reducing
overfitting.
We collected one of the largest datasets to date for the task of make, model and version
recognition of cars, composed of 1.2 million images belonging to 790 labels.The results obtained in the scope of this dissertation set a new state-of-the-art performance
for this type of task (accuracy of 92.7% on an ensemble method) considering the number of classes
to classify and the number of images used.
It is demonstrated the efficacy of the recent advances in CNN architectures in fine-grained
classification where intra-class variation is small and viewpoint variation is high, when a largescale dataset is used.