Título
Reconhecimento de interações cliente-produto em espaços de vendas
Autor
Gracias, Francisco Marques
Resumo
pt
O reconhecimento de atividades humanas baseado em visão por computadores é uma
área de investigação desafiante com crescente interesse entre os investigadores e
empresas. Com a introdução de sensores RGB-D, que adiciona a dimensão de
profundidade às câmeras convencionais, é possível gerar modelos de esqueletos em
tempo real. Com base em atributos extraídos do esqueleto e em modelos de aprendizagem
automática treinados é possível reconhecer as atividades humanas.
Nesta dissertação, propõe-se um modelo para reconhecer interações de clientes com
produtos em prateleiras de lojas com base em informação do esqueleto e RGB-D, assim
como algoritmos existentes para deteção de objetos e gestos. Estes algoritmos são
interligados num único sistema e testados num ambiente de loja simulado, caracterizado
por interações humano-objeto, necessidade de acompanhar simultaneamente diferentes
atividades de clientes em tempo real e um ângulo de visão típico de câmeras em lojas
(vista superior) que potencia oclusões entre sujeitos ou partes do corpo deste.
As principais contribuições deste estudo são a introdução de um novo modelo que
combina reconhecimento de objetos e gestos e a análise detalhada dos resultados sobre
diversas perspetivas consideradas pertinentes.
Acresce o conjunto de dados recolhido que está disponível para fins de investigação,
como o desenvolvimento, melhoria e comparação de desempenho de modelos destinados
a este contexto aplicacional. Três cenários com quatro tipos de produto e graus de
complexidade distintos são avaliados - um único cliente a interagir com duas prateleiras,
dois clientes e uma prateleira para cada e dois clientes disputando duas prateleiras.
No modelo desenvolvido, o reconhecimento de interações com a prateleira passa pela
deteção de extensões e flexões do braço trama-a-trama, que posteriormente são
generalizadas em gestos e interações para um intervalo de tramas. O modelo desenvolvido
apresenta um f1-score médio de 69,78% para deteção da extensão/flexão do braço e
66,46% para deteção do tipo de produto. Com base na agregação de informações de
deteção de objetos e gestos, são reconhecidas 53.97% das interações de prateleira testadas
(recall) e detetadas corretamente 30.47% das vezes (precision).
en
Computer vision-based human activities recognition is a challenging research area
with increasing interest amongst researchers and companies. The introduction of RGB-D
sensors. which add the depth dimension to the conventional colored 2D cameras, allows
real-time skeleton model generation of humans. This skeleton data provides meaningful
information that enabled researchers to model human activities by training machine
learning models and later utilize them to recognize activities.
In this dissertation, we propose a model to recognize customer interactions with
products in store’s shelves based on RGB-D and skeleton data, as well as existing
algorithms for gesture and object detection. We demonstrate how those existing
algorithms perform in an integrated system tested in a simulated retail store context,
particularly characterized by human-object interactions, the capacity to simultaneously
track in real-time different customer’s activities and a field of view captured by the sensor
that is typical in retail environments (top view), which makes it prone to occlusions
between subjects and body parts.
The main contributions of our study are the introduction of a novel model that
combines object and gesture recognition as well as detailed performance metrics
regarding different analytical perspectives.
The collected dataset is available for researching purposes, namely to allow different
model’s development, improvement and performance comparison in this specific
research area. Three scenarios with four types of products and different recognition
complexities are evaluated – a single customer interacting with two shelves, two
customers interacting with a one shelf each and two customers disputing two shelves.
In the developed model, recognizing shelf interactions is done through the
generalization of frame by frame arm extension/flexion detections in gestures and
interactions regarding specific frame intervals. The developed model has a f1-score of
69.78% for arm extension/flexion detection and 66.46% for product type detection. Based
on the aggregation of gesture and object detection information we recognize 53.97% of
the existing shelf interactions (recall) with a precision of 30.47%.