Título
Automatic classification of complaints from public administration
Autor
Caldeira, Francisco Miguel Silva
Resumo
pt
A classificação de texto é uma área de estudo em aberto, dependendo do problema dos
dados disponíveis e estudo em questão, o melhor método nem sempre é mesmo. Dentro
da área da inteligência artificial No caso das empresas a classificação de queixas (como
neste trabalho) ou mesmo de incidentes é uma tarefa que ainda requer muito trabalho
manual. Neste trabalho vai ser abordada a classificação automática de queixas recebidas
por uma instituição pública. No processo de tratamento das queixas a classificação é parte
do grande panorama e a sua automatização permite acelerar muito os processos manuais
que são actualmente usados. Neste contexto, foram trabalhados os sumários das queixas
e as técnicas usadas para aplicar modelos de classificação automática. O conjunto de
dados é consideravelmente pequeno e apresenta um grande desequilíbrio na distribuição
das classes, sendo que as três maiores têm perto de 95% dos dados. Para colmatar este
problema foram analisadas duas abordagens: classificação em duas etapas e aumento do
conjunto de treino com base em traduções dos sumários. Neste contexto foram usados alguns
modelos de classificação como k-NN, SVM, Naïve Bayes, boosting e BERT. Usando
modelos treinados com os sumários foi também realizada uma experiência de classificação
dos textos completos das queixas. Apesar dos resultados serem piores do que os obtidos
usando o dados resumidos, estes apresentam alguma taxa de sucesso, especialmente para
classificação da classe mais frequente. Com base neste trabalho foi possível concluir que
a classificação das classes com menos representação é um desafio, mas através de técnicas
de aumento do conjunto de treino é possível melhorar substancialmente o resultado
obtido. Também utilizar uma estratégia de classificação multietapa permite melhorar os
resultados obtidos. Os melhores modelos para a classificação foram SVM e BERT.
en
Complaint management is a problem faced by many organizations that is both vital
to customer satisfaction and retention, while being highly dependent on human resources.
This work attempts to tackle a part of the problem, by classifying summaries of complaints
using machine learning models in order to better redirect these to the appropriate
responders. To solve the aforementioned problem text mining, and more specifically natural
language processing, were used alongside machine learning algorithms for automatic
classification. The main challenge of this task is related with the diverse set of characteristics
real world datasets have, in this case being small and highly imbalanced. This
can have a big impact on the performance of the classification models. The dataset analyzed
in this work suffers from both of these problems, being relatively small and having
labels in different proportions the three most common labels account for around 95% the
dataset. In this work, two different techniques are analyzed: multistage classification with
for classifying the more common labels first and the remaining on a second step; and, generating
new artificial examples for some classes via translation into other languages. The
classification models explored were the following: k-NN, SVM, Naïve Bayes, boosting,
and Deep Learning approaches, including transformers. Although, in general using summaries
leads to better results, we also experimented with the full documents. Using the
models trained with the summarized documents the classification of the full documents.
Even though the results were not on par with the summarized dataset the experimented
presented good results for signaling the most common label of the documents. We conclude
that although, as expected, the classes with little representation are hard to classify,
the techniques explored helped to boost the performance, especially in the classes with
a low number of elements. SVM and Transformer-based models outperformed their peers.