Título
Análise de sentimentos na classificação de comentários online aplicando técnicas de text mining
Autor
Moreno, Águeda Cabral
Resumo
pt
O crescimento dos sociais media proporcionou, nos últimos anos, um aumento significativo de
comentários online que se refletem nas decisões de compra. Os comentários ajudam, por um lado, as
empresas a recolher informações quanto à perceção dos consumidores em relação aos seus bens e
serviços. Por outro lado, ajudam e influenciam os consumidores a centrarem a sua atenção nas
recomendações que poderão estar mais alinhadas em satisfazer as suas necessidades, filtrando à
partida uma grande quantidade de informação que poderá não responder a esses requisitos.
O presente projeto tem como objetivo dar resposta a esta problemática através do estudo da
plataforma Yelp. Para tal, foram extraídos 14.000 comentários, relacionados com diferentes produtos
turísticos, com os respetivos votos (useful). Sobre estes foram aplicadas técnicas de text mining de
modo a encontrar os principais sentimentos (positivos, neutros e negativos), tópicos e termos de cada
comentário, que permitem explicar a sua utilidade.
Durante a investigação, seguindo a metodologia CRISP-DM, organizou-se os comentários em
tópicos, construiu-se o wordcloud com os termos mais utilizados pelos consumidores, procedeu-se à
análise de sentimentos dos comentários, das entidades e dos tópicos correspondentes e, por último,
construíram-se quatro modelos preditivos, calculando os erros de treino e teste.
Os resultados obtidos mostram que o modelo Regressão Logística é o melhor dos modelos
construídos, onde os termos: chair, valley, neighborhood e place food são os mais importantes para
explicar a utilidade dos comentários. Agruparam-se ainda os comentários em 20 tópicos onde o tópico
“Buffet” revelou ser o mais útil e com sentimento positivo.
en
The growth of social media lead, in the past few years, to a significant increase of the online reviews
that reflect buying decisions. These reviews, on one hand facilitate companies to acquire information
regarding the perception of consumers, but on the other hand help and influence consumers to center
their attention on the reviews that are better suited for their needs, thus filtering a huge amount of
irrelevant information to meet their requirements.
This project aims at addressing these issues and give some useful answers by using the Yelp
platform. This study involves the extraction of 14.000 reviews, related to different tourism products, with
the respective votes (useful). Text mining techniques were applied in order to identify and extract the
main subjective sentiments (positives, negatives and neutral), topics and terms behind each review
which then enabled us to understand the usefulness of the reviews.
Throughout this study and by using the CRISP-DM methodology, the researcher organized the
reviews by topics, has built a word cloud of the most used terms, performed the sentiment analysis on
the reviews, the entities and related topics and finally built the predictive models, by measuring the train
and test set.
The results show that the logistic regression model is the best predictive model, where the
terms: chair, valley, neighborhood and place food are the most important to explain the usefulness of
comments. Still, it was possible to group the comments on 20 topics where the topic “Buffet” proved to
be the most useful and positive sentiment.