Título
A text mining approach to Portuguese terroir: Analysing online wine reviews
Autor
Ferreira, Mariana Patrícia Silva
Resumo
pt
A presente dissertação aplica técnicas de mineração de texto para analisar mais de 120.000 avaliações de vinhos portugueses, escritas em inglês, da plataforma Vivino. O principal objetivo é obter informações sobre as preferências dos consumidores, que podem ajudar os produtores e profissionais de marketing a alinhar as suas ofertas com as exigências do mercado. A dissertação segue uma metodologia inspirada no Cross-Industry Standard Process for Data Mining (CRISP-DM). O estudo utilizou análise de sentimento, revelando uma predominância de avaliações positivas; modelação de tópicos, que identificou três temas principais (características sensoriais, perceções de valor e preferências de estilo de vinho); deteção de emoções, que demonstrou que alegria é a emoção mais comum; e classificação de avaliações, onde foram usados modelos Convolutional Neural Network (CNN), Bidirectional Long Short-Term Memory (BiLSTM) e Support Vector Machine (SVM) para prever as classificações dos vinhos com base no conteúdo das avaliações textuais. Os modelos alcançaram uma taxa de acerto moderada, sugerindo baixa consistência entre os utilizadores da plataforma. Estes resultados demonstram o potencial da mineração de texto para extrair informação sobre os consumidores a partir de avaliações online. Ao mesmo tempo, esta dissertação expandiu o campo de aplicação da área de Wineinformatics, sendo este o primeiro estudo a ter por base conteúdo gerado por utilizadores e não profissionais.
en
The present dissertation applies text mining techniques to analyse over 120,000 Englishwritten reviews of Portuguese wines from Vivino. The main objective is to retrieve insights regarding consumer preferences, which can provide winemakers and marketers a way to align their offerings with market demands. The dissertation follows a Cross-Industry Standard Process for Data Mining (CRISP-DM) inspired methodology. The study employed sentiment analysis, revealing prevalence of positive reviews; topic modelling, which uncovered three main themes (sensory characteristics, value perceptions, and wine style preferences); emotion detection, that showed joy as the most common emotion; and review classification, which was based on Convolutional Neural Network (CNN), Bidirectional Long Short-Term Memory (BiLSTM), and Support Vector Machine (SVM) models to predict wine ratings from textual review content. The models achieved a moderate accuracy, suggesting low consistency among reviewers. All these findings demonstrated the potential of using text mining to extract consumer insights from online reviews.
At the same time, this dissertation expands Wineinformatics as a field, given this is the first to utilise User-Generated Content (UGC) as its foundation, instead of
professional reviews.