Título
Data mining aplicado a reviews online e estudo da insatisfação em hotéis da cidade de Lisboa
Autor
Gonçalves, João Pedro Esteves de Oliveira
Resumo
pt
Para a evolução da hotelaria, os hotéis devem aproveitar a revolução em torno do Analytics, do Big Data e do Machine Learning no intuito de compreender melhor os seus clientes-tipo para perceber onde devem investir, de modo a satisfazer as expetativas dos hóspedes consoante diferentes classes de hotel. O objetivo deste estudo é analisar comentários negativos de reviews online a fim de perceber em que aspetos divergem reclamações de hotéis de classe baixa, das de hotéis de luxo. Desta forma, extraíram-se comentários negativos de cerca de 150 mil reviews do portal Booking.com de 216 hotéis lisboetas e adotou-se a metodologia CRISP-DM. Os dados tipo texto foram estruturados através de um processo de Text Mining que envolveu pré-processamento, a análise de frequência, além da revisão de literatura para a construção de 18 variáveis independentes. A variável dependente correspondeu à classe do hotel criada a partir das estrelas dos hotéis. Seguidamente, os dados foram modelados segundo um algoritmo de árvores de decisão, acabando por ter uma capacidade preditiva baixa. A análise do modelo revelou que em hotéis de classe baixa os hóspedes queixaram-se das atividades de recreação ou da falta delas, e também da relação qualidade-preço. Quanto a hotéis de luxo, o estudo mostrou que não abordam tanto o valor, as instalações, ou interações com o staff, mas sim o catering e o reporte de cheiros desagradáveis. Concluindo, a produção deste estudo permite expandir o conhecimento em torno da insatisfação em hotéis, como pode fornecer insights para os gerentes aplicarem nos hotéis.
en
For the evolution of hospitality, hotels should take advantage of the revolution around Analytics, Big Data and Machine Learning to better understand their typical customers, know where they should invest, and satisfy the expectations of guests according to different hotel classes. This study aims to analyze negative comments from online reviews to understand how low-class hotels complaints differ from those of luxury hotels. Therefore, negative comments were extracted from around 150 thousand reviews from Booking.com and 216 Lisbon hotels, and the CRISP-DM methodology was adopted. The text-type data were structured through a Text Mining process that involved pre-processing, frequency analysis, and a literature review to construct 18 independent variables. The dependent variable corresponded to the hotel class that was created from the number of hotel stars. Then, the data were modeled according to a decision tree algorithm, which ended up having a low predictive capacity. Model analysis revealed that in lower-class hotels, guests complained about recreational activities or the lack of them, and also about the quality-price ratio. As for luxury hotels, the study showed that negative comments don't address value, facilities, or interactions with staff so much as catering and the report of unpleasant smells. In conclusion, the production of this study allows extending the knowledge around dissatisfaction in hotels, as it can provide insights managers can apply in hotels.