Título
Addressing data imbalance in customer churn prediction: A novel approach for telecommunications companies
Autor
Oliveira, Gonçalo Xavier Cota
Resumo
pt
A indústria de telecomunicações tem conhecido um rápido crescimento e transformação, o que resultou numa intensificação da concorrência e na necessidade das empresas de se adaptarem às constantes mudanças nas preferências dos consumidores. Como tal, as empresas intensificaram estratégias de compreensão do ciclo de vida do cliente.
A gestão eficiente da taxa de churn é reconhecida como uma vantagem competitiva crucial no setor das telecomunicações.
Através da revisão de literatura, observou-se que a investigação existente relativamente à predição do churn (métrica que mede a percentagem de clientes que cancelam os seus serviços em um determinado período de tempo) abrange principalmente cliente com serviços móveis, deixando uma lacuna em relação aos clientes fixos. Este estudo tem como objetivo preencher essa lacuna através da construção de um modelo preditivo de churn dos clientes numa empresa de telecomunicações portuguesa, com foco nos serviços quadruple-play – que contemplam televisão, internet, telefone e telemóvel.
Tendo em conta a natureza da base de dados, o estudo explora estratégias para abordar desequilíbrios de classes na modelação preditiva através da introdução de técnicas Tomek’s Links e da Synthetic Minority Oversampling Technique (SMOTE), que melhoraram as métricas utilizadas para aferir a qualidade do modelo. O algoritmo CatBoost com a utilização de SMOTE obteve os melhores resultados dos critérios propostos neste conjunto de dados de clientes. A afinação dos hiperparâmetros resultou numa melhoria no desempenho deste algoritmo. A análise SHAP revelou que as visitas a lojas físicas reduzem a taxa de churn, enquanto que o contacto com o call center contribui para a taxa de churn destes clientes.
en
The telecommunications industry has experienced rapid growth and transformation, resulting in intensified competition and the need for companies to adapt to constant changes in consumer preferences. As such, companies have intensified their strategies to understand the customer lifecycle.
Efficient churn management is recognized as a crucial competitive advantage in the telecommunications sector.
Through literature review, it was observed that existing research on churn prediction (a metric that measures the percentage of customers who cancel their services within a certain period of time) mainly covers customers with mobile services, leaving a gap regarding fixed-line customers. This study aims to fill this gap by constructing a predictive churn model for customers in a Portuguese telecommunications company, focusing on quadruple-play services - which include television, internet, telephone, and mobile.
Considering the nature of the database, the study explores strategies to address class imbalances in predictive modeling through the introduction of Tomek’s Links and Synthetic Minority Oversampling Technique (SMOTE) techniques, which improved the metrics used to assess model quality. The CatBoost algorithm using SMOTE achieved the best results in the proposed criteria for this customer dataset. The fine-tuning of the hyperparameters resulted in an improvement in the performance of this algorithm.
The SHAP analysis revealed that visits to physical stores reduce churn rate, while contact with the call center contributes to the churn rate of these customers.