Título
Credit scoring: A comparison between statistical and machine learning techniques for probability of default estimation
Autor
Dias, João D. Sousa
Resumo
pt
Risco de crédito é definido pelo Comité de Basileia como a probabilidade de um devedor entrar em
incumprimento para com as suas obrigações creditícias, sendo que é necessária uma gestão efetiva do
mesmo para otimizar rendibilidades ajustadas ao risco. Esta dissertação pretende ser um estudo sobre
um conjunto de dados de empréstimos concedidos, publicamente disponível no repositório de Machine
Learning da Universidade da California, Irvine (UCI), onde uma comparação é efetuada entre modelos
estatísticos e modelos baseados em machine learning. Esta análise comparativa evidencia os vários
pontos fortes e limitações respetivos a cada tipo de modelo, pelo aprofundamento das suas características
e resultados na estimação da probabilidade de incumprimento. As conclusões apontam para a
importância de um tratamento de dados robusto, da seleção do melhor modelo e na utilização de técnicas
de interpretabilidade, destacando a complexidade dos vários fatores que influenciam o risco de crédito.
en
Credit risk, defined by the Basel Committee as the potential for a borrower to default on obligations,
necessitates effective management to optimize risk-adjusted returns. This work intends to be a study on
a publicly available loan default dataset from the University of California, Irvine (UCI) Machine
Learning Repository, where a comparison is conducted between statistical and machine learning models.
The comparative analysis of these models highlights their strengths and limitations, offering insights
into their application in credit risk assessment. The findings underscore the importance of robust data
preprocessing, model selection, and interpretability techniques in predicting credit defaults, highlighting
the complex interplay of various factors influencing credit risk.