Título
Modelos de machine learning na avaliação do risco de crédito
Autor
Tomé, Beatriz Maurício A.
Resumo
pt
Avaliar a probabilidade de default de um candidato ao crédito é um desafio constante para as instituições financeiras e, por isso, estas têm procurado utilizar técnicas e modelos mais evoluídos que permitam monitorizar o risco com maior precisão. Existem vários algoritmos de Machine Learning que possibilitam uma previsão mais rigorosa de quais os candidatos ao crédito que têm uma maior probabilidade de entrar em incumprimento, classificando-os como bons ou maus candidatos. Neste estudo usou-se um conjunto de dados que contém informação sobre 32409 candidatos ao crédito e compararam-se, com base na sua performance, cinco modelos de Machine Learning: Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Adaptive Boosting (AdaBoost) e eXtreme Gradient Boosting (XGBoost). Escolheram-se estes modelos com o intuito de perceber se a utilização de um modelo mais simples, como o LR ou o DT, permite resultados tão satisfatórios quanto a utilização de um modelo mais complexo cuja explicabilidade será mais reduzida e, além disso, perceber qual o modelo que efetua melhores previsões neste âmbito. Para esta comparação analisaram-se métricas de performance, dando-se especial importância à area under the curve (AUC), uma vez que o conjunto de dados em estudo é não balanceado. Após a análise, o modelo que se destacou foi o XGBoost e, procurando responder ao intuito da escolha dos modelos, a otimização dos parâmetros do modelo DT permitiu obter resultados consideravelmente bons, tendo inclusive superado o modelo AdaBoost.
en
Assessing the likelihood of a credit applicant defaulting is a constant challenge for financial institutions and that's why they have sought to use more advanced techniques and models to monitor the risk more accurately. There are various Machine Learning algorithms that make it possible to predict more accurately which credit applicants are more likely to default, classifying them as good or bad candidates. This study used the a dataset that contains information of 32409 credit applicants, and compared five Machine Learning models based on their performance: Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Adaptive Boosting (AdaBoost) and eXtreme Gradient Boosting (XGBoost). These models were chosen in order to see whether using a simpler model, such as LR or DT, gives as satisfactory results as using a more complex model whose explainability will be lower and, furthermore, to see which model makes the best predictions in this area. For this comparison, performance metrics were analysed, with special emphasis on the area under the curve (AUC), since the dataset under study is unbalanced. After the analysis, the model that stood out was XGBoost and, in order to respond to the purpose of choosing the models, optimising the parameters of the DT model produced considerably good results, even outperforming the AdaBoost model.