Título
Machine learning: Challenges and opportunities on credit risk
Autor
Costa, Patrícia Alexandra Guerreiro
Resumo
pt
O constante desafio na antecipação do risco de incumprimento por parte dos tomadores de
crédito, levou a que as instituições financeiras desenvolvessem técnicas e modelos de forma a
melhorar a sua monitorização do risco de crédito, e antever o quão provável será para
determinados clientes entrar em incumprimento, assim como o quão provável será para outros
de cumprirem com as suas obrigações financeiras. Portanto, interessa averiguar como as
instituições financeiras podem antecipar esta ocorrência beneficiando de algoritmos de
Machine Learning.
A presente dissertação pretende demonstrar o poder dos algoritmos de Machine Learning
na análise de risco de crédito, com foco no processo de construção dos modelos, treinando-os
e testando os dados, e apresentar as oportunidades e os desafios de Machine Learning que ainda
estão em aberto para desenvolver futuros estudos. Para esse propósito, apresentamos dois
algoritmos de classificação de Machine Learning: as Árvores de Decisão e a Regressão
Logística. Adicionalmente, também se apresenta os resultados numéricos obtidos entre várias
comparações desses algoritmos que foram programados e corridos em Python, utilizando a
aplicação Jupyter Notebook. Os dados da amostra inicial, constituída por 850 observações,
contêm detalhes de crédito sobre os tomadores de empréstimos nos Estados Unidos da América,
sendo os dados de livre acesso e uitilização. Para verificar a execução e a performance do
modelo, entre Regressão Logística e Árvores de Decisão, usamos medidas como o AUC,
precisão e F1-score.
en
The constant challenge in anticipating the risk of default by borrowers has led financial
institutions to develop techniques and models to improve their credit risk monitoring, and to
predict how likely it is for certain customers to default on a loan, as well as how likely it is for
others to meet their financial obligations. Thus, it is interesting to investigate how financial
institutions can anticipate this occurrence using Machine Learning algorithms.
This dissertation aims to demonstrate the power of Machine Learning algorithms in credit
risk analysis, focusing on building the models, training them, and testing the data, and
presenting the opportunities and challenges of Machine Learning that are still open to
developing future studies. For this purpose, we present two Machine Learning classification
algorithms: Decision Trees and Logistic Regression. In addition, numerical results obtained
from various comparisons of these algorithms, which were programmed and ran in Python using
the Jupyter Notebook application, are also presented. The initial sample data, consisting of 850
observations, contained credit details about borrowers in the United States of America, and is
freely available data. To check the model execution and performance, between Logistic
Regression and Decision Trees, we used measures such as AUC, precision and F1-score.