Título
Machine learning for the development and validation of predictive models for periodontitis
Autor
Maltez, Ricardo Alexandre Gonçalves
Resumo
pt
Esta dissertação teve como principal objetivo o desenvolvimento de um modelo preditivo de periodontite em Portugal, tentando compreender a sua capacidade.
Neste estudo, o conjunto de dados utilizado foi fornecido pelos autores do Almada-Seixal Periodontal Health Study (SoPHiAS) e consistiu em 1.064 participantes com idades entre 18 e 95 anos. Este conjunto de dados inclui variáveis relativas a características sociodemográficas, comportamentais e médicas.
Este trabalho adotou como metodologia uma ligeira adaptação do Cross-Industry Standard Process for Data Mining (CRISP-DM), relatando a compreensão do problema, compreensão dos dados, preparação dos dados, modelagem, avaliação e por fim, implementação.
Uma análise de regressão logística foi aplicada para determinar possíveis fatores de risco para periodontite e proceder à criação do modelo de classificação. Este modelo incluiu variáveis relativas a anos de tabagismo, diabetes, uso de prótese dentária, bruxismo, sexo, idade e escolaridade.
Relativamente às métricas de desempenho mais relevantes, este modelo atingiu valores de 70,2% e 71,7% para sensibilidade e precisão, respetivamente.
A prevalência de periodontite foi de 59,9% na amostra estudada. Quanto ao risco de periodontite, este aumentou significativamente com a idade, anos de tabagismo, menores níveis de escolaridade, uso de prótese dentária, género masculino e presença de diabetes.
Estes resultados demonstram a relação entre vários fatores e a doença periodontal, ajudando a comunidade médica a definir estratégias de prevenção da periodontite.
en
This dissertation had as its main objective the development of a predictive model for periodontitis in Portugal, trying to understand its capacity.
In this study, the dataset used was provided by the authors of Almada-Seixal Periodontal Health Study (SoPHiAS) and consisted of 1,064 participants aged between 18 and 95 years. This dataset includes variables relating to sociodemographic, behavioral and medical characteristics.
This work adopted as a methodology a slight adaptation of Cross-Industry Standard Process for Data Mining (CRISP-DM), reporting the understanding of the problem, data understanding, data preparation, modeling, evaluation and finally, implementation.
A Logistic Regression analysis was applied to determine possible risk factors for periodontitis and proceed to create the classification model. This model included variables relating to years of smoking, diabetes, use of dentures, bruxism, gender, age and education.
Concerning the most relevant performance metrics, this model achieved values of 70.2% and 71.7% for sensitivity and precision, respectively.
The prevalence of periodontitis was 59.9% in the studied sample. Regarding the risk of periodontitis, it increased significantly with age, years of smoking, lower levels of education, the use of dentures, male gender and the presence of diabetes.
These results demonstrate the relationship between several factors and periodontal disease, helping the medical community to define prevention strategies for periodontitis.