Título
Predictive analysis in healthcare
Autor
Gonçalves, Filipe da Silva
Resumo
pt
As urgências dos hospitais são o maior ponto de entrada para o sistema de saúde. Com
o aumento da esperança média de vida e o aumento do número de doenças, aumentou a
necessidade e a procura dos serviços de saúde, levando a que seja importante que as
urgências dos hospitais consigam fazer uma gestão eficiente dos seus recursos de forma
a proporcionar a melhor experiência possível aos seus utentes. Se a procura por recursos
nas urgências dos hospitais for superior aos recursos disponíveis, ocorre um fenómeno de
concentração excessiva de pessoas nas urgências, o que pode causar vários problemas
como por exemplo tempos de espera mais longos, falta de camas, utentes nos corredores,
o que acaba por afetar a satisfação dos utentes.
Uma forma de aumentar a satisfação dos utentes é através da previsão do tempo de
espera nas urgências do hospital, visto que ajuda a administração do hospital a fazer uma
melhor gestão dos recursos disponíveis e oferecer uma previsão do tempo de espera aos
utentes leva a maior satisfação.
O autor desenvolveu em conjunto com um hospital Português perto de Lisboa, usando
dados reais, um protótipo que permite fazer a previsão do tempo de espera nas urgências
do hospital. Para complementar os dados providenciados pelo hospital, o autor adicionou
alguns atributos como informação do estado meteorológico por dia (temperatura,
humidade, precipitação e vento), anúncios da Direção-Geral de Saúde (DGS) e o número
de jogos de futebol das duas principais equipas de Lisboa (Sporting CP e SL Benfica) por
dia.
O autor aplicou os algoritmos Naive Bayes e Random Forest em três cenários
diferentes: o primeiro em que apenas se utilizam os dados originais providenciados pelo
hospital, o segundo em que se adicionam os atributos dos anúncios da DGS e o número
de jogos de futebol e o terceiro em que para além dos atributos do cenário anterior, se
adicionou os atributos relativos ao estado meteorológico do dia mencionados
anteriormente.
O algoritmo com melhor performance foi o Random Forest, principalmente no terceiro
cenário, fator que levou a que este tenha sido o modelo escolhido para ser utilizado no
protótipo. Depois de fazer as previsões do tempo de espera e analisar os resultados, podese concluir que para além do algoritmo Random Forest apresentar melhores resultados
para a previsão do tempo de espera nas urgências, tendo em conta o tipo de dados fornecido, os atributos externos adicionados posteriormente e que não pertenciam ao
conjunto de dados original providenciado pelo hospital, não são dos atributos que mais
afetam os tempos de espera, sendo que os atributos que têm mais importância para os
tempos de espera das urgências são a cor de triagem e a categoria da doença.
en
The Emergency departments (ED) are the major entry point to the healthcare system.
With the growing demand due to the increase of life expectancy and the greater number
of diseases, it is mandatory for the ED’s to have a more efficient resource management
in order to try and provide the best experience possible to its patients. If the resource
demand is greater than the resources available, then ED crowding occurs. This
phenomenon leads to several problems that affect the patient experience, like longer
waiting times, lack of beds, patients in hallways, etc.
One of the ways to improve patient satisfaction is through patient waiting time
prediction, since it would allow for a better resource management in the ED and providing
patients with a waiting time estimation on the triage increases patient satisfaction. The
author collaborated with a Portuguese hospital near Lisbon using real ED data and built
a prototype to predict the ED waiting time. The researcher complemented the ED original
dataset with external data like weather information, DGS Announcements and number of
football games, to try to find the most accurate model.
To perform the prediction, the Naïve Bayes (NB) and Random Forest (RF) algorithms
were applied in three different scenarios: the first one only with data from the original
dataset, the second one where the number of football games and DGS announcements
attributes were added and finally, a third one with the same dataset as the previous
scenario but added weather information (temperature, wind, humidity and precipitation).
The RF algorithm was the one with the best performance, especially in the third scenario.
For this reason, the author used the RF algorithm with the variable inputs from the third
scenario to perform the predictions on the prototype. The author concluded that the
external data attributes added in both second and third scenarios were not the most
important attributes for the waiting times, being the most important variables, the triage
colors, disease category.