Iscte

Mestrado

Economia Monetária e Financeira

Título

Como construir um modelo híbrido de previsão para o S&P500 usando um modelo VECM com um algoritmo LSTM?

Autor

Lopes, Tiago Miguel Dias da Gama Lobo de Sousa

Resumo

A previsão de séries financeiras faz parte do processo de decisão das políticas monetárias por parte dos bancos centrais. Mendes, Ferreira e Mendes (2020) propõem um modelo híbrido que junta um VECM (modelo vetorial corretor de erro) com um algoritmo de aprendizagem profunda o LSTM (memória de longo curto-prazo) para uma previsão multivariada do índice acionista norte-americano S&P500, utilizando-se as séries do Nasdaq, Dow Jones e as taxas de juro dos bilhetes do tesouro americano a 3 meses no mercado secundário, com dados semanais, entre 19/04/2019 e 17/04/2020. Nesta dissertação, replicou-se esse artigo e construiu-se um modelo híbrido semelhante com a mesma finalidade e obteve-se um erro de previsão MAPE 86% inferior (4% versus 28%), mesmo incluindo a crise da COVID-19. Analisou-se o período sem crise e obteve-se um MAPE de 1.9%. Verificou-se que o vazamento de dados entre os períodos de teste e treino é um problema que prejudica os resultados. Comparou-se diferentes formas de construir o modelo híbrido variando o número de desfasamentos e de épocas de treino no LSTM, verificou-se o impacto de logaritmizar as séries, e comparou-se com modelos de referência (LSTM univariado/multivariado). Além disso, testou-se a causalidade à Granger entre os períodos com forte intervenção por parte da FED (décadas de 70 e 80, e crise da COVID-19 em fevereiro de 2020), concluindo-se que a variação das taxas de juro causam à Granger os retornos dos índices acionistas analisados, invertendo-se essa relação causal fora desses períodos.

The forecasting of financial series is part of the decision-making process of monetary policies by central banks. Mendes, Ferreira and Mendes (2020) proposed a hybrid model that combines a VECM (Vector Error Correction Model) with a deep learning algorithm LSTM (Long Short-Term Memory) for a multivariate forecast of the U.S. stock index S&P500, using Nasdaq, Dow Jones and U.S. treasury bills for 3 months yields of the secondary market series, with weekly data, between 19/04/2019 and 17/04/2020. In this dissertation, this article was replicated, and a similar hybrid model was constructed with the same purpose and an 86% lower MAPE forecast error was obtained (4% versus 28%), even including the COVID-19 crisis. The time period without the crisis was analyzed and a MAPE of 1.9% was obtained. It was found that data leakage between the test and training periods is a problem that impairs the results. Different ways of constructing the hybrid model were compared by varying the number of lags and training epochs in LSTM, the impact of using the log-series was verified, and benchmarking with univariate and multivariate LSTM was made. In addition, granger causality was tested between the time periods with strong intervention by the FED (1970s and 1980s, and the COVID-19 crisis in February 2020) concluding that the changes in yields Granger cause the stock indices returns. In contrast, this causal relationship outside these time periods was the opposite, with the indices returns causing the changes in yields.