Título
Investment strategy for informational assets in Oil and Gas exploration using deep reinforcement learning
Autor
Júnior, Paulo Roberto de Melo Barros
Resumo
pt
Nesta tese investigamos as estrat´egias de investimento em ativos informacionais na fase explorat
´oria da ind´ustria de petr´oleo e g´as. Aplicamos uma estrutura de Aprendizagem por Reforc¸o
(AR) para simular cen´arios econ´omicos com m´ultiplos agentes, ac¸ ˜oes e ambientes com o intuito
de identificar estrat´egias de investimento ´otimas. Esta abordagem determina as pol´ıticas mais
eficazes sob diferentes condic¸ ˜oes econ´omicas, implementando algoritmos Q-Learning, SARSA
e Deep Q-Network (DQN). Os resultados evidenciam a efic´acia dos agentes treinados em RL na
obtenc¸ ˜ao de retornos superiores, particularmente em cen´arios de licitac¸ ˜oes competitivas onde
um n´umero menor de empresas implica uma maior probabilidade de sucesso e maximiza os
benef´ıcios de investimentos antecipados em ativos informacionais. Para as caracter´ısticas relativas
aos diferentes cen´arios econ´omicos, observamos que enquanto os prec¸os e a procura do
petr´oleo aumentam, os retornos tamb´em aumentam. Contudo, n˜ao vemos mudanc¸as significativas
nas vantagens do investimento antecipado em ativos informacionais. O sistema AR e o
banco de dados desenvolvidos neste estudo fornecem uma base para aplicac¸ ˜ao ao mundo real
na ind´ustria de petr´oleo e g´as, com potencial para melhorias na modelizac¸ ˜ao de estados, ac¸ ˜oes
e agentes ou para a incorporac¸ ˜ao de t´ecnicas avanc¸adas como A3C e DPO. A investigac¸ ˜ao evidencia
o potencial da AR em processos complexos de tomada de decis˜ao, oferecendo uma
ferramenta robusta para otimizar estrat´egias econ´omicas e fornecendo uma estrutura valiosa
para utilizac¸ ˜ao em ambientes de neg´ocios com atividades an´alogas `as da ind´ustria de petr´oleo e
g´as.
en
This thesis investigates the investment strategies in informational assets in the exploratory phase
of the oil and gas industry. We apply a Reinforcement Learning (RL) framework to simulate
economic scenarios with multiple agents, actions, and environments to identify optimal investment
approaches. Our approach determines the most effective policies under different economic
conditions by implementing Q-Learning, SARSA, and Deep Q-Network (DQN) algorithms.
The results evidence the efficacy of RL-trained agents in attaining superior returns, particularly
in competitive bidding scenarios where a smaller number of companies implies a higher probability
of success and maximizes the benefits of advanced investments in informational assets.
For scenario features, we observe that while oil prices and demand rise, the returns increase.
However, we can not observe significant changes in the advantages of early investment in informational
assets. The RL system and database developed in this study provide a foundation
for real-world application in the oil and gas industry, with the potential for enhancements in
modeling states, actions, and agents or the incorporation of advanced techniques such as A3C
and DPO. We highlight the potential of RL in complex decision-making processes and deliver
a robust tool for optimizing investment strategies. It also provides a valuable framework for use
in business environments in the oil and gas industry or with similar characteristics.