Título
Decoding the numbers and language behind financial statement fraud
Autor
Oliveira, João de Brito Brás de
Resumo
pt
A fraude de reporte financeiro custa às empresas, a par da corrupção e da apropriação indevida de ativos, mais de 5 biliões de dólares americanos por ano. A deteção atempada desta infração desempenha um papel crucial nos danos sofridos. Por conseguinte, é essencial dispor de métodos automatizados capazes de identificar ocorrências com elevada probabilidade de fraude. Neste sentido, este estudo avaliou o potencial dos Modelos de Linguagem de Grande Escala (LLMs) como o BERT e o FinBERT, comparando o seu desempenho com modelos como a Regressão Logística e o XGBoost.
Para tal, analisou-se a secção “Management's Discussion & Analysis” de 1850 relatórios 10-K (1436 não fraudulentos e 414 fraudulentos), juntamente com rácios financeiros e variáveis contabilísticas de empresas, entre 1993 e 2014. Os modelos treinados utilizaram três tipos de variáveis: financeiras, textuais e uma combinação de ambas. A avaliação baseou-se em três métricas: AUC, NDCG@k e uma ‘Captura’ baseada num valor limite, visto que, neste caso, as probabilidades de fraude podem ser mais informativas do que as classes preditas pelo modelo.
Os resultados sugerem que a última parte da secção MD&A capta informações mais relevantes do que a inicial. Além disso, a média das previsões dos modelos baseados na primeira e na última parte da secção aparenta não melhorar significativamente os resultados apesar de melhorar a captura. O FinBERT superou o BERT e obteve valores de AUC comparáveis aos modelos tradicionais que utilizam o 'text-embedding-3-large' da OpenAI, obtendo também valores superiores de NDCG@k e de ‘Captura’.
en
Financial statement fraud costs companies, in addition to corruption and asset misappropriation, over 5 trillion US dollars annually. The timely detection of this offense plays a crucial role in the damage suffered. Therefore, automated methods capable of identifying high-probability fraud occurrences are essential. Therefore, this study evaluates the potential of Large Language Models (LLMs) such as BERT and FinBERT by comparing their performance to that of well-established models like the Logistic Regression and the XGBoost.
To accomplished this, in our study, we went over the Management’s Discussion & Analysis (MD&A) section of 1850 10-K reports (1436 non-fraud and 414 fraud), alongside financial ratios and raw accounting variables from companies which were known to have manipulated at least a single report in the past spanning from 1993 to 2014. Models were trained using three variable types: financial, text, and a combination of both. Evaluation was done using three metrics, AUC, NDCG@k and a threshold-based ‘Capture’, as to the specific problem, probabilities can be more informative than labels.
The results suggest that the last part of the MD&A section captures more relevant information than the beginning. Additionally, rank-averaging predictions from models based on the first and last parts of the section did not yield significant improvements despite the improved capture. FinBERT outperformed BERT and achieved AUC scores comparable to traditional models that leverage OpenAI’s ‘text-embedding-3-large’ and surpass them in both NDCG@k and capture rates. Thus, FinBERT’s domain-specific pretraining proved to be particularly advantageous in enhancing fraud detection performance.