Teses e dissertações

Mestrado
Engenharia Informática
Título

Extração automática de informação de faturas digitalizadas

Autor
Correia, José Eduardo da Conceição
Resumo
pt
Atualmente, com a importância dos Fundos europeus (FE) torna-se especialmente relevante a otimização de processos com vista a conseguir fluxos de trabalho mais rápidos e eficientes. Para enfrentar este desafio, a utilização de ferramentas avançadas que integram Inteligência artificial (IA) tem o potencial de executar tarefas realizadas por humanos de forma mais rápida, com maior precisão e menor margem de erro. Neste trabalho foi realizado um estudo comparativo entre um modelo que usa a ferramenta LayoutLMv2 e um modelo que usa LayoutLMv3 para extração automática de dados de faturas. Para tal, o modelo aplicado que utiliza a ferramenta LayoutLMv3 foi submetido a inúmeras experiências, tendo-se descoberto melhores hiperparâmetros do modelo para se conseguir um melhor desempenho. Posteriormente, realizou-se uma avaliação comparativa de resultados entre o modelo aplicado com a ferramenta LayoutLMv3, que apresenta uma arquitetura com base Vision transformer (VIT) e um modelo já desenvolvido que se chama Intelligent Document Automation (IDA) e que usa a ferramenta LayoutLMv2 que se baseia em Redes neuronais convolucionais (CNN). Os resultados finais para o modelo aplicado LayoutLMv3 apresentam um melhor desempenho nos campos mais genéricos como número da fatura (Pontuação F1 de 90%) ou data da fatura (Pontuação F1 de 91%) ou nome do fornecedor (Pontuação F1 de 91%). Enquanto que o IDA apresenta melhores resultados para campos de maior detalhe como descrição do produto (Pontuação F1 de 91%) ou quantidade (Pontuação F1 de 94%).
en
Nowadays, with the importance of european funds, optimizing processes to achieve faster and more efficient workflows becomes especially relevant. To tackle this challenge, the use of advanced tools that integrate AI has the potential to perform tasks carried out by humans more quickly, with greater accuracy and a lower margin of error. In this work, a comparative study was conducted between a model that uses the LayoutLMv2 tool and a model that uses LayoutLMv3 for automatic data extraction from invoices. To this end, the applied model using the LayoutLMv3 tool was subjected to numerous experiments to discover the best hyperparameters for achieving the best possible performance. Subsequently, a comparative evaluation of results was carried out between the applied model using the LayoutLMv3 tool, which features a ViT-based architecture, and an already developed model called IDA that uses the LayoutLMv2tool, whose architecture focuses more on CNN. The final results for the applied model using the LayoutLMv3 tool show better performance for more generic fields such as invoice number (F1 Score of 90%), invoice date (F1 Score of 91%), or supplier name (F1 Score of 91%). Meanwhile, IDA shows better results for more detailed fields such as product description (F1 Score of 91%) or quantity (F1 Score of 94%).

Palavras-chave

Information extraction
Extração de informação
Machine learning -- Machine learning
Transformers
Transformadores
Visão e linguagem
LayoutLM
Faturas
IA para documentos
Vision and language
Invoices
IA for documents

Acesso

Acesso restrito. Solicitar cópia ao autor.

Ver no repositório  
Voltar ao topo
Política de Cookies
Este portal utiliza cookies e outras tecnologias na navegação do site ...