Título
Smart ETL and LLM-based contents classification: The european smart tourism tools observatory experience
Autor
Cosme, Diogo Francisco Machado
Resumo
pt
Esta dissertação trata da conceção, implementação e validação de um processo Smart ETL (Extract,
Transform, and Load) para integração automática de conteúdos no Observatório Europeu
de Smart Tourism Tools. Um dos seus aspectos chave é a classificação automática dessas ferramentas
de acordo com uma taxonomia de Smart Tourism Tools (STTs), baseada na utilização de
Large Language Models (LLMs).
Foi efectuada uma revisão sistemática da literatura sobre a aplicação de LLMs na recolha de
informação, com especial incidência na classificação de conteúdos. Durante a etapa de avaliação
da qualidade dos estudos primários, comparámos os resultados obtidos utilizando métodos
manuais e baseados em LLMs.
Após a configuração da PaaS para o Observatório, foi concebida a metodologia para o
processo Smart ETL. Para a fase de extração, catálogos de STTs em formato PDF são inicialmente
utilizados como fontes de dados e o seu conteúdo é extraído. Na fase de transformação, cada
STT extraída dos catálogos é classificada automaticamente utilizando LLMs. Finalmente, na
fase de carregamento, o conteúdo é carregado automaticamente no observatório através da sua
API.
Embora os resultados da tarefa de classificação não tenham correspondido totalmente às
expectativas, os primeiros resultados confirmam a viabilidade desta abordagem e marcam um
passo significativo no sentido de uma classificação eficiente baseada em conteúdos, não só no
domínio do turismo inteligente, mas também adaptável a outros domínios. Foram identificadas
direcções de trabalho futuras para melhorar estes resultados.
en
This dissertation is about the conception, implementation and validation of a Smart ETL
(Extract, Transform, and Load) process for automatic content integration on the European Smart
Tourism Tools Observatory. One of its key aspects is the automatic classification of those tools
according to a taxonomy of Smart Tourism Tools (STT), based on the usage of Large Language
Models (LLMs).
A systematic literature review was conducted on the application of LLMs in information
retrieval, with a particular focus on content classification. During the quality assessment step
of primary studies, we compared the results obtained using manual and LLM-based methods.
After configuring the PaaS for the Observatory, the methodology for the Smart ETL process
was designed. For the extraction phase, STT catalogs in PDF format are initially used as data
sources and their content is extracted. In the transformation phase, each STT extracted from
the catalogs is classified automatically using LLMs. Finally, in the loading phase, the content is
automatically loaded into the observatory via its API (Application Programming Interface).
Although the results in the classification task did not fully meet the expectations, the first
results confirm the feasibility of this approach and mark a significant step towards efficient
content-based classification, not only in the field of smart tourism, but also adaptable to other
fields. Future work directions were identified to improve these results.