Teses e dissertações

Mestrado
Engenharia Informática
Título

Smart ETL and LLM-based contents classification: The european smart tourism tools observatory experience

Autor
Cosme, Diogo Francisco Machado
Resumo
pt
Esta dissertação trata da conceção, implementação e validação de um processo Smart ETL (Extract, Transform, and Load) para integração automática de conteúdos no Observatório Europeu de Smart Tourism Tools. Um dos seus aspectos chave é a classificação automática dessas ferramentas de acordo com uma taxonomia de Smart Tourism Tools (STTs), baseada na utilização de Large Language Models (LLMs). Foi efectuada uma revisão sistemática da literatura sobre a aplicação de LLMs na recolha de informação, com especial incidência na classificação de conteúdos. Durante a etapa de avaliação da qualidade dos estudos primários, comparámos os resultados obtidos utilizando métodos manuais e baseados em LLMs. Após a configuração da PaaS para o Observatório, foi concebida a metodologia para o processo Smart ETL. Para a fase de extração, catálogos de STTs em formato PDF são inicialmente utilizados como fontes de dados e o seu conteúdo é extraído. Na fase de transformação, cada STT extraída dos catálogos é classificada automaticamente utilizando LLMs. Finalmente, na fase de carregamento, o conteúdo é carregado automaticamente no observatório através da sua API. Embora os resultados da tarefa de classificação não tenham correspondido totalmente às expectativas, os primeiros resultados confirmam a viabilidade desta abordagem e marcam um passo significativo no sentido de uma classificação eficiente baseada em conteúdos, não só no domínio do turismo inteligente, mas também adaptável a outros domínios. Foram identificadas direcções de trabalho futuras para melhorar estes resultados.
en
This dissertation is about the conception, implementation and validation of a Smart ETL (Extract, Transform, and Load) process for automatic content integration on the European Smart Tourism Tools Observatory. One of its key aspects is the automatic classification of those tools according to a taxonomy of Smart Tourism Tools (STT), based on the usage of Large Language Models (LLMs). A systematic literature review was conducted on the application of LLMs in information retrieval, with a particular focus on content classification. During the quality assessment step of primary studies, we compared the results obtained using manual and LLM-based methods. After configuring the PaaS for the Observatory, the methodology for the Smart ETL process was designed. For the extraction phase, STT catalogs in PDF format are initially used as data sources and their content is extracted. In the transformation phase, each STT extracted from the catalogs is classified automatically using LLMs. Finally, in the loading phase, the content is automatically loaded into the observatory via its API (Application Programming Interface). Although the results in the classification task did not fully meet the expectations, the first results confirm the feasibility of this approach and mark a significant step towards efficient content-based classification, not only in the field of smart tourism, but also adaptable to other fields. Future work directions were identified to improve these results.

Data

03-abr-2025

Palavras-chave

Smart tourism
Turismo inteligente
Large Language Model
Smart ETL
Contents classification
Smart tourism tools
Online observatory
Classificação de conteúdos
Observatório online

Acesso

Acesso livre

Ver no repositório  
Voltar ao topo
Política de Cookies
Este portal utiliza cookies e outras tecnologias na navegação do site ...