Título
Navigating the mobile app Galaxy: Harnessing textual metadata for app categorization
Autor
D'Oliveira, Pedro Afonso Marques
Resumo
pt
Este estudo efectua uma análise comparativa dos métodos de representação de texto e de extração de características para categorizar aplicações móveis em categorias predefinidas.
A categorização eficaz melhora a capacidade de descoberta das aplicações, a experiência do utilizador e a organização do ecossistema de aplicações.
Para desenvolvermos uma abordagem automática para categorizar as aplicações, utilizámos Word2Vec, Labeled Latent Dirichlet Allocation (L-LDA), modelos de linguagem pré-treinados e Robustly Optimized Bidirecional Encoder Representations from Transformers Approach (RoBERTa) para gerar representações semânticas numéricas das descrições.
Estas representações foram usadas para classificar as aplicações com categorias definidas na Aptoide, permitindo avaliar a eficácia dos métodos. Como estamos a lidar com classificação multi-rótulo, utilizámos Classifier Chains, Label PowerSet, Binary Relevance e Multi-Label Binarizer. O nosso conjunto de dados de 9.163 aplicações foi obtido via APIs da Aptoide.
Os resultados mostram que o nosso melhor modelo de representação de texto, quando devidamente ajustado, é o RoBERTa, que apresenta as pontuações F1 mais altas nas categorias de médias micro, macro, ponderadas e de amostras. É seguido pelo modelo pré-treinado GPT-4o, que também apresenta um bom desempenho, mas fica ligeiramente atrás em comparação.
As futuras direcções de investigação incluem a integração de dados multimodais, a exploração da aprendizagem federada, a adaptação a taxonomias em evolução, o desenvolvimento de sistemas de IA interactivos e explicáveis, a realização de estudos entre línguas e culturas, a criação de modelos de categorização personalizados, a avaliação de implicações éticas, a integração com ciclos de vida de desenvolvimento de aplicações e a utilização de gamificação para aumentar o envolvimento do utilizador.
en
This study conducts a comparative analysis of text representation and feature extraction methods for categorizing mobile applications into predefined categories. Effective categorization improves application discoverability, user experience, and application ecosystem
organization.
To develop an automatic approach for categorizing mobile applications into predefined categories, we used Word2Vec, Labeled Latent Dirichlet Allocation (L-LDA), pre-trained language models and RoBERTa to generate numerical semantic representations of the application descriptions. These representations were then used to classify the apps into predefined categories. Our classification system assigned each app to the same category or categories as it appears on Aptoide, allowing us to evaluate the effectiveness of the methods. Since we are dealing with multi-label classification, we used Classifier Chains, Label PowerSet, Binary Relevance and Multi-Label Binarizer to handle label dependencies and optimize classification performance. Our dataset of mobile apps, consisting of 9,163 entries, was obtained using APIs from Aptoide.
The results show that our best text representation model, when properly tuned, is RoBERTa, which has the highest F1 scores in the micro, macro, weighted averages and samples categories. It is closely followed by the pre-trained GPT-4o model, which also performs well, but falls slightly short in comparison.
Future research directions include the integration of multimodal data, exploring federated learning, adapting to evolving taxonomies, developing interactive and explainable AI systems, conducting cross-language and cross-cultural studies, creating personalized categorization models, assessing ethical implications, integrating with application development lifecycles and using gamification to enhance user engagement.