Teses e dissertações

Mestrado
Engenharia Informática
Título

Towards cyberbullying detection on social media

Autor
Almeida, Tiago Filipe Pardal de
Resumo
pt
O contínuo aparecimento do cyberbullying nas redes sociais constitui um problema mundial que tem aumentado consideravelmente nos últimos anos, e exige medidas urgentes para a deteção automática de tal fenómeno. O objetivo deste trabalho é criar um modelo suficientemente capaz de detetar automaticamente textos ofensivos. Para tal, foram utilizados três conjuntos de dados públicos, bem como duas abordagens principais para resolver este problema: uma baseada em métodos clássicos de aprendizagem automática e a outra baseada em aprendizagem profunda. Na abordagem clássica de aprendizagem automática foi proposta uma fase específica de pré-processamento e engenharia de características com várias etapas. Para além disso, foram exploradas duas abordagens de representação de documentos para gerar as entradas utilizadas pelos classificadores SVM, Logistic Regression e Random Forest. Uma vez que estes conjuntos de dados são desequilibrados, SMOTEENN e Threshold-Moving foram utilizados para lidar com o problema de classificação desbalanceada. Na abordagem de aprendizagem profunda foram exploradas diferentes arquiteturas, combinando vetores de palavras pré-treinados com CNN, CNN-Attention, BiLSTM e BiLSTM-Attention. A configuração experimental envolveu o tratamento de palavras desconhecidas, Cyclical Learning Rate para proporcionar uma melhor convergência, Macro Soft-F1 Loss para otimizar o desempenho e Macro Soft-F2 Loss para lidar com o problema de classificação desbalanceada. Foi também proposto um modelo RoBERTa-base, pré-treinado em 58 milhões de tweets e afinado para identificação de linguagem ofensiva. Os resultados experimentais mostram que, embora seja uma tarefa difícil, ambas asabordagens propostas são adequadas para detetar textos ofensivos. No entanto, a abordagem de aprendizagem profunda alcança os melhores resultados.
en
The continuous appearance of cyberbullying on social media constitutes a worldwide problem that has seen a considerable increase in recent years, and demands urgent measures to automatically detecting such phenomenon. The goal of this work is to create a model suficiently capable of automatically detecting ofensive texts. For this purpose, three public datasets were used, as well as two main approaches to solve this problem: one based on classical Machine Learning methods and the other based on Deep Learning. In the classical Machine Learning approach was proposed a specific pre-processing and Feature Engineering stage with several steps. In addition, two document representation approaches were also explored to generate the inputs used by SVM, Logistic Regression, and Random Forest classifiers. Since these datasets are imbalanced, SMOTEENN and Threshold-Moving were used to deal with the imbalanced classification problem. In the Deep Learning approach diferent architectures were explored, combining pretrained word vectors with CNN, CNN-Attention, BiLSTM and BiLSTM-Attention. The experimental setup involved treatment of unknown words, Cyclical Learning Rate to provide better convergence, Macro Soft-F1 Loss function to optimize performance and Macro Soft-F2 Loss function to deal with the imbalanced classification problem. RoBERTa-base model was also proposed, pre-trained on 58 million tweets and fine-tuned for ofensivelanguage identification. Experimental results show that, although it is a dificult task, both proposed approaches are suitable for detecting ofensive texts. Nevertheless, the Deep Learning approach achieves the best results.

Data

27-dez-2021

Palavras-chave

Redes sociais
Feature engineering
Deep learning
Aprendizagem profunda
Media sociais -- Social media
Linguagem ofensiva
Representação de palavras
Engenharia de características
Ofensive language
Word representation

Acesso

Acesso livre

Ver no repositório  
Voltar ao topo