Iscte

Mestrado

Ciência de Dados

Título

Automatic hate speech detection in portuguese social media

Autor

Ramos, Gil Antunes Silva Nogueira

Resumo

O rápido crescimento das redes sociais introduziu novas formas de comunicação digital, mas também contribuiu para um aumento preocupante do discurso de ódio online (DOO). Este fenómeno incentivou a investigação de métodos de processamento de linguagem natural para a deteção de discurso de ódio. Apesar dos avanços desta área, existe uma lacuna notável na investigação focada na variante europeia do português. Assim, investigou-se a eficácia de vários modelos de transfer learning, que estudos prévios demonstram ter neste contexto um desempenho superior em relação a abordagens tradicionais de aprendizagem profunda. Foram utilizados modelos do tipo BERT, como o BERTimbau e o mDeBERTa, pré-treinados em texto português, juntamente com modelos generativos como o GPT, o Gemini e o Mistral, para a deteção de DOO em conversações online no espaço português. Esta investigação recorreu a dois conjuntos de dados, anotados manualmente, compostos por comentários do YouTube e tweets do Twitter, ambos classificados como DOO ou não-DOO. Os resultados indicaram que uma variante do BERTimbau, re-treinada especificamente para deteção de DOO em tweets em português europeu, foi o modelo com melhor desempenho no conjunto de dados do YouTube. Este modelo obteve um F-score de 87,1% para a classe positiva, o que representa uma melhoria de 1,8% em relação ao BERTimbau original. No conjunto de dados do Twitter, o modelo GPT-3.5 foi o que apresentou melhor desempenho, com um F-score de 50,2% para a classe positiva, embora com resultados inferiores comparativamente ao conjunto de dados do YouTube. Adicionalmente, foram avaliados os efeitos do uso de conjuntos de treino in-domain versus mixed-domain, bem como o impacto da informação contextual nas prompts dos modelos generativos. Concluiu-se que os dados mixed-domain podem melhorar os resultados, desde que seja assegurada a sua qualidade, e que a informação contextual tem um impacto positivo tanto no DOO geral como no DOO indireto.

The rapid rise of social media has brought about new ways of digital communication, along with a worrying increase in online hate speech (HS). This escalation has prompted researchers to develop various Natural Language Processing techniques for HS detection. Despite the progress made, there is a notable lack of research focused on the European Portuguese language, which is typical for many under-resourced languages. To fill this gap, we investigate the effectiveness of several transfer learning models that prior studies have indicated to outperform traditional Deep Learning approaches in this context. We utilize BERT-like models, including BERTimbau and mDeBERTa, pre-trained on Portuguese text, along with generative models such as GPT, Gemini, and Mistral, to identify HS in Portuguese online discourse. Our research is based on two annotated datasets comprised of YouTube comments and Twitter posts, both manually labelled as HS or non-HS. The results indicate that a retrained variant of BERTimbau, fine-tuned for the HS detection task using European Portuguese tweets, achieved the highest performance for the YouTube dataset, with an F-score of 87.1% for the positive class, showing an 1.8% improvement over the original BERTimbau. For the Twitter dataset, GPT-3.5 emerged as the top model, achieving an F-score of 50.2% for the positive class, with models having a far worse performance compared to when applied to the YouTube dataset. Additionally, we evaluate the effects of utilizing in-domain versus mixed-domain training sets and the role that contextual information in generative model prompts has on their overall performance, concluding that mixed-domain data has the potential to improve results, provided its quality is ensured, and that contextual information has a discernable impact in both general and covert HS.