Título
Automatic hate speech detection in portuguese social media
Autor
Ramos, Gil Antunes Silva Nogueira
Resumo
pt
O rápido crescimento das redes sociais introduziu novas formas de comunicação digital,
mas também contribuiu para um aumento preocupante do discurso de ódio online (DOO).
Este fenómeno incentivou a investigação de métodos de processamento de linguagem natural
para a deteção de discurso de ódio. Apesar dos avanços desta área, existe uma lacuna
notável na investigação focada na variante europeia do português. Assim, investigou-se a
eficácia de vários modelos de transfer learning, que estudos prévios demonstram ter neste
contexto um desempenho superior em relação a abordagens tradicionais de aprendizagem
profunda. Foram utilizados modelos do tipo BERT, como o BERTimbau e o mDeBERTa,
pré-treinados em texto português, juntamente com modelos generativos como o GPT, o
Gemini e o Mistral, para a deteção de DOO em conversações online no espaço português.
Esta investigação recorreu a dois conjuntos de dados, anotados manualmente, compostos
por comentários do YouTube e tweets do Twitter, ambos classificados como DOO
ou não-DOO. Os resultados indicaram que uma variante do BERTimbau, re-treinada especificamente
para deteção de DOO em tweets em português europeu, foi o modelo com
melhor desempenho no conjunto de dados do YouTube. Este modelo obteve um F-score
de 87,1% para a classe positiva, o que representa uma melhoria de 1,8% em relação ao
BERTimbau original. No conjunto de dados do Twitter, o modelo GPT-3.5 foi o que
apresentou melhor desempenho, com um F-score de 50,2% para a classe positiva, embora
com resultados inferiores comparativamente ao conjunto de dados do YouTube. Adicionalmente,
foram avaliados os efeitos do uso de conjuntos de treino in-domain versus
mixed-domain, bem como o impacto da informação contextual nas prompts dos modelos
generativos. Concluiu-se que os dados mixed-domain podem melhorar os resultados,
desde que seja assegurada a sua qualidade, e que a informação contextual tem um impacto
positivo tanto no DOO geral como no DOO indireto.
en
The rapid rise of social media has brought about new ways of digital communication,
along with a worrying increase in online hate speech (HS). This escalation has prompted
researchers to develop various Natural Language Processing techniques for HS detection.
Despite the progress made, there is a notable lack of research focused on the European
Portuguese language, which is typical for many under-resourced languages. To fill this gap,
we investigate the effectiveness of several transfer learning models that prior studies have
indicated to outperform traditional Deep Learning approaches in this context. We utilize
BERT-like models, including BERTimbau and mDeBERTa, pre-trained on Portuguese
text, along with generative models such as GPT, Gemini, and Mistral, to identify HS in
Portuguese online discourse. Our research is based on two annotated datasets comprised
of YouTube comments and Twitter posts, both manually labelled as HS or non-HS. The
results indicate that a retrained variant of BERTimbau, fine-tuned for the HS detection
task using European Portuguese tweets, achieved the highest performance for the YouTube
dataset, with an F-score of 87.1% for the positive class, showing an 1.8% improvement
over the original BERTimbau. For the Twitter dataset, GPT-3.5 emerged as the top
model, achieving an F-score of 50.2% for the positive class, with models having a far
worse performance compared to when applied to the YouTube dataset. Additionally, we
evaluate the effects of utilizing in-domain versus mixed-domain training sets and the role
that contextual information in generative model prompts has on their overall performance,
concluding that mixed-domain data has the potential to improve results, provided its
quality is ensured, and that contextual information has a discernable impact in both
general and covert HS.