Título
Detecting portuguese and english Twitter users’ gender
Autor
Vicente, Marco Paulo Fernandes
Resumo
pt
Os serviços de redes sociais existentes proporcionam meios para as pessoas comunicarem
e exprimirem os seus sentimentos de uma forma fácil. O conteúdo gerado por estes utilizadores
contém indícios dos seus comportamentos e preferências, bem como outros metadados que estão
agora disponíveis para investigação científica. O Twitter em particular, tornou-se uma fonte
importante para estudos das redes socias, sobretudo porque fornece um modo simples para os
utilizadores expressarem os seus sentimentos, ideias e opiniões; disponibiliza o conteúdo gerado
pelos utilizadores e os metadados associados à comunidade; e fornece interfaces web e interfaces
de programação de aplicações (API) para acesso aos dados de fácil utilização. Para muitos
estudos, a informação disponível sobre um utilizador é relevante. No entanto, o atributo de
género não é fornecido ao criar uma conta no Twitter.
O foco principal deste estudo é inferir o género dos utilizadores através da informação
disponível. Propomos uma metodologia para a detecção de género de utilizadores do Twitter,
usando informação não estruturada encontrada no perfil do Twitter, no conteúdo gerado pelo
utilizador, e mais tarde usando a imagem de perfil do utilizador. Em estudos anteriores, um dos
desafios apresentados foi a tarefa de etiquetar manualmente dados, que revelou exigir bastante
trabalho. Neste estudo, propomos um método para a criação de conjuntos de dados etiquetados
de uma forma semi-automática, utilizando um conjunto de atributos com base na informação
não estruturada de perfil. Utilizando os conjuntos de dados etiquetados, associamos conteúdo
textual ao seu género e criamos modelos, com base no conteúdo gerado pelos utilizadores, e
na informação de perfil. Exploramos classificadores supervisionados e não supervisionados e
avaliamos os resultados em ambos os conjuntos de dados de utilizadores Portugueses e Ingleses
do Twitter. Obtivemos uma precisão de 93,2% com utilizadores Ingleses e uma precisão de
96,9% com utilizadores Portugueses. A metodologia proposta é independente do idioma, mas
o foco foi dado a utilizadores Portugueses e Ingleses.
en
Existing social networking services provide means for people to communicate and express
their feelings in a easy way. Such user generated content contains clues of user’s behaviors and
preferences, as well as other metadata information that is now available for scientific research.
Twitter, in particular, has become a relevant source for social networking studies, mainly because:
it provides a simple way for users to express their feelings, ideas, and opinions; makes
the user generated content and associated metadata available to the community; and furthermore
provides easy-to-use web interfaces and application programming interfaces (API) to access
data. For many studies, the available information about a user is relevant. However, the gender
attribute is not provided when creating a Twitter account.
The main focus of this study is to infer the users’ gender from other available information.
We propose a methodology for gender detection of Twitter users, using unstructured information
found on Twitter profile, user generated content, and later using the user’s profile picture.
In previous studies, one of the challenges presented was the labor-intensive task of manually
labelling datasets. In this study, we propose a method for creating extended labelled datasets in
a semi-automatic fashion. With the extended labelled datasets, we associate the users’ textual
content with their gender and created gender models, based on the users’ generated content and
profile information. We explore supervised and unsupervised classifiers and evaluate the results
in both Portuguese and English Twitter user datasets. We obtained an accuracy of 93.2% with
English users and an accuracy of 96.9% with Portuguese users. The proposed methodology of
our research is language independent, but our focus was given to Portuguese and English users.