Título
Text mining aplicado à gestão de fundos públicos
Autor
Chinita, Luís Henrique Broncas
Resumo
pt
Este trabalho tem como objetivo analisar documentos textuais submetidos por empresas
portuguesas no momento de candidatura a programas de incentivos empresariais públicos. Com
esta análise pretende-se extrair e selecionar variáveis relevantes, presentes nos textos, que
possuam poder preditivo em relação a futuras ações das empresas candidatas aceites, no
decorrer dos projetos. O objetivo concreto é a predição da anulação de projetos com fundos
atribuídos, durante a sua duração prevista. Para realizar esta análise foi necessário criar uma
cadeia de classificação de texto na qual são aplicadas variadas técnicas de processamento da
língua natural, extração e seleção de variáveis, seleção e utilização de classificadores, e métricas
de avaliação dos resultados. Foram utilizadas técnicas de referência de extração de variáveis
como a extração de valores TF e TF-IDF e foram igualmente levadas a cabo experiências de
extração de variáveis baseadas em geração de tópicos, análise de similaridade textual, análise
de diversidade lexical, exploração de vocabulário específico, entre outros tipos de análise do
conteúdo textual. A exploração de variáveis criadas a partir destas experiências mostra-nos
características escondidas nos dados, como por exemplo, o facto de se verificar uma maior
incidência de projetos com elevados níveis de similaridade em certos distritos do país. O
principal objetivo foi alcançar o melhor desempenho possível nas métricas obtidas através da
matriz de confusão (taxa de acerto; precisão; cobertura; F1-Score) na predição da anulação de
projetos. Os melhores resultados da predição de anulação foram obtidos por um conjunto de
variáveis provenientes de diversos métodos de extração e utilizando o algoritmo Classificador
Naïve Bayes: 79% de taxa de acerto; 77% de precisão; 71% de cobertura; 74% de F1-Score.
Neste trabalho é assim demonstrado o proveito da mistura de variáveis provenientes de
diferentes métodos de extração de variáveis.
en
This work aims to analyze the textual documents presented by Portuguese companies when
applying for business incentive programs. This work intends to extract and select relevant
features, present in the texts, which have predictive power in relation to future actions of the
companies whose projects were accepted, during the projects. The concrete goal is the
prediction of the cancellation of the projects with allocated funds, during their expected
duration. It was necessary to create a text classification pipeline which applies natural language
processing, various features extraction and selection techniques, classification algorithms and
evaluation metrics. Many feature extraction techniques were used, such as classical techniques
as TF and TF-IDF values generation, as also other experiments as topic generation, similarity
analysis, lexical analysis, identification of specific vocabulary used, among other analysis of
textual content that were also carried out. The feature analysis can show us hidden
characteristics in the data, such as the fact that there is a preponderance of projects with high
levels of similarity in certain districts of the country. The main objective, regarding the perdition
of cancellation of the projects, was achieving the best possible performance, for that there were
used the confusion matrix metrics (accuracy; precision; revocation; F1-Score). The best
prediction results were obtained by a set of features from different extraction methods together
with the use of the Naïve Bayes Classifier algorithm: 79% accuracy; 77% precision; 71% recall;
74% F1-Score. Therefore, it is shown the advantages of mixing features from different
extraction methods on this text classification application.