PT
Ataques informáticos levam sempre a ameaças às redes informáticas colocando em risco
a privacidade dos utilizadores, e por vezes até à fraude financeira. Tais ataques são
difíceis de mitigar devido ao seu intrínseco desequilíbrio, onde os ataques apresentam uma
mínima fração de todo o tráfego da rede informática. Nesta dissertação, o objetivo consiste
em melhorar os sistemas de deteção de intrusões utilizando um dataset disponibilizado
publicamente, HIKARI-2021. Este dataset é naturalmente desequilibrado e serve como
ponto de partida para a deteção de ataques.
A metodologia utilizada está dividida em três partes, onde é inicialmente efetuada uma
exploração do dataset para compreender a sua estrutura, são posteriormente gerados sintéticos
para mitigar o desequilíbrio do dataset utilizando uma rede adversaria generativa
orientada para dados tabulares, e por fim, é aplicado um conjunto de vários algoritmos
para deteção de anomalias, incluindo Isolation Forest, Local Outlier Factor, One-Class
SVM, DBSCAN, e Elliptic Envelope. Também são considerados os modelos tradicionais
de aprendizagem de máquina, tais como Random Forest, Gradient Boosting, Logistic Regression,
e Naïve Bayes. Para completar a metodologia de deteção de anomalias foram
também consideradas redes neuronais, tais como, Autoencoders e Deep Neural Networks.
Os resultados finais demonstram que a metodologia aplicada melhora efetivamente a
deteção de anomalias em redes informáticas, onde algoritmos como Gradient Boosting e
Redes Neuronais atingiram resultados acima dos 99% em métricas como F-1 Score e Área
Debaixo da Curva. A rede adversaria generativa para dados tabulares mostrou sucesso a
criar dados sintéticos e preservando as correlações existentes entre as várias colunas.
Esta investigação ajuda a contribuir para a melhoria de deteção de ataques a redes informáticas
demonstrando uma elevada eficácia na mitigação do desequilíbrio dos datasets
e na melhoria na deteção destes mesmos ataques.
EN
Computer attacks always lead to threats to computer networks, putting user privacy
at risk, and sometimes even leading to financial fraud. Such attacks are difficult to
mitigate due to their intrinsic imbalance, where attacks represent a minimal fraction
of all computer network traffic. In this dissertation, the objective consists of improving
intrusion detection systems using a publicly available dataset, HIKARI-2021. This dataset
is naturally imbalanced and serves as a starting point for attack detection.
The methodology used is divided into three parts, where initially an exploration of the
dataset is performed to understand its structure, synthetic data is subsequently generated
to mitigate the dataset imbalance using a generative adversarial network oriented toward
tabular data, and finally, a set of various algorithms for anomaly detection is applied,
including Isolation Forest, Local Outlier Factor, One-Class SVM, DBSCAN, and Elliptic
Envelope. Traditional machine learning models are also considered, such as Random Forest,
Gradient Boosting, Logistic Regression, and Naïve Bayes. To complete the anomaly
detection methodology, neural networks were also considered, such as Autoencoders and
Deep Neural Networks.
The final results demonstrate that the applied methodology effectively improves anomaly
detection in computer networks, where algorithms like Gradient Boosting and Neural
Networks achieved results above 99% in metrics such as F-1 Score and Area Under the
Curve. The generative adversarial network for tabular data showed success in creating
synthetic data while preserving the existing correlations between the various columns.
This research helps contribute to improving computer network attack detection by
demonstrating high effectiveness in mitigating dataset imbalance and improving the detection
of these same attacks.