Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.94 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
A cibersegurança tem vindo a ganhar cada vez mais importância. Atualmente, as redes computacionais profissionais e domésticas estão expostas a um grande número de ataques maliciosos. Todo este crescimento e evolução torna cada vez mais complexa e pertinente a deteção e prevenção destas ameaças. Umas das áreas que tem sido preponderante nesta tarefa é a aprendizagem computacional. No entanto, grande parte dos trabalhos existentes nesta área concentra-se na realização de experiências com novos algoritmos de classificação, sendo o efeito das operações de limpeza, pré-processamento e balanceamento dos dados relegados para segundo plano. Isto é particularmente importante visto que, um dos problemas comuns em conjuntos de dados reais e, em particular, nos conjuntos de dados de tráfego de rede, é a falta de balanceamento dos dados.
O objetivo deste trabalho consiste em estudar os efeitos de duas técnicas de balanceamento dos dados opostas no processo da aprendizagem computacional, a saber, o Random UnderSampling e o Random OverSampling. Para tal, foi escolhido o conjunto de dados CSE-CIC-IDS-2018, cujo conteúdo tende a simular o tráfego passível de ser encontrado numa rede computacional empresarial.
Para atingir o objetivo proposto foram aplicadas várias técnicas de limpeza e de pré-processamento, foram também criadas várias versões de conjuntos de dados para treino, aplicados métodos de seleção de atributos e algoritmos de classificação.
Os resultados dos testes realizados permitem formular as seguintes conclusões: 1) existe um melhoramento dos resultados até um determinado nível de undersampling mas, para além desse limite, a redução da quantidade de dados leva a uma deterioração dos resultados; 2) o efeito do operador de oversampling Random OverSampling é muito pouco significativo; 3) estas conclusões mantêm-se quando se utilizam conjuntos de dados sobre os quais foram realizadas operações de seleção de atributos.
Description
Keywords
Cibersegurança Intrusion Detection Systems Aprendizagem computacional Balanceamento de dados Pré-processamento Seleção de atributos