ESTG - Mestrado em Cibersegurança e Informática Forense
Permanent URI for this collection
Browse
Browsing ESTG - Mestrado em Cibersegurança e Informática Forense by Author "Almeida, Hugo Pedro Bessa"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Aprendizagem Computacional aplicada à Deteção de Intrusões - Efeito das Técnicas de Balanceamento de DadosPublication . Almeida, Hugo Pedro Bessa; Grilo, Carlos Fernando de AlmeidaA cibersegurança tem vindo a ganhar cada vez mais importância. Atualmente, as redes computacionais profissionais e domésticas estão expostas a um grande número de ataques maliciosos. Todo este crescimento e evolução torna cada vez mais complexa e pertinente a deteção e prevenção destas ameaças. Umas das áreas que tem sido preponderante nesta tarefa é a aprendizagem computacional. No entanto, grande parte dos trabalhos existentes nesta área concentra-se na realização de experiências com novos algoritmos de classificação, sendo o efeito das operações de limpeza, pré-processamento e balanceamento dos dados relegados para segundo plano. Isto é particularmente importante visto que, um dos problemas comuns em conjuntos de dados reais e, em particular, nos conjuntos de dados de tráfego de rede, é a falta de balanceamento dos dados. O objetivo deste trabalho consiste em estudar os efeitos de duas técnicas de balanceamento dos dados opostas no processo da aprendizagem computacional, a saber, o Random UnderSampling e o Random OverSampling. Para tal, foi escolhido o conjunto de dados CSE-CIC-IDS-2018, cujo conteúdo tende a simular o tráfego passível de ser encontrado numa rede computacional empresarial. Para atingir o objetivo proposto foram aplicadas várias técnicas de limpeza e de pré-processamento, foram também criadas várias versões de conjuntos de dados para treino, aplicados métodos de seleção de atributos e algoritmos de classificação. Os resultados dos testes realizados permitem formular as seguintes conclusões: 1) existe um melhoramento dos resultados até um determinado nível de undersampling mas, para além desse limite, a redução da quantidade de dados leva a uma deterioração dos resultados; 2) o efeito do operador de oversampling Random OverSampling é muito pouco significativo; 3) estas conclusões mantêm-se quando se utilizam conjuntos de dados sobre os quais foram realizadas operações de seleção de atributos.