Aprendizagem Computacional aplicada à Deteção de Intrusões - Efeito das Técnicas de Balanceamento de Dados

Almeida, Hugo Pedro Bessa

http://hdl.handle.net/10400.8/7136

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Dissertacao_HugoAlmeida_com_correções_formais.pdf		2.94 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Almeida, Hugo Pedro Bessa

Orientador(es)

Grilo, Carlos Fernando de Almeida

Resumo(s)

A cibersegurança tem vindo a ganhar cada vez mais importância. Atualmente, as redes computacionais profissionais e domésticas estão expostas a um grande número de ataques maliciosos. Todo este crescimento e evolução torna cada vez mais complexa e pertinente a deteção e prevenção destas ameaças. Umas das áreas que tem sido preponderante nesta tarefa é a aprendizagem computacional. No entanto, grande parte dos trabalhos existentes nesta área concentra-se na realização de experiências com novos algoritmos de classificação, sendo o efeito das operações de limpeza, pré-processamento e balanceamento dos dados relegados para segundo plano. Isto é particularmente importante visto que, um dos problemas comuns em conjuntos de dados reais e, em particular, nos conjuntos de dados de tráfego de rede, é a falta de balanceamento dos dados. O objetivo deste trabalho consiste em estudar os efeitos de duas técnicas de balanceamento dos dados opostas no processo da aprendizagem computacional, a saber, o Random UnderSampling e o Random OverSampling. Para tal, foi escolhido o conjunto de dados CSE-CIC-IDS-2018, cujo conteúdo tende a simular o tráfego passível de ser encontrado numa rede computacional empresarial. Para atingir o objetivo proposto foram aplicadas várias técnicas de limpeza e de pré-processamento, foram também criadas várias versões de conjuntos de dados para treino, aplicados métodos de seleção de atributos e algoritmos de classificação. Os resultados dos testes realizados permitem formular as seguintes conclusões: 1) existe um melhoramento dos resultados até um determinado nível de undersampling mas, para além desse limite, a redução da quantidade de dados leva a uma deterioração dos resultados; 2) o efeito do operador de oversampling Random OverSampling é muito pouco significativo; 3) estas conclusões mantêm-se quando se utilizam conjuntos de dados sobre os quais foram realizadas operações de seleção de atributos.

Palavras-chave

Cibersegurança Intrusion Detection Systems Aprendizagem computacional Balanceamento de dados Pré-processamento Seleção de atributos

URI

http://hdl.handle.net/10400.8/7136

Coleções

ESTG - Mestrado em Cibersegurança e Informática Forense

Ver registo completo