Negrão, guel Cerdeira MarreirosFrade, Miguel Monteiro de SousaDomingues, Patrício RodriguesSantos, Pedro Vilaça Cruz Cerqueira Dos2025-12-302025-12-302025-12-12http://hdl.handle.net/10400.8/15207O problema da deteção de correio eletrónico não solicitado (Spam) é um que esteve presente desde os primórdios da Internet levando a que, poucos anos após a introdução desta, começasse o desenvolvimento de sistemas e algoritmos para detetar e bloquear esta ameaça informática. Tentativas iniciais consistindo de moderação humana com auxílio de relatórios pelas vítimas e de sistemas simples baseados no bloqueio de certos termos ligados ao spam introduzidos numa blacklist manualmente pelos seus criadores. No entanto, à medida que a deteção de spam evoluía, o spam também evolui nas suas técnicas, desde táticas como a intencional introdução de erros na escrita para confundir os sistemas de deteção rudimentares que não conseguiam detetar corrupções de palavras contidas na sua blacklist, requerendo que os criadores introduzam manualmente todas as possíveis corrupções eles próprios. Uma das mais recentes inovações nesta área foi a de utilizar modelos de Inteligência Artificial, mais especificamente, de Processamento de Linguagem Natural, para tentar criar um modelo capaz de acompanhar indeterminadamente a evolução do spam, criando uma solução permanente a este problema. Neste trabalho, é o objetivo treinar um modelo NLP (NLP) baseado na arquitetura Sentence BERT (Bidirectional Representations from Transformer), que possa servir de exemplo da capacidade e potencial desta no combate ao spam, este modelo será treinado com um dataset de emails com mais de 90 mil emails sendo cerca de metade destes spam e a restante parte emails legítimos. O modelo obtido demonstrou resultados positivos, tendo a versão final alcançado, em combinação com um classificador Support Vector Classifier (SVC), métricas que ultrapassaram os 98.5%, com o modelo sBERT a consumir cerca de 30 micro segundos a vetorizar cada email.The issue of unsolicited electronic mail (spam) detection is one that has been present since the begginings of the Internet leading to, just a few years after its’ introduction, the development of sistems and algorithms to detect and surpress this threat. Initial efforts were primarily consistent of human intervention aided by user reports, with rudimentary automated blocking systems based on a handcrafted word blacklist appearing soon after. However, as spam detection evolved, so too did spam itself evolve to counter these evolutions, with developments such as the intentional miswriting of suspicious word so as to avoid detection by blacklisting, requiring manual insertion of every possible corruption of a word into the blacklist to counter it. One of the most recent development on the side of spam detection has been the application Artificial Intelligence, more specifically, Natural Language Processing Models (NLP) to the task, in an attempt to utilize its self improving powers to create a system capable of trailing spams’ own evolution and thus, a more permanent or, at least, longer lasting solution to the issue. In this work, the goal is to train one such NLP model, based on the Sentence BERT (Bidirectional Encoding Representations from Transformer) architecture, which may serve as an example of the capacity and potential of this avenue in detecting spam, the model in question will be trained with a dataset of various emails numbering just over 90 thousand with roughtly half of it consisting of spam and the remainder legitimate emails. The resulting model displayed positive results, with the final result having, in combination with an Support Vector Classifier (SVC), surpassed 98.5% in all metrics, with the model taking an average of 30 micro seconds per email vectorized.porCibersegurançaInformática forenseCorreio eletrónico não solicitado (SPAM)Processamento de Linguagem NaturalModelo NLPClassificador Vector Classifier (SVC)Sentence BERTMetodologias baseadas em Inteligência Artificial para a deteção de correio eletrónico não solicitadomaster thesis204095980