Santos, Rui Filipe Vargas de SousaAntunes, Mário João GonçalvesMartinho, Patrícia Isabel Santos2025-12-232025-12-232025-11-14http://hdl.handle.net/10400.8/15185Este projeto centrou-se na deteção de anomalias através da aplicação da lei de Benford, explorando a sua capacidade para identificar desvios estatísticos de forma eficiente e precisa. A abordagem adotada baseou-se nesta lei, amplamente reconhecida pela sua utilidade na deteção de fraudes, especialmente em dados financeiros, ao analisar a distribuição dos primeiros dígitos. A escassez de dados públicos de qualidade dificultava a avaliação rigorosa de modelos estatísticos. Para superar esta limitação, desenvolveu-se um gerador de dados sintéticos parametrizável, capaz de reproduzir padrões correspondentes tanto a eventos normais como a manipulações realistas. A aplicação desenvolvida permitiu simular condições diversas e aproximar os testes a situações do mundo real, facilitando a análise do desempenho e do comportamento dos métodos estatísticos. Com os dados simulados obtidos, tornou-se possível avaliar a eficácia de diferentes métodos estatísticos em condições mais próximas da realidade. Neste contexto, a lei de Benford assumiu um papel central, destacando-se pela sua utilidade na deteção de anomalias em múltiplos cenários. Para explorar de forma sistemática esta capacidade, desenvolveu-se um modelo estatístico como alternativa aos modelos tradicionais de machine learning, que apresentam elevadas taxas de falsos positivos e grandes exigências computacionais. A proposta assentou na aplicação da lei de Benford combinada com medidas de dissemelhança, permitindo quantificar o desvio entre as distribuições observadas e a distribuição esperada segundo esta lei. Realizaram-se simulações com o gerador desenvolvido para criar conjuntos de dados conformes e não conformes com a lei de Benford, obtendo-se assim dados classificados. Para medir o desvio, utilizaram-se o qui-quadrado, o desvio médio absoluto, o teste de Kolmogorov–Smirnov, a distância euclidiana, a distância de Hellinger, a divergência de Kullback-Leibler e a combinação dos valores-𝑝 dos testes através do método de Fisher. O desempenho das diferentes medidas de dissemelhança foi avaliado com recurso a métricas de classificação como a precisão, recall e F1-score, os mesmos critérios utlizados em machine learning, permitindo comparar o desempenho do modelo em estudo com modelos de machine learning. A análise foi complementada pela matriz de confusão e pela curva ROC, ferramentas que permitem uma avaliação mais detalhada do comportamento do modelo, possibilitando a comparação do seu desempenho com o de modelos de machine learning.The scarcity of quality public data makes it difficult to rigorously evaluate statistical models. To overcome this limitation, this work develops a parametrizable synthetic data generator capable of reproducing realistic patterns, noises and manipulations. This tool allows you to simulate diverse conditions and approximate the tests to real world situations, facilitating the analysis of performance and behavior of statistical methods. With the simulated data obtained, it is possible to evaluate the effectiveness of different statistical methods in conditions closer to reality. In this context, Benford’s Law assumes a central role, standing out for its usefulness in the detection of anomalies in multiple scenarios. To systematically explore this capacity, a statistical model was developed as an alternative to the traditional models of machine learning which have high false positive rates and large computational requirements. The proposal is based on the application of Benford’s Law combined with dissimilarity measures, allowing to quantify the deviation between the observed distributions and the expected distribution according to Benford’s law. Simulations were performed where, using the developed generator, compliant and non-compliant datasets were generated, allowing to obtain classified data. To measure the deviation, we used the chi-square, the mean absolute deviation, the Kolmogorov- Smirnov test, the Euclidean distance, the Hellinger distance, the Kullback-Leibler divergence and the combination of the 𝑝-values of the tests made through the Fisher method. The performance of the different measures of divergence is evaluated using classification metrics such as precision, recall and F1-score, the same criteria used in machine learning, which allows to compare the performance of the model under study with machine learning models. The analysis was complemented by the confusion matrix and ROC curve, tools that allow a more detailed evaluation of the behavior of the model, allowing the comparison of its performance with that of machine learning models.engLei de BenfordDeteção de irregularidadesModelos estatísticosMedidas de dissemelhançaAvaliação de desempenhoDistribuição do 1º dígitoDados sintéticosAnomaly Detection in Numerical Data based on Benford´s LawApplication of Divergence Metrics and Evaluation of Classification Performancemaster thesis204092957