Repository logo
 
Loading...
Thumbnail Image
Publication

Anomaly Detection in Numerical Data based on Benford“s Law

Use this identifier to reference this record.
Name:Description:Size:Format: 
MCD_PatriciaMartinho_27nov2025_c_f.pdf6.54 MBAdobe PDF Download

Abstract(s)

Este projeto centrou-se na deteção de anomalias atravĆ©s da aplicação da lei de Benford, explorando a sua capacidade para identificar desvios estatĆ­sticos de forma eficiente e precisa. A abordagem adotada baseou-se nesta lei, amplamente reconhecida pela sua utilidade na deteção de fraudes, especialmente em dados financeiros, ao analisar a distribuição dos primeiros dĆ­gitos. A escassez de dados pĆŗblicos de qualidade dificultava a avaliação rigorosa de modelos estatĆ­sticos. Para superar esta limitação, desenvolveu-se um gerador de dados sintĆ©ticos parametrizĆ”vel, capaz de reproduzir padrƵes correspondentes tanto a eventos normais como a manipulaƧƵes realistas. A aplicação desenvolvida permitiu simular condiƧƵes diversas e aproximar os testes a situaƧƵes do mundo real, facilitando a anĆ”lise do desempenho e do comportamento dos mĆ©todos estatĆ­sticos. Com os dados simulados obtidos, tornou-se possĆ­vel avaliar a eficĆ”cia de diferentes mĆ©todos estatĆ­sticos em condiƧƵes mais próximas da realidade. Neste contexto, a lei de Benford assumiu um papel central, destacando-se pela sua utilidade na deteção de anomalias em mĆŗltiplos cenĆ”rios. Para explorar de forma sistemĆ”tica esta capacidade, desenvolveu-se um modelo estatĆ­stico como alternativa aos modelos tradicionais de machine learning, que apresentam elevadas taxas de falsos positivos e grandes exigĆŖncias computacionais. A proposta assentou na aplicação da lei de Benford combinada com medidas de dissemelhanƧa, permitindo quantificar o desvio entre as distribuiƧƵes observadas e a distribuição esperada segundo esta lei. Realizaram-se simulaƧƵes com o gerador desenvolvido para criar conjuntos de dados conformes e nĆ£o conformes com a lei de Benford, obtendo-se assim dados classificados. Para medir o desvio, utilizaram-se o qui-quadrado, o desvio mĆ©dio absoluto, o teste de Kolmogorov–Smirnov, a distĆ¢ncia euclidiana, a distĆ¢ncia de Hellinger, a divergĆŖncia de Kullback-Leibler e a combinação dos valores-š‘ dos testes atravĆ©s do mĆ©todo de Fisher. O desempenho das diferentes medidas de dissemelhanƧa foi avaliado com recurso a mĆ©tricas de classificação como a precisĆ£o, recall e F1-score, os mesmos critĆ©rios utlizados em machine learning, permitindo comparar o desempenho do modelo em estudo com modelos de machine learning. A anĆ”lise foi complementada pela matriz de confusĆ£o e pela curva ROC, ferramentas que permitem uma avaliação mais detalhada do comportamento do modelo, possibilitando a comparação do seu desempenho com o de modelos de machine learning.
The scarcity of quality public data makes it difficult to rigorously evaluate statistical models. To overcome this limitation, this work develops a parametrizable synthetic data generator capable of reproducing realistic patterns, noises and manipulations. This tool allows you to simulate diverse conditions and approximate the tests to real world situations, facilitating the analysis of performance and behavior of statistical methods. With the simulated data obtained, it is possible to evaluate the effectiveness of different statistical methods in conditions closer to reality. In this context, Benford’s Law assumes a central role, standing out for its usefulness in the detection of anomalies in multiple scenarios. To systematically explore this capacity, a statistical model was developed as an alternative to the traditional models of machine learning which have high false positive rates and large computational requirements. The proposal is based on the application of Benford’s Law combined with dissimilarity measures, allowing to quantify the deviation between the observed distributions and the expected distribution according to Benford’s law. Simulations were performed where, using the developed generator, compliant and non-compliant datasets were generated, allowing to obtain classified data. To measure the deviation, we used the chi-square, the mean absolute deviation, the Kolmogorov- Smirnov test, the Euclidean distance, the Hellinger distance, the Kullback-Leibler divergence and the combination of the š‘-values of the tests made through the Fisher method. The performance of the different measures of divergence is evaluated using classification metrics such as precision, recall and F1-score, the same criteria used in machine learning, which allows to compare the performance of the model under study with machine learning models. The analysis was complemented by the confusion matrix and ROC curve, tools that allow a more detailed evaluation of the behavior of the model, allowing the comparison of its performance with that of machine learning models.

Description

Keywords

Lei de Benford Deteção de irregularidades Modelos estatísticos Medidas de dissemelhança Avaliação de desempenho Distribuição do 1º dígito Dados sintéticos

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue