Repository logo
 
Loading...
Thumbnail Image
Publication

Deteção Automatizada de Dados Pessoais com Técnicas NER

Use this identifier to reference this record.

Abstract(s)

O reconhecimento de entidades nomeadas (NER) é uma técnica essencial no processamento de linguagem natural (PLN), usada para identificar automaticamente informações importantes, como nomes e moradas, em grandes volumes de texto. A sua relevância cresce à medida que as empresas e organizações lidam com dados textuais não estruturados, tornando a extração automática de informações uma necessidade cada vez mais presente. Este trabalho propõe o desenvolvimento de uma solução NER que permite ao utilizador submeter documentos em diferentes formatos, processando-os para extrair entidades nomeadas, com foco em português europeu. A solução deverá oferecer ao utilizador a possibilidade de escolher a biblioteca de NER e converte os documentos em texto simples, aplicando técnicas de extração e classificando as entidades encontradas. A implementação foi realizada utilizando uma stack tecnológica modular, com Python, FastAPI, spaCy, NLTK e PostgreSQL, permitindo um fluxo eficiente entre o upload, a conversão de documentos e a extração de entidades. O sistema é flexível e escalável, preparado para futuras melhorias. Os testes realizados mostram que a aplicação é capaz de processar documentos de diferentes formatos e extrair entidades com precisão, tornando-se uma ferramenta eficaz para automatizar a extração de dados sensíveis em diversos contextos.

Description

Keywords

Reconhecimento de entidades nomeadas Processamento de linguagem natural Extração de dados sensíveis Português Europeu Documentos não estruturados Automatização Spacy NLTK Conversão de documentos Python FastAPI PostgreSQL

Citation

Research Projects

Organizational Units

Journal Issue