Logo do repositório
 
A carregar...
Miniatura
Publicação

Deteção Automatizada de Dados Pessoais com Técnicas NER

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
2024.11.27_2202637_andrerego-relatorio-r_c_f.pdf1.9 MBAdobe PDF Ver/Abrir

Resumo(s)

O reconhecimento de entidades nomeadas (NER) é uma técnica essencial no processamento de linguagem natural (PLN), usada para identificar automaticamente informações importantes, como nomes e moradas, em grandes volumes de texto. A sua relevância cresce à medida que as empresas e organizações lidam com dados textuais não estruturados, tornando a extração automática de informações uma necessidade cada vez mais presente. Este trabalho propõe o desenvolvimento de uma solução NER que permite ao utilizador submeter documentos em diferentes formatos, processando-os para extrair entidades nomeadas, com foco em português europeu. A solução deverá oferecer ao utilizador a possibilidade de escolher a biblioteca de NER e converte os documentos em texto simples, aplicando técnicas de extração e classificando as entidades encontradas. A implementação foi realizada utilizando uma stack tecnológica modular, com Python, FastAPI, spaCy, NLTK e PostgreSQL, permitindo um fluxo eficiente entre o upload, a conversão de documentos e a extração de entidades. O sistema é flexível e escalável, preparado para futuras melhorias. Os testes realizados mostram que a aplicação é capaz de processar documentos de diferentes formatos e extrair entidades com precisão, tornando-se uma ferramenta eficaz para automatizar a extração de dados sensíveis em diversos contextos.

Descrição

Palavras-chave

Reconhecimento de entidades nomeadas Processamento de linguagem natural Extração de dados sensíveis Português Europeu Documentos não estruturados Automatização Spacy NLTK Conversão de documentos Python FastAPI PostgreSQL

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo