Repository logo
 
Publication

Deteção Automatizada de Dados Pessoais com Técnicas NER

datacite.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologiaspt_PT
dc.contributor.advisorAntunes, Carlos Manuel Gonçalves
dc.contributor.authorRêgo, André Cirilo Lages do
dc.date.accessioned2025-02-10T18:33:04Z
dc.date.available2025-02-10T18:33:04Z
dc.date.issued2024-11-27
dc.description.abstractO reconhecimento de entidades nomeadas (NER) é uma técnica essencial no processamento de linguagem natural (PLN), usada para identificar automaticamente informações importantes, como nomes e moradas, em grandes volumes de texto. A sua relevância cresce à medida que as empresas e organizações lidam com dados textuais não estruturados, tornando a extração automática de informações uma necessidade cada vez mais presente. Este trabalho propõe o desenvolvimento de uma solução NER que permite ao utilizador submeter documentos em diferentes formatos, processando-os para extrair entidades nomeadas, com foco em português europeu. A solução deverá oferecer ao utilizador a possibilidade de escolher a biblioteca de NER e converte os documentos em texto simples, aplicando técnicas de extração e classificando as entidades encontradas. A implementação foi realizada utilizando uma stack tecnológica modular, com Python, FastAPI, spaCy, NLTK e PostgreSQL, permitindo um fluxo eficiente entre o upload, a conversão de documentos e a extração de entidades. O sistema é flexível e escalável, preparado para futuras melhorias. Os testes realizados mostram que a aplicação é capaz de processar documentos de diferentes formatos e extrair entidades com precisão, tornando-se uma ferramenta eficaz para automatizar a extração de dados sensíveis em diversos contextos.pt_PT
dc.identifier.tid203887174pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.8/10466
dc.language.isoporpt_PT
dc.subjectReconhecimento de entidades nomeadaspt_PT
dc.subjectProcessamento de linguagem naturalpt_PT
dc.subjectExtração de dados sensíveispt_PT
dc.subjectPortuguês Europeupt_PT
dc.subjectDocumentos não estruturadospt_PT
dc.subjectAutomatizaçãopt_PT
dc.subjectSpacypt_PT
dc.subjectNLTKpt_PT
dc.subjectConversão de documentospt_PT
dc.subjectPythonpt_PT
dc.subjectFastAPIpt_PT
dc.subjectPostgreSQLpt_PT
dc.titleDeteção Automatizada de Dados Pessoais com Técnicas NERpt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameMestrado em Cibersegurança e Informática Forensept_PT

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2024.11.27_2202637_andrerego-relatorio-r_c_f.pdf
Size:
1.9 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.32 KB
Format:
Item-specific license agreed upon to submission
Description: