Publication
Deteção Automatizada de Dados Pessoais com Técnicas NER
datacite.subject.fos | Engenharia e Tecnologia::Outras Engenharias e Tecnologias | pt_PT |
dc.contributor.advisor | Antunes, Carlos Manuel Gonçalves | |
dc.contributor.author | Rêgo, André Cirilo Lages do | |
dc.date.accessioned | 2025-02-10T18:33:04Z | |
dc.date.available | 2025-02-10T18:33:04Z | |
dc.date.issued | 2024-11-27 | |
dc.description.abstract | O reconhecimento de entidades nomeadas (NER) é uma técnica essencial no processamento de linguagem natural (PLN), usada para identificar automaticamente informações importantes, como nomes e moradas, em grandes volumes de texto. A sua relevância cresce à medida que as empresas e organizações lidam com dados textuais não estruturados, tornando a extração automática de informações uma necessidade cada vez mais presente. Este trabalho propõe o desenvolvimento de uma solução NER que permite ao utilizador submeter documentos em diferentes formatos, processando-os para extrair entidades nomeadas, com foco em português europeu. A solução deverá oferecer ao utilizador a possibilidade de escolher a biblioteca de NER e converte os documentos em texto simples, aplicando técnicas de extração e classificando as entidades encontradas. A implementação foi realizada utilizando uma stack tecnológica modular, com Python, FastAPI, spaCy, NLTK e PostgreSQL, permitindo um fluxo eficiente entre o upload, a conversão de documentos e a extração de entidades. O sistema é flexível e escalável, preparado para futuras melhorias. Os testes realizados mostram que a aplicação é capaz de processar documentos de diferentes formatos e extrair entidades com precisão, tornando-se uma ferramenta eficaz para automatizar a extração de dados sensíveis em diversos contextos. | pt_PT |
dc.identifier.tid | 203887174 | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.8/10466 | |
dc.language.iso | por | pt_PT |
dc.subject | Reconhecimento de entidades nomeadas | pt_PT |
dc.subject | Processamento de linguagem natural | pt_PT |
dc.subject | Extração de dados sensíveis | pt_PT |
dc.subject | Português Europeu | pt_PT |
dc.subject | Documentos não estruturados | pt_PT |
dc.subject | Automatização | pt_PT |
dc.subject | Spacy | pt_PT |
dc.subject | NLTK | pt_PT |
dc.subject | Conversão de documentos | pt_PT |
dc.subject | Python | pt_PT |
dc.subject | FastAPI | pt_PT |
dc.subject | PostgreSQL | pt_PT |
dc.title | Deteção Automatizada de Dados Pessoais com Técnicas NER | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |
thesis.degree.name | Mestrado em Cibersegurança e Informática Forense | pt_PT |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- 2024.11.27_2202637_andrerego-relatorio-r_c_f.pdf
- Size:
- 1.9 MB
- Format:
- Adobe Portable Document Format
- Description:
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.32 KB
- Format:
- Item-specific license agreed upon to submission
- Description: