Name: | Description: | Size: | Format: | |
---|---|---|---|---|
1.9 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
O reconhecimento de entidades nomeadas (NER) é uma técnica essencial no processamento de linguagem natural (PLN), usada para identificar automaticamente informações importantes, como nomes e moradas, em grandes volumes de texto. A sua relevância cresce à medida que as empresas e organizações lidam com dados textuais não estruturados, tornando a extração automática de informações uma necessidade cada vez mais presente.
Este trabalho propõe o desenvolvimento de uma solução NER que permite ao utilizador submeter documentos em diferentes formatos, processando-os para extrair entidades nomeadas, com foco em português europeu. A solução deverá oferecer ao utilizador a possibilidade de escolher a biblioteca de NER e converte os documentos em texto simples, aplicando técnicas de extração e classificando as entidades encontradas.
A implementação foi realizada utilizando uma stack tecnológica modular, com Python, FastAPI, spaCy, NLTK e PostgreSQL, permitindo um fluxo eficiente entre o upload, a conversão de documentos e a extração de entidades. O sistema é flexível e escalável, preparado para futuras melhorias.
Os testes realizados mostram que a aplicação é capaz de processar documentos de diferentes formatos e extrair entidades com precisão, tornando-se uma ferramenta eficaz para automatizar a extração de dados sensíveis em diversos contextos.
Description
Keywords
Reconhecimento de entidades nomeadas Processamento de linguagem natural Extração de dados sensíveis Português Europeu Documentos não estruturados Automatização Spacy NLTK Conversão de documentos Python FastAPI PostgreSQL