ESTG - Mestrado em Ciência de Dados
Permanent URI for this collection
Browse
Browsing ESTG - Mestrado em Ciência de Dados by Issue Date
Now showing 1 - 10 of 23
Results Per Page
Sort Options
- Social Media – Grupo LusiavesPublication . Bento, Válter Luís Crespo; Craveiro, Olga Marina FreitasA análise de dados e a Inteligência de Negócio (Business Intelligence) têm vindo a ganhar cada vez mais importância nas organizações, com a tomada de decisões estratégicas. Atualmente, observa-se uma tendência crescente de descentralização do acesso e análise de dados em toda a organização, o que leva a que as empresas reconheçam o Business Intelligence como uma componente estratégica. Neste sentido, este projeto tem como objetivo o desenvolvimento de um sistema de analytics para auxílio à gestão e análise de informação de múltiplas fontes de dados no meio empresarial. De tal modo, para o desenvolvimento deste projeto, foi utilizado como caso de estudo a informação retirada das redes sociais do Grupo Lusiaves, utilizando a plataforma Domo. O projeto segue uma abordagem metodológica baseada no CRISP-DM, comumente utilizada na construção de sistemas de análise de dados. Todo o processo que foi seguido com base na metodologia CRISP-DM foi desenvolvida através da plataforma Domo, desde o processo de recolha e preparação dos dados até ao desenvolvimento de dashboards. Através da análise descritiva e prescritiva dos dados, foi possível comprovar o enorme potencial do Domo como ferramenta de suporte ao Business Intelligence, tanto do ponto de vista económico como no que diz respeito à análise de dados.
- Aplicação de Técnicas de Ciência de Dados na Previsão de Consumos EnergéticosPublication . Sá, José Eduardo Figueiredo Costa Simões de; Grilo, Carlos Fernando de Almeida; Sebastião, Fernando José do Nascimento; Miragaia, Rolando Lúcio GermanoA adoção das melhores práticas que visem a utilização eficiente de recursos promove o desenvolvimento sustentável o que, por sua vez, se traduz em benefícios sociais e económicos. O presente projeto foca-se nos consumos energéticos de um edifício de serviços, nomeadamente o Núcleo de formação do CENFIM da Marinha Grande, com o objetivo de utilizar ferramentas de ciência de dados para realizar previsões diárias de consumos energéticos. O edifício em estudo promove cursos nas áreas da metalurgia e da metalomecânica, estando equipado com máquinas adequadas para o efeito. Tendo em conta que os consumos energéticos medidos ao longo do tempo podem ser estudados através de séries temporais, este projeto reporta as metodologias e os modelos utilizados usualmente para a sua análise, dividindo-os em dois grupos, os modelos de base estatística, onde se destacam os modelos SARIMA e SARIMAX, e os modelos de aprendizagem computacional, com maior ênfase em redes neuronais do tipo MLP, RNN, LSTM e GRU. O problema foi abordado de várias formas, nomeadamente na definição da quantidade e forma de dias anteriores para realizar a previsão do consumo do dia seguinte, assim como na utilização de variáveis exógenas para melhorar o resultado da previsão, como é o caso da ocupação do edifício. Foi possível obter uma previsão com um MAPE de cerca de 12,5% utilizando o modelo SARIMAX com a ocupação total do edifício por dia como variável exógena. Com as redes neuronais foi apenas utilizada a variável referente ao consumo energético, contudo, várias arquiteturas, tipologias e hiperparâmetros foram testados para cada rede. A rede que apresenta melhor resultado para o problema em questão é a GRU com um MAPE de cerca de 14,5%, embora a MLP apresente um resultado bastante semelhante.
- Comparação do desempenho de metodologias de classificação sexual baseada em critérios métricos craniomandibulares em ortopantomografias para Identificação ForensePublication . Alves, João Ricardo Gregório; Santos, Rui Filipe Vargas de Sousa; Pereira, Cristiana PalmelaAs estruturas ósseas craniomandibulares, por serem mais resistentes aos processos de tafonomia, são relevantes na diagnose sexual de esqueletos adultos. Este passo é primordial na vertente reconstrutiva de um cadáver não identificado. Assim, com base numa amostra obtida por estudantes da Faculdade de Medicina Dentária da Universidade de Lisboa e através de um conjunto de medições efetuadas em ortopantomografias (radiografias panorâmicas), neste trabalho é avaliado o desempenho de diferentes metodologias de classificação do sexo. Algumas das metodologias avaliadas são baseadas nas medições realizadas, como a regressão logística, a analise discriminante, os k-vizinhos mais próximos, entre outras. É igualmente avaliada a aplicação de redes neuronais pré-treinadas, como a VGG16, a RESNET-50 e a INCEPTION V-3, que concretizam a classificação diretamente das ortopantomografias. A amostra utilizada foi aleatoriamente dividida em 80 por cento para a estimação dos parâmetros de cada metodologia (treino) e as restantes 20 por cento para avaliação do desempenho (teste). A comparação do desempenho foi baseada na matriz de confusão e medidas associadas (acurácia, sensibilidade, especificidade, valores preditivos e F-score) e na área sob a curva ROC.
- Vineyard Terrace Segmentation in the Douro Region Based on Satellite ImageryPublication . Lopes, Pedro António Sousa Pedrosa; Martins, José Maria Gouveia; Oliveira, Ana Sofia Cartaxo PintoThe Alto Douro Wine region holds the distinction of being a UNESCO World Heritage Site, known for its traditional vineyard terraces that contribute to its cultural significance. These terraces, engineered to support vine cultivation on the challenging slopes of the Douro valley, were affected by the Phylloxera pest outbreak in the 19th century, resulting in terrace reconstructions for disease control. Preserving this cultural landscape requires periodic evaluations of the terraces, but current manual field assessments are time-consuming, costly, and prone to errors, leading to infrequent updates. To address these challenges, this dissertation studies alternative approaches using multispectral and SAR satellite imagery, and machine learning to detect and identify vineyards within the terraces, aiming to reduce costs and increase assessment frequency. The study begins with a review of remote sensing and satellite imaging technologies, followed by a literature review on similar applications and techniques. Data acquisition details are provided, and three segmentation methodologies are explored: band indices, traditional machine learning (support vector machines and random forests) and deep learning (convolutional neural networks). The deep learning approach, particularly the modified DeepLabV3 model with the ResNet-101 backbone yields the most promising results, despite generalization limitations. Combining the segmented vineyard mask with a slope mask derived from SAR altimetry data increases confidence in identifying vineyards within terraces, offering rough estimations on possible locations of vineyard terraces in the Douro region. In conclusion, this study presents an alternative and cost-effective approach to preserve the heritage landscape of the Alto Douro Wine region. By leveraging satellite imagery and machine learning, it offers a practical and preliminary means for periodic evaluations, supporting the sustainable conservation of this culturally significant region.
- Levantamento, tratamento e seleção de dados para apoio à tomada de decisão - Schmidt Light Metal – Fundição Injetada, LdaPublication . Ferreira, Carlos Pereira; Bernardino, Anabela Moreira; Bernardino, Eugénia MoreiraO presente relatório descreve o trabalho desenvolvido no âmbito da unidade curricular de Estágio do Mestrado em Ciência de Dados, da Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria. O principal objetivo deste relatório é descrever todo o trabalho desenvolvido ao longo do estágio curricular de 1080h (mil e oitenta horas). Este estágio foi realizado na empresa Schmidt Light Metal – Fundição Injetada, Lda., uma empresa multinacional, situada no parque industrial de Oliveira de Azeméis. Esta empresa dedica-se à fundição, produzindo peças em alumínio leve para o setor automóvel. Neste relatório farei uma descrição empresa, bem como das tecnologias e ferramentas utilizadas, a metodologia seguida, o trabalho desenvolvido e as respetivas conclusões. Este estágio tinha como objetivo inicial o desenvolvimento de ferramentas de apoio à tomada de decisão (na produção), através da recolha, tratamento e seleção dos dados recolhidos pelos vários equipamentos e departamentos da empresa, desde os dados sensoriais de uma célula de injeção ao headcount feito pelo departamento de Pessoas & Cultura. Durante este estágio foi desenvolvido e treinado um modelo de Machine Learning para facilitar a tomada de decisão no que respeita ao planeamento de produção, tendo, também, sido realizado bastante trabalho voltado para a “Análise de Dados”, através do lançamento de inquéritos internos, recolha de dados, tratamento e apresentação gráfica dos resultados obtidos a partir destes, sendo que este último trabalho foi realizado em cooperação com o departamento de Pessoas & Cultura. O desenvolvimento do modelo de Machine Learning para apoio à tomada de decisão no processo de produção foi extremamente desafiante, uma vez que não existiam bases de informática ou código pré-mestrado e dada a complexidade do processo em si. A correção de falhas existentes que foram aparecendo e o constante “limar de arestas” também garantiu a satisfação de todos os stakeholders. Posto isto e como resultado deste estágio, foram adquiridas novas experiências, colocadas em prática novas técnicas e desenvolvidas inúmeras competências ao nível profissional, através dos vários projetos elaborados em ambiente empresarial.
- Análise de risco de mercado e otimização de portfólio com o RStudio e ShinyPublication . Gois, Miguel Passagem; Martins, José Maria GouveiaEste projeto tem como tema a análise de risco de mercado e por consequente a otimização de portfólio, utilizando a linguagem de programação R no ambiente RStudio, e explora o mercado financeiro com o objetivo de fornecer insights de forma a facilitar decisões informadas para o investidor. A base essencial do projeto é a análise e estudo dos retornos de ações de quatro empresas que compõem o índice de mercado S&P 500, sendo elas a Apple Inc., Tesla Inc., Microsoft Corporation e Johnson & Johnson. A análise é realizada sobre o desempenho destas empresas separadamente e em conjunto de forma a entender melhor a dinâmica de mercado e o método de otimização do portfólio. É através de várias métricas como a volatilidade, indicadores Beta, Índice de Sharpe, ou Value at Risk (VaR) que é possibilitado compreender o risco de mercado inerente aos ativos e ao portfólio. O projeto utiliza modelos de séries temporais para prever tendências futuras em alguns destes indicadores, facultando uma visão futura do risco associado. O projeto passa também por utilização de algumas técnicas de otimização de portfólio de forma a ser possível construir diferentes portfólios para três tipos de otimização, o portfólio que minimiza o risco, o portfólio que maximiza o retorno e o portfólio ótimo, permitindo assim, dependendo dos interesses do investidor, escolher aquele que mais se adequa ao seu perfil de risco. Por último, o projeto culmina no desenvolvimento de uma plataforma iterativa pelo pacote Shiny do RStudio, que serve como ferramenta para que o utilizador possa facilmente obter os insights necessários para a gestão do risco de mercado e para a otimização de um portfólio, permitindo aos utilizadores tomar decisões bem informadas.
- IMPLEMENTAÇÃO DE FERRAMENTA DE AVALIAÇÃO DE SATISFAÇÃO DE MUNÍCIPES ATRAVÉS DAS REDES SOCIAISPublication . Barreiro, Luis Miguel da Silva; Salvador, Nuno Filipe Pereira; Piedade, Maria Beatriz Guerra daEste relatório descreve o processo de desenvolvimento de uma ferramenta para análise de sentimentos em publicações de páginas públicas do Facebook. Para isso, utiliza a Application programming interface (API) fornecida pelo Facebook para recolha e carregamento de dados. Após o pré processamento de dados, onde é efetuada a limpeza dos mesmos, utiliza um modelo de aprendizagem supervisionado, desenvolvido e avaliado de acordo com os objetivos do projeto. Este modelo é depois integrado na ferramenta desenvolvida. Esta ferramenta funciona como uma aplicação web, onde é possível a qualquer utilizador, com uma conta no Facebook e privilégios de administração de alguma página, visualizar graficamente e por ordem cronológica o volume de interações que a sua página tem. Para cada publicação, são ainda disponibilizados detalhes como número de partilhas, interações (emojis), comentários, e para cada comentário, a sua classificação, positiva ou negativa. Espera-se que com esta ferramenta, os responsáveis pela gestão de páginas do Facebook possam criar melhores conteúdos que permitam às organizações crescer de forma saudável e sustentável. Especificamente no caso do Município de Pombal, espera-se que a sua utilização permita à câmara estar mais perto dos seus munícipes e compreender as diferentes opiniões e sentimentos em relação à administração do município, assim como apoiar a tomada de decisões.
- APRENDIZAGEM AUTOMÁTICA COMO SUPORTE ÀS CIÊNCIAS DA TERRAPublication . Ribeiro, Tiago Filipe Rodrigues; Silva, Fernando José Mateus da; Costa, Rogério Luís de CarvalhoOs incêndios florestais acarretam consequências de largo alcance, representando uma ameaça significativa para a vida humana, economia e o meio ambiente. A compreensão da dinâmica desses fogos florestais e dos seus impactos ambientais torna-se crucial, especialmente em regiões de elevada incidência. Recentemente, modelos baseados em aprendizagem automática emergiram como promissoras ferramentas para facilitar o entendimento da complexa dinâmica dos incêndios florestais e de outros fenómenos naturais. Estas técnicas abrangem modelos visão computacional capazes de representar a geometria de objetos de interesse, e modelos capazes de simular a evolução de fenómenos espaçotemporais. No entanto, tipicamente carece-se de conjuntos de dados anotados de dimensões e qualidade significativas. No entanto, conjuntos de dados que capturam a evolução em tempo real de área ardida são escassos. Esta dissertação propõe três contribuições principais: (i) um novo conjunto de dados de incêndios florestais para a segmentação semântica de áreas ardida; (ii) ferramentas para validação e teste de modelos de segmentação semântica automática de área ardida no contexto de incêndios florestais, (iii) um modelo Autocodificador para interpolação espaçotemporal capaz de representar fenómenos do mundo real, como a evolução de áreas ardida em incêndios florestais. Descrevemos detalhadamente o processo de amostragem, anotação manual e validação de um novo conjunto de dados, proveniente de vídeos de fogo controlado capturados por drone no Norte de Portugal, o qual disponibilizamos num repositório de acesso livre. Adicionalmente, propomos métricas específicas para teste e validação de polígonos gerados por modelos automáticos de segmentação. Com base no conjunto de dados BurnedAreaUAV, avaliamos modelos de segmentação automática utilizando a arquitetura totalmente convolucional U-Net, considerando métricas de similaridade geométrica e consistência temporal dos polígonos gerados. Para a interpolação espaçotemporal dos polígonos de área ardida, propomos aplicar um modelo Autocodificador Variacional Condicional (C-VAE) e investigamos as suas capacidades para gerar representações contínuas da evolução espaçotemporal de regiões em movimento. Realizamos subamostragem das amostras do conjunto de dados e aplicamos o modelo C-VAE para gerar representações de regiões intermédias, comparando-o com outros algoritmos de interpolação da literatura. Avaliamos o desempenho desses métodos comparando as suas interpolações com dados de referência do conjunto de dados BurnedAreaUAV e com regiões geradas por um modelo de segmentação automática de arquitetura U-Net. Aferimos a qualidade dos polígonos gerados considerando métricas de similaridade geométrica e de consistência temporal. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências O conjunto de dados curado que criamos, denominado BurnedAreaUAV, preenche uma lacuna e constitui uma ferramenta válida para investigações futuras. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências. No que respeita à abordagem baseada num C-VAE proposta para interpolação espaçotemporal, demonstramos que apresenta resultados competitivos em termos de métricas de similaridade geométrica, mas consistência temporal superior aos demais. As nossas experiências sugerem que os modelos C-VAE podem representar uma alternativa viável para modelar a evolução espaçotemporal de regiões móveis 2D. O código, artigos, vídeos e documentação adicional relativos a esta dissertação podem ser consultados neste endereço: https://eesdatalab.ipleiria.pt/.
- PROJETO DE TRANSFORMAÇÃO DIGITAL NO IEFP, IPPublication . Roque, Celia Maria Gomes; Gonçalves, Dulce Cristina dos Santos IriaVivemos uma conjuntura de profundas mudanças na economia e na sociedade, marcada por grandes incertezas e pela crescente digitalização. A transformação para o digital está a acelerar em todas as organizações, sejam elas públicas ou privadas. As soluções tecnológicas estão disponíveis e multiplicam-se um pouco por toda a parte, para fazer diferente, mais rápido e com menos recursos. A revolução em curso surpreende-nos a cada segundo com a Inteligência Artificial a liderar processos de inovação, integrando-se com modelos de Machine Learning e com robots. As potencialidades do Robotic Process Automation (RPA) estão a ser exploradas, permitindo a otimização de recursos, substituindo pessoas em tarefas sem valor acrescentado. O projeto que aqui se apresenta pretende sugerir uma mudança profunda numa organização com o aproveitamento deste novo mundo tecnológico e digital. Com recurso a processos de automação, integrando a inteligência artificial e os Large Language Models (LLM) será demonstrado o potencial de transformação de um serviço público e da sua forma de interagir com o cidadão. Propõe-se um processo de automação para cumprir o circuito de registo administrativo de documentos nos sistemas informáticos da organização e um Chatbot para integração com o site desta, alimentado por documentos de temas exclusivos dessa organização para posterior esclarecimento das dúvidas dos cidadãos / clientes. A adaptação à revolução digital é urgente e necessária e os serviços públicos não podem deixar de se envolver e de mudar a sua forma de estar e de prestar serviços. Porque um serviço público existe para satisfazer as necessidades dos cidadãos, estes, cada vez mais exigentes e informados, questionam sobre a execução, a transparência no processo de decisão, a própria capacidade de resposta. O projeto assume, por isso, particular relevância num contexto em que fazer mais e melhor e de forma inovadora tem que passar a fazer parte do nosso dia a dia.
- CASE ID DETECTION IN UNLABEL LED EVENT LOGS FOR PROCESS MININGPublication . Vicente, André Alexandre dos Santos; Rijo, Rui Pedro Charters Lopes; Martinho, Ricardo Filipe Gonçalves; Grilo, Carlos Fernando de AlmeidaIn the realm of data science, event logs serve as valuable sources of information, capturing sequences of events or activities in various processes. However, when dealing with unlabelled event logs, the absence of a designated Case ID column poses a critical challenge, hindering the understanding of relationships and dependencies among events within a case or process. Motivated by the increasing adoption of data-driven decision-making and the need for efficient data analysis techniques, this master’s project presents the "Case ID Column Identification Library" project. This library aims to streamline data preprocessing and enhance the efficiency of subsequent data analysis tasks by automatically identifying the Case ID column in unlabelled event logs. The project’s objective is to develop a versatile and user-friendly library that incorporates multiple methods, including a Convolutional Neural Network (CNN) and a parameterizable heuristic approach, to accurately identify the Case ID column. By offering flexibility to users, they can choose individual methods or a combination of methods based on their specific requirements, along with adjusting heuristic-based formula coefficients and settings for fine-tuning the identification process. This report presents a comprehensive exploration of related work, methodology, data understanding, methods for Case ID column identification, software library development, and experimental results. The results demonstrate the effectiveness of the proposed methods and their implications for decision support systems.
- «
- 1 (current)
- 2
- 3
- »