ESTG - Mestrado em Ciência de Dados
Permanent URI for this collection
Browse
Browsing ESTG - Mestrado em Ciência de Dados by advisor "Grilo, Carlos Fernando de Almeida"
Now showing 1 - 5 of 5
Results Per Page
Sort Options
- Aplicação de Técnicas de Ciência de Dados na Previsão de Consumos EnergéticosPublication . Sá, José Eduardo Figueiredo Costa Simões de; Grilo, Carlos Fernando de Almeida; Sebastião, Fernando José do Nascimento; Miragaia, Rolando Lúcio GermanoA adoção das melhores práticas que visem a utilização eficiente de recursos promove o desenvolvimento sustentável o que, por sua vez, se traduz em benefícios sociais e económicos. O presente projeto foca-se nos consumos energéticos de um edifício de serviços, nomeadamente o Núcleo de formação do CENFIM da Marinha Grande, com o objetivo de utilizar ferramentas de ciência de dados para realizar previsões diárias de consumos energéticos. O edifício em estudo promove cursos nas áreas da metalurgia e da metalomecânica, estando equipado com máquinas adequadas para o efeito. Tendo em conta que os consumos energéticos medidos ao longo do tempo podem ser estudados através de séries temporais, este projeto reporta as metodologias e os modelos utilizados usualmente para a sua análise, dividindo-os em dois grupos, os modelos de base estatística, onde se destacam os modelos SARIMA e SARIMAX, e os modelos de aprendizagem computacional, com maior ênfase em redes neuronais do tipo MLP, RNN, LSTM e GRU. O problema foi abordado de várias formas, nomeadamente na definição da quantidade e forma de dias anteriores para realizar a previsão do consumo do dia seguinte, assim como na utilização de variáveis exógenas para melhorar o resultado da previsão, como é o caso da ocupação do edifício. Foi possível obter uma previsão com um MAPE de cerca de 12,5% utilizando o modelo SARIMAX com a ocupação total do edifício por dia como variável exógena. Com as redes neuronais foi apenas utilizada a variável referente ao consumo energético, contudo, várias arquiteturas, tipologias e hiperparâmetros foram testados para cada rede. A rede que apresenta melhor resultado para o problema em questão é a GRU com um MAPE de cerca de 14,5%, embora a MLP apresente um resultado bastante semelhante.
- CASE ID DETECTION IN UNLABEL LED EVENT LOGS FOR PROCESS MININGPublication . Vicente, André Alexandre dos Santos; Rijo, Rui Pedro Charters Lopes; Martinho, Ricardo Filipe Gonçalves; Grilo, Carlos Fernando de AlmeidaIn the realm of data science, event logs serve as valuable sources of information, capturing sequences of events or activities in various processes. However, when dealing with unlabelled event logs, the absence of a designated Case ID column poses a critical challenge, hindering the understanding of relationships and dependencies among events within a case or process. Motivated by the increasing adoption of data-driven decision-making and the need for efficient data analysis techniques, this master’s project presents the "Case ID Column Identification Library" project. This library aims to streamline data preprocessing and enhance the efficiency of subsequent data analysis tasks by automatically identifying the Case ID column in unlabelled event logs. The project’s objective is to develop a versatile and user-friendly library that incorporates multiple methods, including a Convolutional Neural Network (CNN) and a parameterizable heuristic approach, to accurately identify the Case ID column. By offering flexibility to users, they can choose individual methods or a combination of methods based on their specific requirements, along with adjusting heuristic-based formula coefficients and settings for fine-tuning the identification process. This report presents a comprehensive exploration of related work, methodology, data understanding, methods for Case ID column identification, software library development, and experimental results. The results demonstrate the effectiveness of the proposed methods and their implications for decision support systems.
- Modelos Estatísticos e Redes Neuronais na Previsão do Índice da Bolsa BrasileiraPublication . Santos, Elysiario Virginio dos; Martins, José Maria Gouveia; Grilo, Carlos Fernando de AlmeidaOs estudos na área de tecnologia para investimentos têm sido objeto de interesse no meio académico e nos negócios. A facilidade em obter um histórico de dados em maior volume, velocidade e variedade é um dos principais impulsionadores dos avanços nesta área. O advento da inteligência artificial levou os investigadores a explorarem modelos preditivos para compor a inteligência de negócios, mostrando grande potencial de apoio nas decisões humanas, que podem ser melhor suportadas em estudos mais elaborados e desenvolvidos recentemente. Esta dissertação aborda a previsão dos valores da Bolsa de Valores Brasileira, centrando-se no Ibovespa, que representa as principais ações negociadas na B3. O estudo tem como objetivo prever os valores de fecho e o retorno do índice através da aplicação de técnicas de aprendizagem automática, comparando os resultados obtidos com modelos estatísticos tradicionais. A investigação envolve diferentes métodos, procurando identificar quais abordagens oferecem melhores resultados preditivos. Estes resultados visam contribuir para uma compreensão mais aprofundada das dinâmicas do mercado financeiro brasileiro, podendo ser úteis tanto para o meio académico quanto para profissionais do setor financeiro interessados em realizar investimentos na área financeira. Para a realização do projeto, foram testados modelos estatísticos e modelos baseados em redes neuronais com o intuito de comparar os resultados de diferentes abordagens preditivas. Entre os modelos estatísticos testados estão os modelos ARIMA para valores de fecho e os modelos GARCH e E-GARCH para retornos. Para os testes com redes neuronais, foram escolhidas as redes Long Short- Term Memory (LSTM) e as Gated Recurrent Unit (GRU), as redes Multilayer Perceptron (MLP) e o Neural Basis Expansion Analysis Time Series Forecasting (N-BEATS), todas com diversas parametrizações. Após diversos testes, atingiu-se uma estabilidade com Mean Absolute Percentage Error (MAPE) próximo de 1% para os valores de fecho na maioria dos modelos.
- PREVISÃO DE CURTO PRAZO PARA CONSUMO DE ENERGIA EM CAMPI UNIVERSITÁRIOSPublication . Oliveira, Paulo Roberto da Silva; Grilo, Carlos Fernando de Almeida; Sousa, João Miguel Charrua de; Távora, Luís Miguel de Oliveira Pegado de Noronha eDiversas instituições de ensino têm vindo a instalar medidores inteligentes em diferentes edifícios dos seus campi, permitindo detalhar o consumo quase em tempo real, dotando essas organizações de significativos volumes de dados com valiosa informação do ponto de vista estratégico. O consumo de energia em campus universitário é impulsionado principalmente por vários fatores, como: ocupação, horário de funcionamento, tipo da edificação, idade da edificação, tipologia de equipamento instalado e condições climatéricas. Há ainda categorias diferentes: edifícios académicos, administrativos e edifícios residenciais. Nesse contexto, modelos estatísticos e modelos de aprendizagem computacional supervisionados desempenham um papel essencial, uma vez que permitem aplicar técnicas de previsão baseadas em dados históricos. Uma boa previsão do consumo de energia elétrica e de gás poderá viabilizar: a) O dimensionamento mais rigoroso de sistemas de produção fotovoltaica em regime de autoconsumo, procurando compatibilizar o consumo com a disponibilidade de produção fotovoltaica; b) Uma estimativa de encargos futuros com a energia elétrica; c) A adoção de planos de gestão de procura de energia, tentando induzir uma maior flexibilidade da procura em períodos mais críticos ou com maiores penalizações tarifárias. Portanto, a proposta deste trabalho assenta na modelação com base no comportamento de dados históricos e na otimização de parâmetros de redes neuronais para obter o mínimo de erro possível na previsão do consumo de energia elétrica do dia seguinte para o Campus 2 da Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, incluindo a análise do desempenho dos modelos explorados. Foram testados diversos modelos estatísticos SARIMA/SARIMAX com validação cruzada, e modelos de Inteligência Artificial (IA), nomeadamente, k-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost), redes neuronais, em particular, Multilayer Perceptron (MLP), redes Long Short-Term Memory (LSTM) e redes Gated Recurrent Unit (GRU) com diversas parametrizações e obtidos resultados com cada tipo de modelo, sendo visível que num significativo número deles foi possível obter um Mean Absolute Percentage Error (MAPE) abaixo dos 8%.
- Time is Mining: Applying Statistical and Neural Networks Models to Forecast Bitcoin PricePublication . Peixoto, João Filipe Rodrigues; Martins, José Maria Gouveia; Grilo, Carlos Fernando de AlmeidaThe volatile nature of Bitcoin, the most prominent cryptocurrency, presents a significant challenge for accurate price forecasting. Given this volatility, finding a reliable forecasting model is crucial for making informed decisions in trading, investing, and risk management. This study explores various methodologies for predicting Bitcoin prices, focusing on both traditional statistical models and state-of-the-art neural networks. Two primary approaches were examined: directly modelling the price and predicting daily returns, which were later converted into price predictions. Both methods underwent an extensive hyperparameter optimization process to ensure optimal performance, evaluated using metrics such as mean absolute error (MAE), mean squared error (MSE), root mean squared error (RMSE), mean absolute percentage error (MAPE), and R-squared (R²). The return-to-price transformation approach led to significant improvements in older models like LSTM and GRU, enhancing accuracy and reducing the inherent randomness within neural networks, thereby increasing stability. PatchTST, when modelling the price directly, achieved the best results with an MAE of $709.91 and a MAPE of 1.702%, although all models produced similar outcomes. Despite low error rates, the models struggled to capture daily price spikes, particularly when predicting returns, suggesting limitations in forecasting significant price movements based solely on historical prices. This work concludes by identifying limitations and providing recommendations for future research, particularly in integrating external variables and exploring statistical models designed to predict volatility, such as GARCH, which could potentially offer deeper insights into sharp price fluctuations. Additionally, investigating the performance of the tested models in multi-step forecasting scenarios and the impact of adjusting the time series' granularity to smooth out price volatility warrants further exploration.