ESTG - Mestrado em Ciência de Dados
Permanent URI for this collection
Browse
Browsing ESTG - Mestrado em Ciência de Dados by Title
Now showing 1 - 10 of 45
Results Per Page
Sort Options
- ALGORITHMS FOR BUBBLE SEGMENTATION IN LIQUID-GAS MIXTURESPublication . Oliveira, João Rafael Freitas; Pinheiro, Rafael Fernandes; Pinto, Rui FonsecaThe accurate, automated analysis of liquid-gas mixtures is essential for advancing numerous scientific and industrial fields, with the precise segmentation of individual bubbles being a critical step. This thesis addresses the challenge of bubble instance segmentation using deep learning. A significant practical constraint was the availability of a large real-world dataset that lacked pixel-level annotations, making traditional supervised training infeasible. To overcome this, a methodology based on training models with synthetically generated data was developed. A comparative study of various Machine Learning architectures was conducted to identify an optimal approach for this task. The results demonstrate that a Mask R-CNN model with a ResNet-50 backbone provides the most effective performance, establishing a strong baseline for the segmentation task. The primary limitation observed was the performance degradation when applying the synthetically-trained model to real-world images, a result of the domain gap between the two datasets. This effect was particularly evident in images with dense or overlapping bubble formations. In summary, this research successfully validates the viability of leveraging synthetic data to train deep learning models for bubble segmentation. The work provides a foundational framework, establishes a robust performance benchmark, and identifies the domain gap as the central challenge for achieving high-fidelity results on realworld imagery.
- Algoritmos de Classificação Multiclasse via SVM para Apoio ao Diagnóstico a partir de Dados do Teste de Esforço Cardiopulmonar (CPET)Publication . Santos, Flávio Bueno dos; Pinheiro, Rafael Fernandes; Pinto, Rui Manuel da FonsecaO Teste de Esforço Cardiopulmonar (CPET) é uma ferramenta vital para o diagnóstico funcional, mas a aplicação de modelos de aprendizagem automática é frequentemente limitada pela escassez de séries temporais completas para diversas condições clínicas. Esta dissertação aborda esta lacuna, partindo de um framework de classificação baseado em Support Vector Machines (SVM) e na Transformada Wavelet Discreta (DWT), originalmente desenvolvido para três classes (Insuficiência Cardíaca (IC), Síndrome Metabólica (SM) e Saudáveis (S)). O objetivo central foi expandir esta metodologia para um cenário mais complexo de cinco classes, através da geração de Dados Semi-Sintéticos para os grupos de Limitação Pulmonar (LP) e Limitação Musculoesquelética (LM), guiada por parâmetros estatísticos de pacientes reais. Subsequentemente, para validar a eficácia da Transformada Wavelet Discreta (Discrete Wavelet Transform) (DWT) neste novo contexto, foi conduzida uma análise comparativa, avaliando o desempenho do modelo contra três métodos alternativos de extração de características: a Transformada de Fourier de Curto Tempo (Short-Time Fourier Transform) (STFT), a Transformada Wavelet por Pacotes (Wavelet Packet Transform) (WPT) e a Decomposição por Modos Empíricos (Empirical Mode Decomposition) (EMD). Todos os modelos foram avaliados sob um protocolo experimental consistente para garantir uma comparação justa. Os resultados da análise comparativa foram consistentes. O modelo SVM-Linear-MW5, que utiliza a DWT, alcançou uma acurácia de 93.60% e um F1-Score de 84.14%, um desempenho que se destacou em relação ao das outras transformadas. A análise demonstrou que a STFT foi a alternativa mais competitiva (F1-Score de 74.25%), enquanto a WPT e a EMD não se mostraram tão eficazes para este problema. Este trabalho conclui que a combinação de dados semi-sintéticos com a extração de características via DWT é uma abordagem viável para a expansão de modelos de diagnóstico. A metodologia de referência foi expandida para cinco classes e, na análise comparativa realizada, a sua abordagem de processamento de sinal obteve o desempenho mais elevado entre as técnicas testadas, o que estabelece um baseline sólido para futuras investigações na área, incluindo a otimização de Hiperparâmetros.
- Análise de risco de mercado e otimização de portfólio com o RStudio e ShinyPublication . Gois, Miguel Passagem; Martins, José Maria GouveiaEste projeto tem como tema a análise de risco de mercado e por consequente a otimização de portfólio, utilizando a linguagem de programação R no ambiente RStudio, e explora o mercado financeiro com o objetivo de fornecer insights de forma a facilitar decisões informadas para o investidor. A base essencial do projeto é a análise e estudo dos retornos de ações de quatro empresas que compõem o índice de mercado S&P 500, sendo elas a Apple Inc., Tesla Inc., Microsoft Corporation e Johnson & Johnson. A análise é realizada sobre o desempenho destas empresas separadamente e em conjunto de forma a entender melhor a dinâmica de mercado e o método de otimização do portfólio. É através de várias métricas como a volatilidade, indicadores Beta, Índice de Sharpe, ou Value at Risk (VaR) que é possibilitado compreender o risco de mercado inerente aos ativos e ao portfólio. O projeto utiliza modelos de séries temporais para prever tendências futuras em alguns destes indicadores, facultando uma visão futura do risco associado. O projeto passa também por utilização de algumas técnicas de otimização de portfólio de forma a ser possível construir diferentes portfólios para três tipos de otimização, o portfólio que minimiza o risco, o portfólio que maximiza o retorno e o portfólio ótimo, permitindo assim, dependendo dos interesses do investidor, escolher aquele que mais se adequa ao seu perfil de risco. Por último, o projeto culmina no desenvolvimento de uma plataforma iterativa pelo pacote Shiny do RStudio, que serve como ferramenta para que o utilizador possa facilmente obter os insights necessários para a gestão do risco de mercado e para a otimização de um portfólio, permitindo aos utilizadores tomar decisões bem informadas.
- Analysing Emotions During Interrogations: A Case StudyPublication . Garcia, José António da Silva Pinto; Miragaia, Rolando Lúcio Germano; Grilo, Carlos Fernando de Almeida; Domingues, Patrício RodriguesIn a context of rapid technological advancement and increasing integration of Artificial Intelligence (AI) across various fields, this work explores the application of AI in the domain of criminal investigation, specifically within the context of interrogations. The research presents a dual and complementary nature: the development of a software application for the Portuguese Military Judiciary Police (PJM) and a scientific contribution in the field of multimodal emotion analysis. The first component focused on the design and implementation of the INTU-AI (Intuition Artificial Intelligence) program, a tool aimed at supporting Military Judicial Police (PJM, from Portuguese Polícia Judiciária Militar) investigators by digitizing and automating administrative procedures related to interrogations. INTU-AI integrates models for Facial Emotion Recognition (FER), Speech Emotion Recognition (SER), and Text-Based Emotion Analysis, functioning as a complete end-to-end solution. The second component represents a scientific contribution in the form of a proof-of-concept study for dynamic multimodal emotion analysis. Due to the lack of publicly available datasets of criminal interrogations, the MELD (Multimodal EmotionLines Dataset) was employed as the experimental basis, given its resemblance to real-life interaction contexts. This part of the work, structured according to the CRISP-DM methodology, explored three hypotheses regarding the relative importance of each modality in emotional evaluation.
- ANALYSIS OF THE REAL IMPACT OF SOCIAL MEDIA AND ONLINE REPUTATION TO IMPROVE MARKETING STRATEGIES IN A HOTEL CHAINPublication . Berrazueta, Juan Andres Coba; Craveiro, Olga Marina Freitas; Sousa, Márcia Cristina Santos ViegasThe main objective of this research is to design and implement a comprehensive framework that integrates text mining, sentiment analysis, and Business Intelligence (BI) for the analysis of hotel reviews. The study aims to provide hotel managers with a systematic and automated tool capable of transforming unstructured textual data into actionable insights that improve customer satisfaction, enhance online reputation, and support data-driven marketing and operational strategies. This thesis investigates the integration of sentiment analysis, text mining, and BI frameworks as a strategic tool for online reputation management in the hospitality industry. The study combines a systematic literature review, conducted under the PRISMA guidelines, with an empirical project developed according to the CRISP-DM process model. The dataset used comprises all the positive and negative reviews from multiple sources—including Google Reviews, Booking.com, Tripadvisor, and physical surveys—covering five hotels in Portugal during 2023 and 2024. The methodology involved a pipeline of data preparation, including cleaning, deduplication, translation into European Portuguese, normalization, stemming, and lemmatization. Supervised machine learning models, particularly Logistic Regression and Naive Bayes, were implemented and optimized through techniques such as SMOTE and threshold adjustment, demonstrating high accuracy and strong recall for negative comments. Additionally, topic modeling (LDA and NMF) and semantic categorization were applied to extract latent themes and classify reviews into business-relevant categories. Results were operationalized through interactive dashboards in Power BI, which enabled the visualization of satisfaction levels, temporal trends, word frequencies, and category distributions across hotels. These dashboards provided to hotel managers with actionable insights to detect strengths, weaknesses, and seasonal patterns in customer perception. The system was further enhanced with an automated scraping pipeline for Google Reviews, ensuring continuous integration of updated customer feedback. The findings confirm that sentiment analysis and BI tools represent a powerful combination for transforming unstructured textual data into actionable insights. The study demonstrates the feasibility, scalability, and strategic relevance of this approach, while also highlighting limitations related to data availability and semantic overlaps. Ultimately, this work contributes to advancing data-driven decision-making in the hospitality industry.
- Anomaly Detection in Numerical Data based on Benford´s LawPublication . Martinho, Patrícia Isabel Santos; Santos, Rui Filipe Vargas de Sousa; Antunes, Mário João GonçalvesEste projeto centrou-se na deteção de anomalias através da aplicação da lei de Benford, explorando a sua capacidade para identificar desvios estatísticos de forma eficiente e precisa. A abordagem adotada baseou-se nesta lei, amplamente reconhecida pela sua utilidade na deteção de fraudes, especialmente em dados financeiros, ao analisar a distribuição dos primeiros dígitos. A escassez de dados públicos de qualidade dificultava a avaliação rigorosa de modelos estatísticos. Para superar esta limitação, desenvolveu-se um gerador de dados sintéticos parametrizável, capaz de reproduzir padrões correspondentes tanto a eventos normais como a manipulações realistas. A aplicação desenvolvida permitiu simular condições diversas e aproximar os testes a situações do mundo real, facilitando a análise do desempenho e do comportamento dos métodos estatísticos. Com os dados simulados obtidos, tornou-se possível avaliar a eficácia de diferentes métodos estatísticos em condições mais próximas da realidade. Neste contexto, a lei de Benford assumiu um papel central, destacando-se pela sua utilidade na deteção de anomalias em múltiplos cenários. Para explorar de forma sistemática esta capacidade, desenvolveu-se um modelo estatístico como alternativa aos modelos tradicionais de machine learning, que apresentam elevadas taxas de falsos positivos e grandes exigências computacionais. A proposta assentou na aplicação da lei de Benford combinada com medidas de dissemelhança, permitindo quantificar o desvio entre as distribuições observadas e a distribuição esperada segundo esta lei. Realizaram-se simulações com o gerador desenvolvido para criar conjuntos de dados conformes e não conformes com a lei de Benford, obtendo-se assim dados classificados. Para medir o desvio, utilizaram-se o qui-quadrado, o desvio médio absoluto, o teste de Kolmogorov–Smirnov, a distância euclidiana, a distância de Hellinger, a divergência de Kullback-Leibler e a combinação dos valores-𝑝 dos testes através do método de Fisher. O desempenho das diferentes medidas de dissemelhança foi avaliado com recurso a métricas de classificação como a precisão, recall e F1-score, os mesmos critérios utlizados em machine learning, permitindo comparar o desempenho do modelo em estudo com modelos de machine learning. A análise foi complementada pela matriz de confusão e pela curva ROC, ferramentas que permitem uma avaliação mais detalhada do comportamento do modelo, possibilitando a comparação do seu desempenho com o de modelos de machine learning.
- APLICAÇÃO DE RAG EM MODELOS LLM COM BASES DE DADOS VETORIAISPublication . Marques, Ruben Alexandre Dias; Malheiro, Ricardo Manuel da Silva; Piedade, Maria Beatriz Guerra daA Geração Aumentada por Recuperação (RAG) é uma estrutura que permite aos Modelos de Linguagem de Grande Escala (LLMs) melhorar a precisão e a relevância de respostas dos modelos, através de integração de bases de conhecimento externas. Neste trabalho, apresenta-se a implementação de um sistema RAG integrado com LLMs e bases de dados vetoriais (VecDBS) de forma a otimizar a utilização de Inteligência Artificial Generativa em áreas complexas do ponto de vista de conhecimento técnico, como a certificação energética em Portugal. Realizou-se extração de conhecimento através do manual SCE da ADENE, entidade reguladora, e construiu-se a estratégia do sistema RAG integrado com LLMs, implementado o modelo Gemma 7B e a base de dados vetorial ChromaDB, dando acesso aos profissionais da área de terem informações relativamente a processos, cálculos e elementos legislativos, de forma muito mais eficiente, eliminando o tempo de pesquisa associada a este processo de certificação. Avaliou-se o projeto através de uma análise comparativa entre o sistema RAG e os métodos tradicionais, focando na precisão, relevância e clareza das respostas geradas. As metodologias de avaliação empíricas demonstram que o sistema melhora significativamente as capacidades de resposta a este tema complexo, dando mais clareza, integridade e relevância na informação gerada e aumentando a eficiência dos profissionais da área. Simultaneamente, os resultados demonstraram ainda uma redução de 92,5% nos custos para preparação e utilização do sistema, em comparação com as abordagens de fine-tuning tradicionais, e uma melhoria consistente na precisão e relevância das respostas, reduzindo ainda os custos associados, sendo eles financeiros, computacionais e temporais.
- Aplicação de Técnicas de Ciência de Dados na Previsão de Consumos EnergéticosPublication . Sá, José Eduardo Figueiredo Costa Simões de; Grilo, Carlos Fernando de Almeida; Sebastião, Fernando José do Nascimento; Miragaia, Rolando Lúcio GermanoA adoção das melhores práticas que visem a utilização eficiente de recursos promove o desenvolvimento sustentável o que, por sua vez, se traduz em benefícios sociais e económicos. O presente projeto foca-se nos consumos energéticos de um edifício de serviços, nomeadamente o Núcleo de formação do CENFIM da Marinha Grande, com o objetivo de utilizar ferramentas de ciência de dados para realizar previsões diárias de consumos energéticos. O edifício em estudo promove cursos nas áreas da metalurgia e da metalomecânica, estando equipado com máquinas adequadas para o efeito. Tendo em conta que os consumos energéticos medidos ao longo do tempo podem ser estudados através de séries temporais, este projeto reporta as metodologias e os modelos utilizados usualmente para a sua análise, dividindo-os em dois grupos, os modelos de base estatística, onde se destacam os modelos SARIMA e SARIMAX, e os modelos de aprendizagem computacional, com maior ênfase em redes neuronais do tipo MLP, RNN, LSTM e GRU. O problema foi abordado de várias formas, nomeadamente na definição da quantidade e forma de dias anteriores para realizar a previsão do consumo do dia seguinte, assim como na utilização de variáveis exógenas para melhorar o resultado da previsão, como é o caso da ocupação do edifício. Foi possível obter uma previsão com um MAPE de cerca de 12,5% utilizando o modelo SARIMAX com a ocupação total do edifício por dia como variável exógena. Com as redes neuronais foi apenas utilizada a variável referente ao consumo energético, contudo, várias arquiteturas, tipologias e hiperparâmetros foram testados para cada rede. A rede que apresenta melhor resultado para o problema em questão é a GRU com um MAPE de cerca de 14,5%, embora a MLP apresente um resultado bastante semelhante.
- APRENDIZAGEM AUTOMÁTICA COMO SUPORTE ÀS CIÊNCIAS DA TERRAPublication . Ribeiro, Tiago Filipe Rodrigues; Silva, Fernando José Mateus da; Costa, Rogério Luís de CarvalhoOs incêndios florestais acarretam consequências de largo alcance, representando uma ameaça significativa para a vida humana, economia e o meio ambiente. A compreensão da dinâmica desses fogos florestais e dos seus impactos ambientais torna-se crucial, especialmente em regiões de elevada incidência. Recentemente, modelos baseados em aprendizagem automática emergiram como promissoras ferramentas para facilitar o entendimento da complexa dinâmica dos incêndios florestais e de outros fenómenos naturais. Estas técnicas abrangem modelos visão computacional capazes de representar a geometria de objetos de interesse, e modelos capazes de simular a evolução de fenómenos espaçotemporais. No entanto, tipicamente carece-se de conjuntos de dados anotados de dimensões e qualidade significativas. No entanto, conjuntos de dados que capturam a evolução em tempo real de área ardida são escassos. Esta dissertação propõe três contribuições principais: (i) um novo conjunto de dados de incêndios florestais para a segmentação semântica de áreas ardida; (ii) ferramentas para validação e teste de modelos de segmentação semântica automática de área ardida no contexto de incêndios florestais, (iii) um modelo Autocodificador para interpolação espaçotemporal capaz de representar fenómenos do mundo real, como a evolução de áreas ardida em incêndios florestais. Descrevemos detalhadamente o processo de amostragem, anotação manual e validação de um novo conjunto de dados, proveniente de vídeos de fogo controlado capturados por drone no Norte de Portugal, o qual disponibilizamos num repositório de acesso livre. Adicionalmente, propomos métricas específicas para teste e validação de polígonos gerados por modelos automáticos de segmentação. Com base no conjunto de dados BurnedAreaUAV, avaliamos modelos de segmentação automática utilizando a arquitetura totalmente convolucional U-Net, considerando métricas de similaridade geométrica e consistência temporal dos polígonos gerados. Para a interpolação espaçotemporal dos polígonos de área ardida, propomos aplicar um modelo Autocodificador Variacional Condicional (C-VAE) e investigamos as suas capacidades para gerar representações contínuas da evolução espaçotemporal de regiões em movimento. Realizamos subamostragem das amostras do conjunto de dados e aplicamos o modelo C-VAE para gerar representações de regiões intermédias, comparando-o com outros algoritmos de interpolação da literatura. Avaliamos o desempenho desses métodos comparando as suas interpolações com dados de referência do conjunto de dados BurnedAreaUAV e com regiões geradas por um modelo de segmentação automática de arquitetura U-Net. Aferimos a qualidade dos polígonos gerados considerando métricas de similaridade geométrica e de consistência temporal. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências O conjunto de dados curado que criamos, denominado BurnedAreaUAV, preenche uma lacuna e constitui uma ferramenta válida para investigações futuras. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências. No que respeita à abordagem baseada num C-VAE proposta para interpolação espaçotemporal, demonstramos que apresenta resultados competitivos em termos de métricas de similaridade geométrica, mas consistência temporal superior aos demais. As nossas experiências sugerem que os modelos C-VAE podem representar uma alternativa viável para modelar a evolução espaçotemporal de regiões móveis 2D. O código, artigos, vídeos e documentação adicional relativos a esta dissertação podem ser consultados neste endereço: https://eesdatalab.ipleiria.pt/.
- Avaliação do Desempenho de Cartas de Controlo por Simulação em Processos de Produção de Pasta AcabadaJesus, Ana Rita Rola; Santos, Rui Filipe Vargas de Sousa; Felgueiras, Miguel Martins
