ESTG - Mestrado em Ciência de Dados
Permanent URI for this collection
Browse
Browsing ESTG - Mestrado em Ciência de Dados by Field of Science and Technology (FOS) "Engenharia e Tecnologia::Outras Engenharias e Tecnologias"
Now showing 1 - 10 of 23
Results Per Page
Sort Options
- Análise de risco de mercado e otimização de portfólio com o RStudio e ShinyPublication . Gois, Miguel Passagem; Martins, José Maria GouveiaEste projeto tem como tema a análise de risco de mercado e por consequente a otimização de portfólio, utilizando a linguagem de programação R no ambiente RStudio, e explora o mercado financeiro com o objetivo de fornecer insights de forma a facilitar decisões informadas para o investidor. A base essencial do projeto é a análise e estudo dos retornos de ações de quatro empresas que compõem o índice de mercado S&P 500, sendo elas a Apple Inc., Tesla Inc., Microsoft Corporation e Johnson & Johnson. A análise é realizada sobre o desempenho destas empresas separadamente e em conjunto de forma a entender melhor a dinâmica de mercado e o método de otimização do portfólio. É através de várias métricas como a volatilidade, indicadores Beta, Índice de Sharpe, ou Value at Risk (VaR) que é possibilitado compreender o risco de mercado inerente aos ativos e ao portfólio. O projeto utiliza modelos de séries temporais para prever tendências futuras em alguns destes indicadores, facultando uma visão futura do risco associado. O projeto passa também por utilização de algumas técnicas de otimização de portfólio de forma a ser possível construir diferentes portfólios para três tipos de otimização, o portfólio que minimiza o risco, o portfólio que maximiza o retorno e o portfólio ótimo, permitindo assim, dependendo dos interesses do investidor, escolher aquele que mais se adequa ao seu perfil de risco. Por último, o projeto culmina no desenvolvimento de uma plataforma iterativa pelo pacote Shiny do RStudio, que serve como ferramenta para que o utilizador possa facilmente obter os insights necessários para a gestão do risco de mercado e para a otimização de um portfólio, permitindo aos utilizadores tomar decisões bem informadas.
- APLICAÇÃO DE RAG EM MODELOS LLM COM BASES DE DADOS VETORIAISPublication . Marques, Ruben Alexandre Dias; Malheiro, Ricardo Manuel da Silva; Piedade, Maria Beatriz Guerra daA Geração Aumentada por Recuperação (RAG) é uma estrutura que permite aos Modelos de Linguagem de Grande Escala (LLMs) melhorar a precisão e a relevância de respostas dos modelos, através de integração de bases de conhecimento externas. Neste trabalho, apresenta-se a implementação de um sistema RAG integrado com LLMs e bases de dados vetoriais (VecDBS) de forma a otimizar a utilização de Inteligência Artificial Generativa em áreas complexas do ponto de vista de conhecimento técnico, como a certificação energética em Portugal. Realizou-se extração de conhecimento através do manual SCE da ADENE, entidade reguladora, e construiu-se a estratégia do sistema RAG integrado com LLMs, implementado o modelo Gemma 7B e a base de dados vetorial ChromaDB, dando acesso aos profissionais da área de terem informações relativamente a processos, cálculos e elementos legislativos, de forma muito mais eficiente, eliminando o tempo de pesquisa associada a este processo de certificação. Avaliou-se o projeto através de uma análise comparativa entre o sistema RAG e os métodos tradicionais, focando na precisão, relevância e clareza das respostas geradas. As metodologias de avaliação empíricas demonstram que o sistema melhora significativamente as capacidades de resposta a este tema complexo, dando mais clareza, integridade e relevância na informação gerada e aumentando a eficiência dos profissionais da área. Simultaneamente, os resultados demonstraram ainda uma redução de 92,5% nos custos para preparação e utilização do sistema, em comparação com as abordagens de fine-tuning tradicionais, e uma melhoria consistente na precisão e relevância das respostas, reduzindo ainda os custos associados, sendo eles financeiros, computacionais e temporais.
- Aplicação de Técnicas de Ciência de Dados na Previsão de Consumos EnergéticosPublication . Sá, José Eduardo Figueiredo Costa Simões de; Grilo, Carlos Fernando de Almeida; Sebastião, Fernando José do Nascimento; Miragaia, Rolando Lúcio GermanoA adoção das melhores práticas que visem a utilização eficiente de recursos promove o desenvolvimento sustentável o que, por sua vez, se traduz em benefícios sociais e económicos. O presente projeto foca-se nos consumos energéticos de um edifício de serviços, nomeadamente o Núcleo de formação do CENFIM da Marinha Grande, com o objetivo de utilizar ferramentas de ciência de dados para realizar previsões diárias de consumos energéticos. O edifício em estudo promove cursos nas áreas da metalurgia e da metalomecânica, estando equipado com máquinas adequadas para o efeito. Tendo em conta que os consumos energéticos medidos ao longo do tempo podem ser estudados através de séries temporais, este projeto reporta as metodologias e os modelos utilizados usualmente para a sua análise, dividindo-os em dois grupos, os modelos de base estatística, onde se destacam os modelos SARIMA e SARIMAX, e os modelos de aprendizagem computacional, com maior ênfase em redes neuronais do tipo MLP, RNN, LSTM e GRU. O problema foi abordado de várias formas, nomeadamente na definição da quantidade e forma de dias anteriores para realizar a previsão do consumo do dia seguinte, assim como na utilização de variáveis exógenas para melhorar o resultado da previsão, como é o caso da ocupação do edifício. Foi possível obter uma previsão com um MAPE de cerca de 12,5% utilizando o modelo SARIMAX com a ocupação total do edifício por dia como variável exógena. Com as redes neuronais foi apenas utilizada a variável referente ao consumo energético, contudo, várias arquiteturas, tipologias e hiperparâmetros foram testados para cada rede. A rede que apresenta melhor resultado para o problema em questão é a GRU com um MAPE de cerca de 14,5%, embora a MLP apresente um resultado bastante semelhante.
- APRENDIZAGEM AUTOMÁTICA COMO SUPORTE ÀS CIÊNCIAS DA TERRAPublication . Ribeiro, Tiago Filipe Rodrigues; Silva, Fernando José Mateus da; Costa, Rogério Luís de CarvalhoOs incêndios florestais acarretam consequências de largo alcance, representando uma ameaça significativa para a vida humana, economia e o meio ambiente. A compreensão da dinâmica desses fogos florestais e dos seus impactos ambientais torna-se crucial, especialmente em regiões de elevada incidência. Recentemente, modelos baseados em aprendizagem automática emergiram como promissoras ferramentas para facilitar o entendimento da complexa dinâmica dos incêndios florestais e de outros fenómenos naturais. Estas técnicas abrangem modelos visão computacional capazes de representar a geometria de objetos de interesse, e modelos capazes de simular a evolução de fenómenos espaçotemporais. No entanto, tipicamente carece-se de conjuntos de dados anotados de dimensões e qualidade significativas. No entanto, conjuntos de dados que capturam a evolução em tempo real de área ardida são escassos. Esta dissertação propõe três contribuições principais: (i) um novo conjunto de dados de incêndios florestais para a segmentação semântica de áreas ardida; (ii) ferramentas para validação e teste de modelos de segmentação semântica automática de área ardida no contexto de incêndios florestais, (iii) um modelo Autocodificador para interpolação espaçotemporal capaz de representar fenómenos do mundo real, como a evolução de áreas ardida em incêndios florestais. Descrevemos detalhadamente o processo de amostragem, anotação manual e validação de um novo conjunto de dados, proveniente de vídeos de fogo controlado capturados por drone no Norte de Portugal, o qual disponibilizamos num repositório de acesso livre. Adicionalmente, propomos métricas específicas para teste e validação de polígonos gerados por modelos automáticos de segmentação. Com base no conjunto de dados BurnedAreaUAV, avaliamos modelos de segmentação automática utilizando a arquitetura totalmente convolucional U-Net, considerando métricas de similaridade geométrica e consistência temporal dos polígonos gerados. Para a interpolação espaçotemporal dos polígonos de área ardida, propomos aplicar um modelo Autocodificador Variacional Condicional (C-VAE) e investigamos as suas capacidades para gerar representações contínuas da evolução espaçotemporal de regiões em movimento. Realizamos subamostragem das amostras do conjunto de dados e aplicamos o modelo C-VAE para gerar representações de regiões intermédias, comparando-o com outros algoritmos de interpolação da literatura. Avaliamos o desempenho desses métodos comparando as suas interpolações com dados de referência do conjunto de dados BurnedAreaUAV e com regiões geradas por um modelo de segmentação automática de arquitetura U-Net. Aferimos a qualidade dos polígonos gerados considerando métricas de similaridade geométrica e de consistência temporal. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências O conjunto de dados curado que criamos, denominado BurnedAreaUAV, preenche uma lacuna e constitui uma ferramenta válida para investigações futuras. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências. No que respeita à abordagem baseada num C-VAE proposta para interpolação espaçotemporal, demonstramos que apresenta resultados competitivos em termos de métricas de similaridade geométrica, mas consistência temporal superior aos demais. As nossas experiências sugerem que os modelos C-VAE podem representar uma alternativa viável para modelar a evolução espaçotemporal de regiões móveis 2D. O código, artigos, vídeos e documentação adicional relativos a esta dissertação podem ser consultados neste endereço: https://eesdatalab.ipleiria.pt/.
- CASE ID DETECTION IN UNLABEL LED EVENT LOGS FOR PROCESS MININGPublication . Vicente, André Alexandre dos Santos; Rijo, Rui Pedro Charters Lopes; Martinho, Ricardo Filipe Gonçalves; Grilo, Carlos Fernando de AlmeidaIn the realm of data science, event logs serve as valuable sources of information, capturing sequences of events or activities in various processes. However, when dealing with unlabelled event logs, the absence of a designated Case ID column poses a critical challenge, hindering the understanding of relationships and dependencies among events within a case or process. Motivated by the increasing adoption of data-driven decision-making and the need for efficient data analysis techniques, this master’s project presents the "Case ID Column Identification Library" project. This library aims to streamline data preprocessing and enhance the efficiency of subsequent data analysis tasks by automatically identifying the Case ID column in unlabelled event logs. The project’s objective is to develop a versatile and user-friendly library that incorporates multiple methods, including a Convolutional Neural Network (CNN) and a parameterizable heuristic approach, to accurately identify the Case ID column. By offering flexibility to users, they can choose individual methods or a combination of methods based on their specific requirements, along with adjusting heuristic-based formula coefficients and settings for fine-tuning the identification process. This report presents a comprehensive exploration of related work, methodology, data understanding, methods for Case ID column identification, software library development, and experimental results. The results demonstrate the effectiveness of the proposed methods and their implications for decision support systems.
- Characterization of the lifestyle and well-being of students from the Polytechnic of LeiriaPublication . Santos, Daniel Augusto Bertoldo; Santos, Rui Filipe Vargas de Sousa; Ferreira, Susana Raquel CarvalhoEntering higher education marks a significant juncture in a student’s life. It often involves a shift towards independence, characterized by a distancing from family and friends, increased responsibilities, and greater autonomy in decision-making. These changes can influence well-being and various aspects of lifestyle, such as dietary habits, exercise routines, alcohol and drug use, and sexual behavior. Despite the initial excitement, this transition may also induce stress and anxiety. Academic demands, including grades, exams, and deadlines, as well as the newfound responsibilities of managing one’s schedule, finances, and social relationships, all affect the well-being. Hence, several studies recently conducted on college students have highlighted the importance of monitoring their well-being, especially since several reports have indicated a significant increase in mental health issues among college students, such as depression and anxiety. In particular, the Short Multidimensional Inventory Lifestyle Evaluation (SMILE), developed in 2020, is a 43-item self-rated questionnaire consisting of 7 domains, allowing a multidimensional evaluation of a (healthy) lifestyle. Within this context, a web survey was conducted among students at the Polytechnic of Leiria. This survey collected socio-demographic data, SMILE scores and clinical variables data, including screening for depression and anxiety. The key insights gleaned from the statistical analysis of the obtained data are summarized, particularly focusing on describing lifestyle and well-being, discerning differences between categories, and validating the survey instrument. Two supervised learning classification methodologies (logistic regression and decision trees) were applied to identify depression and anxiety issues based on responses to the survey. The reliability of these classifications were carry out using confusion matrix, accuracy, sensitivity, specificity, predictive values, and the area under the ROC curve in a test sample. The results reveal that lower SMILE scores are associated with positive screening of depression/anxiety in higher education students, despite the reliability appears insufficient to confidently recommend its use for screening depression and/or anxiety disorders. However, it enables the characterization of students’ lifestyles, the assessment of their well-being levels, and, consequently, the identification of potential mental health issues.
- Comparação do desempenho de metodologias de classificação sexual baseada em critérios métricos craniomandibulares em ortopantomografias para Identificação ForensePublication . Alves, João Ricardo Gregório; Santos, Rui Filipe Vargas de Sousa; Pereira, Cristiana PalmelaAs estruturas ósseas craniomandibulares, por serem mais resistentes aos processos de tafonomia, são relevantes na diagnose sexual de esqueletos adultos. Este passo é primordial na vertente reconstrutiva de um cadáver não identificado. Assim, com base numa amostra obtida por estudantes da Faculdade de Medicina Dentária da Universidade de Lisboa e através de um conjunto de medições efetuadas em ortopantomografias (radiografias panorâmicas), neste trabalho é avaliado o desempenho de diferentes metodologias de classificação do sexo. Algumas das metodologias avaliadas são baseadas nas medições realizadas, como a regressão logística, a analise discriminante, os k-vizinhos mais próximos, entre outras. É igualmente avaliada a aplicação de redes neuronais pré-treinadas, como a VGG16, a RESNET-50 e a INCEPTION V-3, que concretizam a classificação diretamente das ortopantomografias. A amostra utilizada foi aleatoriamente dividida em 80 por cento para a estimação dos parâmetros de cada metodologia (treino) e as restantes 20 por cento para avaliação do desempenho (teste). A comparação do desempenho foi baseada na matriz de confusão e medidas associadas (acurácia, sensibilidade, especificidade, valores preditivos e F-score) e na área sob a curva ROC.
- DEEP LEARNING PARA RECONHECIMENTO DE FONEMAS CONCATENADOSPublication . Costa, Pedro Silva Varela; Pereira, João da SilvaEsta dissertação teve como objetivo criar um modelo capaz de classificar fonemas em português, utilizando técnicas avançadas de Deep Learning. Um fonema é a menor unidade de som na linguagem, e a sua correta identificação é essencial para a compreensão da fala. Ao focar na classificação de fonemas, em vez de palavras inteiras, este projeto busca superar desafios relacionados a variações de sotaques ou deficiências na fala, permitindo um reconhecimento mais preciso e inclusivo. Foram exploradas várias técnicas de Deep Learning, que foram aplicadas na análise de Mel-Espectrogramas — representações visuais das frequências dos sons ao longo do tempo. Esses espectrogramas serviram como base para o treino do modelo, permitindo que ele classificasse fonemas com boa precisão em testes de validação. No entanto, o desempenho do modelo foi inferior ao esperado quando testado em novos dados e amostras de áudio, destacando a necessidade de melhorias na sua robustez e capacidade de generalização para diferentes contextos linguísticos.
- Gestão Inteligente de Despesas de CasaPublication . Silva, Mickael Vieira da; Bernardino, Eugénia Moreira; Bernardino, Anabela MoreiraO presente relatório é parte integrante do projeto realizado no âmbito da Unidade Curricular (UC) Dissertação/Projeto/Estágio do Mestrado em Ciência de Dados, lecionado na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria. O objetivo deste relatório é descrever todo o trabalho desenvolvido ao longo do projeto. O projeto visa oferecer uma solução a um problema real através de técnicas utilizadas em Business Intelligence – uma das grandes áreas da Ciência de Dados que tem muito ênfase neste Mestrado. O objetivo deste projeto é responder a várias perguntas que geralmente ficam sem resposta aquando a elaboração de orçamentos familiares, como por exemplo: “quanto dinheiro gastamos nas compras dos supermercados?”, “em que categorias de produto se despendeu mais dinheiro?”, ou “qual é a loja mais cara para os produtos comprados com mais frequência?”. O projeto iniciou-se com a construção de uma Base de Dados (BD) SQL de raiz, o que incluiu a elaboração do dicionário de dados, do modelo conceptual (diagrama de entidade e relacionamento) e do modelo lógico. Esta BD foi de seguida preenchida com dados que foram extraídos a partir de faturas eletrónicas emitidas por várias lojas da cadeia de supermercados Continente, faturas essas datadas de 2019 a 2024. Foi necessário criar vários algoritmos com a linguagem de programação Python para conseguir recolher as faturas que se encontravam num servidor de e-mail, extrair dessas faturas os dados relevantes e introduzir os mesmos na BD, isto tudo de forma automática. Outras faturas referentes a outras lojas foram introduzidas manualmente através de queries SQL. A partir da BD já preenchida, foi feito um estudo para a elaboração de um Data Warehouse (DW) igualmente de raiz, incluindo a conceção do modelo dimensional, criação das tabelas e automatização do processo ETL (Extract, Transform and Load). Por fim, foram elaborados vários dashboards. Os gráficos e as tabelas desses dashboards são gerados diretamente a partir dos dados que foram carregados no DW, o que permite analisar sob diversas formas as despesas obtidas com base nas faturas disponíveis.
- Health literacy of the Leiria Polytechnic AcademiaPublication . Ascenso, Rita Margarida Teixeira; Dias, Sara Alexandra da Fonseca Marques Simões; Luís, Luís Francisco Soares; Gonçalves, Dulce Cristina dos Santos IriaLiteracy spans from economic, and financial to digital and information literacy, environmental and environmental sustainability and energy, and statistics literacy to health literacy. Health literacy (HL) has several definitions and numerous HL assessment tools. World Health Organization (WHO) has the 1998 Health Promotion Glossary and defines HL; “Health literacy implies the achievement of a level of knowledge, personal skills and confidence to take action to improve personal and community health by changing personal lifestyles and living conditions”. Several systematic reviews on HL identified tools for HL assessment, namely: Short Assessment of Health Literacy (SAHL) questionnaire and the European Health Literacy Survey with 47 questions (HLS-EU-Q47), with 16 questions (HLS-EU-Q16) , and with only 6 questions (HLS-EU-Q6). These have already been translated into Portuguese and used to assess HL since 2017. In a study published in 2022, Pedro et. al. described that almost half of higher education students in Portugal had inadequate or problematic health literacy levels, with no significant differences between first and last-year students but variations among health-related courses. Data revealed that HL tends to be adequate or excellent among those students with health-related degrees. Limited HL is confirmed at university and higher education students. Is it true in the Polytechnic of Leiria academia? This work follows the CRISP-DM methodology, used for data mining, to perform the exploratory analysis of existing data. Data came from the survey applied to the academia of the Polytechnic of Leiria. HLS-EU-Q16 was applied between 8th December 2020 and 26th March 2021 and saved. Data mining was proposed as a dissertation in the first edition of Data Science Masters. The objectives to be fulfilled by executing the work, started with a Literature review, from a perspective of business understanding and text mining was used. Dataset characteristics were deeply analysed, starting from 431 survey participants. After the whole sample analysis, data mining for students’ subset was performed. Classification analysis and predictive data analysis were performed to achieve School classification based on HL index.
- «
- 1 (current)
- 2
- 3
- »