ESTG - Mestrado em Ciência de Dados
Permanent URI for this collection
Browse
Recent Submissions
- INFLUENCE OF PARENTING STYLES AND HORMONAL LEVELS IN THE DEVELOPMENT OF NARCISSISM: A META-ANALYSISPublication . Reis, Ariana Isabel Nogueira dos; Santos, Rui Filipe Vargas de Sousa; Martins, João Paulo OliveiraThis meta-analysis explores the influence of parenting styles and hormone levels on the effect of narcissistic traits. The review focuses on the four parenting styles identified by Baumrind – authoritative, authoritarian, permissive, and neglectful – highlighting how each contributes to either fostering or mitigating narcissistic tendencies. Authoritarian parenting, marked by strict rules and limited emotional warmth, and permissive parenting, characterized by leniency and lack of boundaries, are linked to the development of inflated self-images and entitlement. Meanwhile, neglectful parenting, with its emotional detachment and lack of guidance, often leaves children struggling with controlling their emotions, coping effectively, and facing difficulties in maintaining and nurturing social relationships. Authoritative parenting characterized by developing a close, nurturing relationship with the children drives them confident, responsible, and able to self-regulate. The analysis also explores the role of testosterone and cortisol levels on narcissistic behaviors through traits like dominance, aggression, and stress responses. By integrating both environmental and biological perspectives, this meta-analysis provides a comprehensive understanding of how parenting and hormonal factors together influence the emergence of narcissism.
- Plataforma de Gestão de Processos do Município de Pombal - Criação de Dashboards em Power BIPublication . Moraes, Yan Moreira; Salvador, Nuno Filipe Pereira; Matias, Rosa Isabel Alves CordeiroNo Município de Pombal há um desconhecimento relativo à eficiência na gestão dos seus processos, em algumas áreas da sua operação. Os gestores enfrentam dificuldades na análise detalhada e na otimização de processos, desconhecendo qual é a real qualidade e agilidade no atendimento à população. Neste contexto este trabalho, realiza um estudo da literatura direcionada para o tema do Business Intelligence e aplica esses conceitos para melhorar determinados processos no Município de Pombal. Na forma de aplicação prática, este projeto centra-se na conceção, desenvolvimento e avaliação de um sistema de Business Intelligence para otimizar a gestão de processos no Município de Pombal. O resultado do projeto são um conjunto de dashboards interativos com indicadores considerados e identificados como pertinentes de forma a identificar o desempenho na realização e gestão de processos. Neste âmbito é realizado o tratamento de dados brutos sendo realizada a extração, transformação e carregamento dos mesmos no repositório de suporte dedicado. As áreas nucleares deste estudo, associadas ao Município de Pombal e das quais se pretendem obter insights estão associadas aos processos de Tickets de Informática, Educação Pré-Escolar (EPE-Educação), Divisão de Gestão de Conservação de Edifícios e Equipamentos Municipais (DGCEEM – Manutenção) e Ocorrências Municipais. Os dados de cada uma destas áreas são trabalhados identificando padrões e tendências proporcionando possibilidades de melhoria. Ao empregar estratégias de Business Intelligence, este projeto não apenas contribui para a modernização de processos do Município, mas também permite a extrapolação para outras entidades públicas semelhantes e interessadas em aprimorar a sua eficiência operacional.
- APLICAÇÃO DE RAG EM MODELOS LLM COM BASES DE DADOS VETORIAISPublication . Marques, Ruben Alexandre Dias; Malheiro, Ricardo Manuel da Silva; Piedade, Maria Beatriz Guerra daA Geração Aumentada por Recuperação (RAG) é uma estrutura que permite aos Modelos de Linguagem de Grande Escala (LLMs) melhorar a precisão e a relevância de respostas dos modelos, através de integração de bases de conhecimento externas. Neste trabalho, apresenta-se a implementação de um sistema RAG integrado com LLMs e bases de dados vetoriais (VecDBS) de forma a otimizar a utilização de Inteligência Artificial Generativa em áreas complexas do ponto de vista de conhecimento técnico, como a certificação energética em Portugal. Realizou-se extração de conhecimento através do manual SCE da ADENE, entidade reguladora, e construiu-se a estratégia do sistema RAG integrado com LLMs, implementado o modelo Gemma 7B e a base de dados vetorial ChromaDB, dando acesso aos profissionais da área de terem informações relativamente a processos, cálculos e elementos legislativos, de forma muito mais eficiente, eliminando o tempo de pesquisa associada a este processo de certificação. Avaliou-se o projeto através de uma análise comparativa entre o sistema RAG e os métodos tradicionais, focando na precisão, relevância e clareza das respostas geradas. As metodologias de avaliação empíricas demonstram que o sistema melhora significativamente as capacidades de resposta a este tema complexo, dando mais clareza, integridade e relevância na informação gerada e aumentando a eficiência dos profissionais da área. Simultaneamente, os resultados demonstraram ainda uma redução de 92,5% nos custos para preparação e utilização do sistema, em comparação com as abordagens de fine-tuning tradicionais, e uma melhoria consistente na precisão e relevância das respostas, reduzindo ainda os custos associados, sendo eles financeiros, computacionais e temporais.
- Metodologias de Classificação Baseadas em Testes CompostosPublication . Catarino, André Filipe Almeida; Santos, Rui Filipe Vargas de Sousa; Felgueiras, Miguel MartinsA crescente procura por eficiência em testes diagnósticos, especialmente em contextos de baixa prevalência de doenças em populações de elevada dimensão, destaca a necessidade de metodologias que otimizem recursos sem comprometer a precisão do diagnóstico. Este estudo tem como objetivo a comparação de diferentes metodologias de classificação baseadas em testes compostos (metodologia de Dorfman, metodologia hierárquica com 4 etapas e metodologia não hierárquica com e sem master pool), que permitem a redução significativa do número de testes necessários ao diagnóstico de toda a população através do agrupamento de amostras. O foco deste estudo está principalmente na eficiência/ custo relativo (quantidade de testes necessários para identificar cada indivíduo) e a probabilidade de existirem erros de classificação (medida pela sensibilidade e especificidade de cada metodologia). Recorrendo a simulações computacionais e análises estatísticas em linguagem R, esta pesquisa avalia a sensibilidade, especificidade, eficiência e custo-benefício de forma a comparar as diferentes metodologias. Nas simulações foram considerados apenas testes qualitativos, não sendo, por este motivo, considerado o efeito de diluição, ou seja, considerou-se que a fiabilidade do teste composto é igual à do teste individual. Os resultados demonstram que as metodologias de classificação baseadas em testes compostos oferecem uma alternativa viável e eficaz, reduzindo custos e tempo de resposta sem sacrificar de forma significativa a precisão, apesar da escolha da metodologia a utilizar ter de ser feita com base no objetivo que se pretende alcançar e no contexto populacional em estudo. Deste modo, este estudo contribui para a literatura existente ao fornecer uma análise detalhada sobre a implementação prática e as vantagens e desvantagens das metodologias de classificação baseadas em testes compostos, propondo melhorias para sua aplicação em programas de saúde pública global.
- DEEP LEARNING PARA RECONHECIMENTO DE FONEMAS CONCATENADOSPublication . Costa, Pedro Silva Varela; Pereira, João da SilvaEsta dissertação teve como objetivo criar um modelo capaz de classificar fonemas em português, utilizando técnicas avançadas de Deep Learning. Um fonema é a menor unidade de som na linguagem, e a sua correta identificação é essencial para a compreensão da fala. Ao focar na classificação de fonemas, em vez de palavras inteiras, este projeto busca superar desafios relacionados a variações de sotaques ou deficiências na fala, permitindo um reconhecimento mais preciso e inclusivo. Foram exploradas várias técnicas de Deep Learning, que foram aplicadas na análise de Mel-Espectrogramas — representações visuais das frequências dos sons ao longo do tempo. Esses espectrogramas serviram como base para o treino do modelo, permitindo que ele classificasse fonemas com boa precisão em testes de validação. No entanto, o desempenho do modelo foi inferior ao esperado quando testado em novos dados e amostras de áudio, destacando a necessidade de melhorias na sua robustez e capacidade de generalização para diferentes contextos linguísticos.
- PREVISÃO DE CURTO PRAZO PARA CONSUMO DE ENERGIA EM CAMPI UNIVERSITÁRIOSPublication . Oliveira, Paulo Roberto da Silva; Grilo, Carlos Fernando de Almeida; Sousa, João Miguel Charrua de; Távora, Luís Miguel de Oliveira Pegado de Noronha eDiversas instituições de ensino têm vindo a instalar medidores inteligentes em diferentes edifícios dos seus campi, permitindo detalhar o consumo quase em tempo real, dotando essas organizações de significativos volumes de dados com valiosa informação do ponto de vista estratégico. O consumo de energia em campus universitário é impulsionado principalmente por vários fatores, como: ocupação, horário de funcionamento, tipo da edificação, idade da edificação, tipologia de equipamento instalado e condições climatéricas. Há ainda categorias diferentes: edifícios académicos, administrativos e edifícios residenciais. Nesse contexto, modelos estatísticos e modelos de aprendizagem computacional supervisionados desempenham um papel essencial, uma vez que permitem aplicar técnicas de previsão baseadas em dados históricos. Uma boa previsão do consumo de energia elétrica e de gás poderá viabilizar: a) O dimensionamento mais rigoroso de sistemas de produção fotovoltaica em regime de autoconsumo, procurando compatibilizar o consumo com a disponibilidade de produção fotovoltaica; b) Uma estimativa de encargos futuros com a energia elétrica; c) A adoção de planos de gestão de procura de energia, tentando induzir uma maior flexibilidade da procura em períodos mais críticos ou com maiores penalizações tarifárias. Portanto, a proposta deste trabalho assenta na modelação com base no comportamento de dados históricos e na otimização de parâmetros de redes neuronais para obter o mínimo de erro possível na previsão do consumo de energia elétrica do dia seguinte para o Campus 2 da Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, incluindo a análise do desempenho dos modelos explorados. Foram testados diversos modelos estatísticos SARIMA/SARIMAX com validação cruzada, e modelos de Inteligência Artificial (IA), nomeadamente, k-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost), redes neuronais, em particular, Multilayer Perceptron (MLP), redes Long Short-Term Memory (LSTM) e redes Gated Recurrent Unit (GRU) com diversas parametrizações e obtidos resultados com cada tipo de modelo, sendo visível que num significativo número deles foi possível obter um Mean Absolute Percentage Error (MAPE) abaixo dos 8%.
- Modelling gamified exercise data to support therapeutic monitoring of fraily in older adultsPublication . António, João Miguel Abrantes Marques; Malheiro, Ricardo Manuel da SilvaResearch indicates that video games can provide mental stimulation and stress relief, which may contribute to the well-being of gamers. With the continued growth of the video game industry and its demographic, attempts to evoke similar feelings of enjoyment in non-game environments have been proposed, gradually defining the concept of ’gamification’. Over the last two decades, gamification has shown positive effects on user engagement and participation in tasks across several fields of research, such as education and workplace productivity. In the area of healthcare, specifically in subjects of physical therapy and rehabilitation exercise, the implementation of game design choices and social features is evident in mobile applications and smart devices, however, despite the outlined benefits, the adoption of these strategies by the elderly population faces methodological difficulties that bar its progress. Research highlights a lack of process standardization, the employment of inefficient game concepts, and improper design choices for the referred demographic. In this thesis, the complications associated with the employment of gamification strategies in senior healthcare are explored and discussed, leading up to the proposal of a methodological approach to improving the success of such strategies, through the conception and development of a data mining project applied to a real clinical scenario. The use of this approach has been shown to effectively improve the quality of gamification and aid in making better business decisions based on the underlying data. Moreover, five distinct data models and processes were developed, acting on improving the platform with feedback collection, automated game suggestions and logical patient profiling based on physical factors.
- Characterization of the lifestyle and well-being of students from the Polytechnic of LeiriaPublication . Santos, Daniel Augusto Bertoldo; Santos, Rui Filipe Vargas de Sousa; Ferreira, Susana Raquel CarvalhoEntering higher education marks a significant juncture in a student’s life. It often involves a shift towards independence, characterized by a distancing from family and friends, increased responsibilities, and greater autonomy in decision-making. These changes can influence well-being and various aspects of lifestyle, such as dietary habits, exercise routines, alcohol and drug use, and sexual behavior. Despite the initial excitement, this transition may also induce stress and anxiety. Academic demands, including grades, exams, and deadlines, as well as the newfound responsibilities of managing one’s schedule, finances, and social relationships, all affect the well-being. Hence, several studies recently conducted on college students have highlighted the importance of monitoring their well-being, especially since several reports have indicated a significant increase in mental health issues among college students, such as depression and anxiety. In particular, the Short Multidimensional Inventory Lifestyle Evaluation (SMILE), developed in 2020, is a 43-item self-rated questionnaire consisting of 7 domains, allowing a multidimensional evaluation of a (healthy) lifestyle. Within this context, a web survey was conducted among students at the Polytechnic of Leiria. This survey collected socio-demographic data, SMILE scores and clinical variables data, including screening for depression and anxiety. The key insights gleaned from the statistical analysis of the obtained data are summarized, particularly focusing on describing lifestyle and well-being, discerning differences between categories, and validating the survey instrument. Two supervised learning classification methodologies (logistic regression and decision trees) were applied to identify depression and anxiety issues based on responses to the survey. The reliability of these classifications were carry out using confusion matrix, accuracy, sensitivity, specificity, predictive values, and the area under the ROC curve in a test sample. The results reveal that lower SMILE scores are associated with positive screening of depression/anxiety in higher education students, despite the reliability appears insufficient to confidently recommend its use for screening depression and/or anxiety disorders. However, it enables the characterization of students’ lifestyles, the assessment of their well-being levels, and, consequently, the identification of potential mental health issues.
- Gestão Inteligente de Despesas de CasaPublication . Silva, Mickael Vieira da; Bernardino, Eugénia Moreira; Bernardino, Anabela MoreiraO presente relatório é parte integrante do projeto realizado no âmbito da Unidade Curricular (UC) Dissertação/Projeto/Estágio do Mestrado em Ciência de Dados, lecionado na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria. O objetivo deste relatório é descrever todo o trabalho desenvolvido ao longo do projeto. O projeto visa oferecer uma solução a um problema real através de técnicas utilizadas em Business Intelligence – uma das grandes áreas da Ciência de Dados que tem muito ênfase neste Mestrado. O objetivo deste projeto é responder a várias perguntas que geralmente ficam sem resposta aquando a elaboração de orçamentos familiares, como por exemplo: “quanto dinheiro gastamos nas compras dos supermercados?”, “em que categorias de produto se despendeu mais dinheiro?”, ou “qual é a loja mais cara para os produtos comprados com mais frequência?”. O projeto iniciou-se com a construção de uma Base de Dados (BD) SQL de raiz, o que incluiu a elaboração do dicionário de dados, do modelo conceptual (diagrama de entidade e relacionamento) e do modelo lógico. Esta BD foi de seguida preenchida com dados que foram extraídos a partir de faturas eletrónicas emitidas por várias lojas da cadeia de supermercados Continente, faturas essas datadas de 2019 a 2024. Foi necessário criar vários algoritmos com a linguagem de programação Python para conseguir recolher as faturas que se encontravam num servidor de e-mail, extrair dessas faturas os dados relevantes e introduzir os mesmos na BD, isto tudo de forma automática. Outras faturas referentes a outras lojas foram introduzidas manualmente através de queries SQL. A partir da BD já preenchida, foi feito um estudo para a elaboração de um Data Warehouse (DW) igualmente de raiz, incluindo a conceção do modelo dimensional, criação das tabelas e automatização do processo ETL (Extract, Transform and Load). Por fim, foram elaborados vários dashboards. Os gráficos e as tabelas desses dashboards são gerados diretamente a partir dos dados que foram carregados no DW, o que permite analisar sob diversas formas as despesas obtidas com base nas faturas disponíveis.
- APRENDIZAGEM AUTOMÁTICA COMO SUPORTE ÀS CIÊNCIAS DA TERRAPublication . Ribeiro, Tiago Filipe Rodrigues; Silva, Fernando José Mateus da; Costa, Rogério Luís de CarvalhoOs incêndios florestais acarretam consequências de largo alcance, representando uma ameaça significativa para a vida humana, economia e o meio ambiente. A compreensão da dinâmica desses fogos florestais e dos seus impactos ambientais torna-se crucial, especialmente em regiões de elevada incidência. Recentemente, modelos baseados em aprendizagem automática emergiram como promissoras ferramentas para facilitar o entendimento da complexa dinâmica dos incêndios florestais e de outros fenómenos naturais. Estas técnicas abrangem modelos visão computacional capazes de representar a geometria de objetos de interesse, e modelos capazes de simular a evolução de fenómenos espaçotemporais. No entanto, tipicamente carece-se de conjuntos de dados anotados de dimensões e qualidade significativas. No entanto, conjuntos de dados que capturam a evolução em tempo real de área ardida são escassos. Esta dissertação propõe três contribuições principais: (i) um novo conjunto de dados de incêndios florestais para a segmentação semântica de áreas ardida; (ii) ferramentas para validação e teste de modelos de segmentação semântica automática de área ardida no contexto de incêndios florestais, (iii) um modelo Autocodificador para interpolação espaçotemporal capaz de representar fenómenos do mundo real, como a evolução de áreas ardida em incêndios florestais. Descrevemos detalhadamente o processo de amostragem, anotação manual e validação de um novo conjunto de dados, proveniente de vídeos de fogo controlado capturados por drone no Norte de Portugal, o qual disponibilizamos num repositório de acesso livre. Adicionalmente, propomos métricas específicas para teste e validação de polígonos gerados por modelos automáticos de segmentação. Com base no conjunto de dados BurnedAreaUAV, avaliamos modelos de segmentação automática utilizando a arquitetura totalmente convolucional U-Net, considerando métricas de similaridade geométrica e consistência temporal dos polígonos gerados. Para a interpolação espaçotemporal dos polígonos de área ardida, propomos aplicar um modelo Autocodificador Variacional Condicional (C-VAE) e investigamos as suas capacidades para gerar representações contínuas da evolução espaçotemporal de regiões em movimento. Realizamos subamostragem das amostras do conjunto de dados e aplicamos o modelo C-VAE para gerar representações de regiões intermédias, comparando-o com outros algoritmos de interpolação da literatura. Avaliamos o desempenho desses métodos comparando as suas interpolações com dados de referência do conjunto de dados BurnedAreaUAV e com regiões geradas por um modelo de segmentação automática de arquitetura U-Net. Aferimos a qualidade dos polígonos gerados considerando métricas de similaridade geométrica e de consistência temporal. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências O conjunto de dados curado que criamos, denominado BurnedAreaUAV, preenche uma lacuna e constitui uma ferramenta válida para investigações futuras. O conjunto de dados BurnedAreaUAV e as demais técnicas que propomos são ferramentas importantes que apoiam a avaliação comparativa de modelos de segmentação de área ardida em cenários de incêndios florestais. As técnicas baseadas em aprendizagem profunda que exploramos podem ser consideradas bases de referências. No que respeita à abordagem baseada num C-VAE proposta para interpolação espaçotemporal, demonstramos que apresenta resultados competitivos em termos de métricas de similaridade geométrica, mas consistência temporal superior aos demais. As nossas experiências sugerem que os modelos C-VAE podem representar uma alternativa viável para modelar a evolução espaçotemporal de regiões móveis 2D. O código, artigos, vídeos e documentação adicional relativos a esta dissertação podem ser consultados neste endereço: https://eesdatalab.ipleiria.pt/.