Repository logo
 

ESTG - Mestrado em Ciência de Dados

Permanent URI for this collection

Browse

Recent Submissions

Now showing 1 - 10 of 23
  • Health literacy of the Leiria Polytechnic Academia
    Publication . Ascenso, Rita Margarida Teixeira; Dias, Sara Alexandra da Fonseca Marques Simões; Luís, Luís Francisco Soares; Gonçalves, Dulce Cristina dos Santos Iria
    Literacy spans from economic, and financial to digital and information literacy, environmental and environmental sustainability and energy, and statistics literacy to health literacy. Health literacy (HL) has several definitions and numerous HL assessment tools. World Health Organization (WHO) has the 1998 Health Promotion Glossary and defines HL; “Health literacy implies the achievement of a level of knowledge, personal skills and confidence to take action to improve personal and community health by changing personal lifestyles and living conditions”. Several systematic reviews on HL identified tools for HL assessment, namely: Short Assessment of Health Literacy (SAHL) questionnaire and the European Health Literacy Survey with 47 questions (HLS-EU-Q47), with 16 questions (HLS-EU-Q16) , and with only 6 questions (HLS-EU-Q6). These have already been translated into Portuguese and used to assess HL since 2017. In a study published in 2022, Pedro et. al. described that almost half of higher education students in Portugal had inadequate or problematic health literacy levels, with no significant differences between first and last-year students but variations among health-related courses. Data revealed that HL tends to be adequate or excellent among those students with health-related degrees. Limited HL is confirmed at university and higher education students. Is it true in the Polytechnic of Leiria academia? This work follows the CRISP-DM methodology, used for data mining, to perform the exploratory analysis of existing data. Data came from the survey applied to the academia of the Polytechnic of Leiria. HLS-EU-Q16 was applied between 8th December 2020 and 26th March 2021 and saved. Data mining was proposed as a dissertation in the first edition of Data Science Masters. The objectives to be fulfilled by executing the work, started with a Literature review, from a perspective of business understanding and text mining was used. Dataset characteristics were deeply analysed, starting from 431 survey participants. After the whole sample analysis, data mining for students’ subset was performed. Classification analysis and predictive data analysis were performed to achieve School classification based on HL index.
  • Visualização de Dados e Data Storytelling: Estudo de Caso
    Publication . Paiva, João Francisco Soares; Matias, Rosa Isabel Alves Cordeiro; Piedade, Maria Beatriz Guerra
    Desde os primórdios da civilização, a humanidade lida com dados de diferentes naturezas, porém os avanços computacionais provocaram tanto a explosão de informação, como o processo de a tornar interpretável num determinado contexto. Com o desenvolvimento de um volume cada vez maior de dados, surge a necessidade de desenvolver e aprimorar técnicas e ferramentas capazes de lidar com o armazenamento, processamento e apresentação da informação proveniente destas fontes. Dando resposta a estes desafios, as ferramentas gráficas evoluíram também para analisar estes dados massivos, tornando a sua leitura mais amigável. Estas ferramentas são capazes de facilitar a deteção de anomalias nos dados, relacionamentos, padrões ou tendências, tornando os pontos a avaliar mais evidentes nos gráficos selecionados. Uma das problemáticas mais relevantes do estudo da visualização de informação recai sobre a escolha das representações gráficas adequadas para cada tipo de dados. Associar dados a elementos gráficos e a uma localização no espaço pode ser uma tarefa difícil que requer conhecimentos em tipos de dados, análise de dados e representações gráficas. Também o storytelling se apresenta como um tema bastante preponderante na questão da apresentação de informação proveniente dos dados recolhidos, entrando em ação, frequentemente, a par da temática da visualização de dados. Como objetivo geral deste estudo, pretende-se o desenvolvimento de painéis sobre a forma de dashboards que sejam capazes de transmitir a informação presente numa base de dados considerada previamente (projeto UniBench) de forma que o utilizador final seja capaz de interpretar a informação apresentada e responder a um conjunto de questões definidas a priori. Durante este processo serão tidas em conta as técnicas de visualização adequadas para cada caso específico e, consequentemente, as técnicas de storytelling mais adequadas para contar a história desses dados. No final do estudo foi possível inferir que os utilizadores dão primazia à simplicidade de utilização e navegação, sendo este um fator decisivo na sua escolha por determinada plataforma ou dashboard. É essencial que os tópicos mais relevantes sejam de fácil acesso e que se apresentem bem visíveis, devendo ser desenvolvido um esquema de navegação conciso, cujo acesso aos dados seja coerente e que ocorra mediante processos semelhantes, de forma que o utilizador consiga identificar com facilidade a forma de resgatar determinados dados. Para finalizar, importa ressalvar que a história de dados deve sustentar os elementos visuais conferindo uma fonte adicional de suporte à navegação pelos diferentes painéis, complementando a informação apresentada com a interpretação do próprio utilizador.
  • Time is Mining: Applying Statistical and Neural Networks Models to Forecast Bitcoin Price
    Publication . Peixoto, João Filipe Rodrigues; Martins, José Maria Gouveia; Grilo, Carlos Fernando de Almeida
    The volatile nature of Bitcoin, the most prominent cryptocurrency, presents a significant challenge for accurate price forecasting. Given this volatility, finding a reliable forecasting model is crucial for making informed decisions in trading, investing, and risk management. This study explores various methodologies for predicting Bitcoin prices, focusing on both traditional statistical models and state-of-the-art neural networks. Two primary approaches were examined: directly modelling the price and predicting daily returns, which were later converted into price predictions. Both methods underwent an extensive hyperparameter optimization process to ensure optimal performance, evaluated using metrics such as mean absolute error (MAE), mean squared error (MSE), root mean squared error (RMSE), mean absolute percentage error (MAPE), and R-squared (R²). The return-to-price transformation approach led to significant improvements in older models like LSTM and GRU, enhancing accuracy and reducing the inherent randomness within neural networks, thereby increasing stability. PatchTST, when modelling the price directly, achieved the best results with an MAE of $709.91 and a MAPE of 1.702%, although all models produced similar outcomes. Despite low error rates, the models struggled to capture daily price spikes, particularly when predicting returns, suggesting limitations in forecasting significant price movements based solely on historical prices. This work concludes by identifying limitations and providing recommendations for future research, particularly in integrating external variables and exploring statistical models designed to predict volatility, such as GARCH, which could potentially offer deeper insights into sharp price fluctuations. Additionally, investigating the performance of the tested models in multi-step forecasting scenarios and the impact of adjusting the time series' granularity to smooth out price volatility warrants further exploration.
  • Modelos Estatísticos e Redes Neuronais na Previsão do Índice da Bolsa Brasileira
    Publication . Santos, Elysiario Virginio dos; Martins, José Maria Gouveia; Grilo, Carlos Fernando de Almeida
    Os estudos na área de tecnologia para investimentos têm sido objeto de interesse no meio académico e nos negócios. A facilidade em obter um histórico de dados em maior volume, velocidade e variedade é um dos principais impulsionadores dos avanços nesta área. O advento da inteligência artificial levou os investigadores a explorarem modelos preditivos para compor a inteligência de negócios, mostrando grande potencial de apoio nas decisões humanas, que podem ser melhor suportadas em estudos mais elaborados e desenvolvidos recentemente. Esta dissertação aborda a previsão dos valores da Bolsa de Valores Brasileira, centrando-se no Ibovespa, que representa as principais ações negociadas na B3. O estudo tem como objetivo prever os valores de fecho e o retorno do índice através da aplicação de técnicas de aprendizagem automática, comparando os resultados obtidos com modelos estatísticos tradicionais. A investigação envolve diferentes métodos, procurando identificar quais abordagens oferecem melhores resultados preditivos. Estes resultados visam contribuir para uma compreensão mais aprofundada das dinâmicas do mercado financeiro brasileiro, podendo ser úteis tanto para o meio académico quanto para profissionais do setor financeiro interessados em realizar investimentos na área financeira. Para a realização do projeto, foram testados modelos estatísticos e modelos baseados em redes neuronais com o intuito de comparar os resultados de diferentes abordagens preditivas. Entre os modelos estatísticos testados estão os modelos ARIMA para valores de fecho e os modelos GARCH e E-GARCH para retornos. Para os testes com redes neuronais, foram escolhidas as redes Long Short- Term Memory (LSTM) e as Gated Recurrent Unit (GRU), as redes Multilayer Perceptron (MLP) e o Neural Basis Expansion Analysis Time Series Forecasting (N-BEATS), todas com diversas parametrizações. Após diversos testes, atingiu-se uma estabilidade com Mean Absolute Percentage Error (MAPE) próximo de 1% para os valores de fecho na maioria dos modelos.
  • INFLUENCE OF PARENTING STYLES AND HORMONAL LEVELS IN THE DEVELOPMENT OF NARCISSISM: A META-ANALYSIS
    Publication . Reis, Ariana Isabel Nogueira dos; Santos, Rui Filipe Vargas de Sousa; Martins, João Paulo Oliveira
    This meta-analysis explores the influence of parenting styles and hormone levels on the effect of narcissistic traits. The review focuses on the four parenting styles identified by Baumrind – authoritative, authoritarian, permissive, and neglectful – highlighting how each contributes to either fostering or mitigating narcissistic tendencies. Authoritarian parenting, marked by strict rules and limited emotional warmth, and permissive parenting, characterized by leniency and lack of boundaries, are linked to the development of inflated self-images and entitlement. Meanwhile, neglectful parenting, with its emotional detachment and lack of guidance, often leaves children struggling with controlling their emotions, coping effectively, and facing difficulties in maintaining and nurturing social relationships. Authoritative parenting characterized by developing a close, nurturing relationship with the children drives them confident, responsible, and able to self-regulate. The analysis also explores the role of testosterone and cortisol levels on narcissistic behaviors through traits like dominance, aggression, and stress responses. By integrating both environmental and biological perspectives, this meta-analysis provides a comprehensive understanding of how parenting and hormonal factors together influence the emergence of narcissism.
  • Plataforma de Gestão de Processos do Município de Pombal - Criação de Dashboards em Power BI
    Publication . Moraes, Yan Moreira; Salvador, Nuno Filipe Pereira; Matias, Rosa Isabel Alves Cordeiro
    No Município de Pombal há um desconhecimento relativo à eficiência na gestão dos seus processos, em algumas áreas da sua operação. Os gestores enfrentam dificuldades na análise detalhada e na otimização de processos, desconhecendo qual é a real qualidade e agilidade no atendimento à população. Neste contexto este trabalho, realiza um estudo da literatura direcionada para o tema do Business Intelligence e aplica esses conceitos para melhorar determinados processos no Município de Pombal. Na forma de aplicação prática, este projeto centra-se na conceção, desenvolvimento e avaliação de um sistema de Business Intelligence para otimizar a gestão de processos no Município de Pombal. O resultado do projeto são um conjunto de dashboards interativos com indicadores considerados e identificados como pertinentes de forma a identificar o desempenho na realização e gestão de processos. Neste âmbito é realizado o tratamento de dados brutos sendo realizada a extração, transformação e carregamento dos mesmos no repositório de suporte dedicado. As áreas nucleares deste estudo, associadas ao Município de Pombal e das quais se pretendem obter insights estão associadas aos processos de Tickets de Informática, Educação Pré-Escolar (EPE-Educação), Divisão de Gestão de Conservação de Edifícios e Equipamentos Municipais (DGCEEM – Manutenção) e Ocorrências Municipais. Os dados de cada uma destas áreas são trabalhados identificando padrões e tendências proporcionando possibilidades de melhoria. Ao empregar estratégias de Business Intelligence, este projeto não apenas contribui para a modernização de processos do Município, mas também permite a extrapolação para outras entidades públicas semelhantes e interessadas em aprimorar a sua eficiência operacional.
  • APLICAÇÃO DE RAG EM MODELOS LLM COM BASES DE DADOS VETORIAIS
    Publication . Marques, Ruben Alexandre Dias; Malheiro, Ricardo Manuel da Silva; Piedade, Maria Beatriz Guerra da
    A Geração Aumentada por Recuperação (RAG) é uma estrutura que permite aos Modelos de Linguagem de Grande Escala (LLMs) melhorar a precisão e a relevância de respostas dos modelos, através de integração de bases de conhecimento externas. Neste trabalho, apresenta-se a implementação de um sistema RAG integrado com LLMs e bases de dados vetoriais (VecDBS) de forma a otimizar a utilização de Inteligência Artificial Generativa em áreas complexas do ponto de vista de conhecimento técnico, como a certificação energética em Portugal. Realizou-se extração de conhecimento através do manual SCE da ADENE, entidade reguladora, e construiu-se a estratégia do sistema RAG integrado com LLMs, implementado o modelo Gemma 7B e a base de dados vetorial ChromaDB, dando acesso aos profissionais da área de terem informações relativamente a processos, cálculos e elementos legislativos, de forma muito mais eficiente, eliminando o tempo de pesquisa associada a este processo de certificação. Avaliou-se o projeto através de uma análise comparativa entre o sistema RAG e os métodos tradicionais, focando na precisão, relevância e clareza das respostas geradas. As metodologias de avaliação empíricas demonstram que o sistema melhora significativamente as capacidades de resposta a este tema complexo, dando mais clareza, integridade e relevância na informação gerada e aumentando a eficiência dos profissionais da área. Simultaneamente, os resultados demonstraram ainda uma redução de 92,5% nos custos para preparação e utilização do sistema, em comparação com as abordagens de fine-tuning tradicionais, e uma melhoria consistente na precisão e relevância das respostas, reduzindo ainda os custos associados, sendo eles financeiros, computacionais e temporais.
  • Metodologias de Classificação Baseadas em Testes Compostos
    Publication . Catarino, André Filipe Almeida; Santos, Rui Filipe Vargas de Sousa; Felgueiras, Miguel Martins
    A crescente procura por eficiência em testes diagnósticos, especialmente em contextos de baixa prevalência de doenças em populações de elevada dimensão, destaca a necessidade de metodologias que otimizem recursos sem comprometer a precisão do diagnóstico. Este estudo tem como objetivo a comparação de diferentes metodologias de classificação baseadas em testes compostos (metodologia de Dorfman, metodologia hierárquica com 4 etapas e metodologia não hierárquica com e sem master pool), que permitem a redução significativa do número de testes necessários ao diagnóstico de toda a população através do agrupamento de amostras. O foco deste estudo está principalmente na eficiência/ custo relativo (quantidade de testes necessários para identificar cada indivíduo) e a probabilidade de existirem erros de classificação (medida pela sensibilidade e especificidade de cada metodologia). Recorrendo a simulações computacionais e análises estatísticas em linguagem R, esta pesquisa avalia a sensibilidade, especificidade, eficiência e custo-benefício de forma a comparar as diferentes metodologias. Nas simulações foram considerados apenas testes qualitativos, não sendo, por este motivo, considerado o efeito de diluição, ou seja, considerou-se que a fiabilidade do teste composto é igual à do teste individual. Os resultados demonstram que as metodologias de classificação baseadas em testes compostos oferecem uma alternativa viável e eficaz, reduzindo custos e tempo de resposta sem sacrificar de forma significativa a precisão, apesar da escolha da metodologia a utilizar ter de ser feita com base no objetivo que se pretende alcançar e no contexto populacional em estudo. Deste modo, este estudo contribui para a literatura existente ao fornecer uma análise detalhada sobre a implementação prática e as vantagens e desvantagens das metodologias de classificação baseadas em testes compostos, propondo melhorias para sua aplicação em programas de saúde pública global.
  • DEEP LEARNING PARA RECONHECIMENTO DE FONEMAS CONCATENADOS
    Publication . Costa, Pedro Silva Varela; Pereira, João da Silva
    Esta dissertação teve como objetivo criar um modelo capaz de classificar fonemas em português, utilizando técnicas avançadas de Deep Learning. Um fonema é a menor unidade de som na linguagem, e a sua correta identificação é essencial para a compreensão da fala. Ao focar na classificação de fonemas, em vez de palavras inteiras, este projeto busca superar desafios relacionados a variações de sotaques ou deficiências na fala, permitindo um reconhecimento mais preciso e inclusivo. Foram exploradas várias técnicas de Deep Learning, que foram aplicadas na análise de Mel-Espectrogramas — representações visuais das frequências dos sons ao longo do tempo. Esses espectrogramas serviram como base para o treino do modelo, permitindo que ele classificasse fonemas com boa precisão em testes de validação. No entanto, o desempenho do modelo foi inferior ao esperado quando testado em novos dados e amostras de áudio, destacando a necessidade de melhorias na sua robustez e capacidade de generalização para diferentes contextos linguísticos.
  • PREVISÃO DE CURTO PRAZO PARA CONSUMO DE ENERGIA EM CAMPI UNIVERSITÁRIOS
    Publication . Oliveira, Paulo Roberto da Silva; Grilo, Carlos Fernando de Almeida; Sousa, João Miguel Charrua de; Távora, Luís Miguel de Oliveira Pegado de Noronha e
    Diversas instituições de ensino têm vindo a instalar medidores inteligentes em diferentes edifícios dos seus campi, permitindo detalhar o consumo quase em tempo real, dotando essas organizações de significativos volumes de dados com valiosa informação do ponto de vista estratégico. O consumo de energia em campus universitário é impulsionado principalmente por vários fatores, como: ocupação, horário de funcionamento, tipo da edificação, idade da edificação, tipologia de equipamento instalado e condições climatéricas. Há ainda categorias diferentes: edifícios académicos, administrativos e edifícios residenciais. Nesse contexto, modelos estatísticos e modelos de aprendizagem computacional supervisionados desempenham um papel essencial, uma vez que permitem aplicar técnicas de previsão baseadas em dados históricos. Uma boa previsão do consumo de energia elétrica e de gás poderá viabilizar: a) O dimensionamento mais rigoroso de sistemas de produção fotovoltaica em regime de autoconsumo, procurando compatibilizar o consumo com a disponibilidade de produção fotovoltaica; b) Uma estimativa de encargos futuros com a energia elétrica; c) A adoção de planos de gestão de procura de energia, tentando induzir uma maior flexibilidade da procura em períodos mais críticos ou com maiores penalizações tarifárias. Portanto, a proposta deste trabalho assenta na modelação com base no comportamento de dados históricos e na otimização de parâmetros de redes neuronais para obter o mínimo de erro possível na previsão do consumo de energia elétrica do dia seguinte para o Campus 2 da Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, incluindo a análise do desempenho dos modelos explorados. Foram testados diversos modelos estatísticos SARIMA/SARIMAX com validação cruzada, e modelos de Inteligência Artificial (IA), nomeadamente, k-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost), redes neuronais, em particular, Multilayer Perceptron (MLP), redes Long Short-Term Memory (LSTM) e redes Gated Recurrent Unit (GRU) com diversas parametrizações e obtidos resultados com cada tipo de modelo, sendo visível que num significativo número deles foi possível obter um Mean Absolute Percentage Error (MAPE) abaixo dos 8%.