ESTG - Mestrado em Ciência de Dados
Permanent URI for this collection
Browse
Recent Submissions
- Analysing Emotions During Interrogations: A Case StudyPublication . Garcia, José António da Silva Pinto; Miragaia, Rolando Lúcio Germano; Grilo, Carlos Fernando de Almeida; Domingues, Patrício RodriguesIn a context of rapid technological advancement and increasing integration of Artificial Intelligence (AI) across various fields, this work explores the application of AI in the domain of criminal investigation, specifically within the context of interrogations. The research presents a dual and complementary nature: the development of a software application for the Portuguese Military Judiciary Police (PJM) and a scientific contribution in the field of multimodal emotion analysis. The first component focused on the design and implementation of the INTU-AI (Intuition Artificial Intelligence) program, a tool aimed at supporting Military Judicial Police (PJM, from Portuguese Polícia Judiciária Militar) investigators by digitizing and automating administrative procedures related to interrogations. INTU-AI integrates models for Facial Emotion Recognition (FER), Speech Emotion Recognition (SER), and Text-Based Emotion Analysis, functioning as a complete end-to-end solution. The second component represents a scientific contribution in the form of a proof-of-concept study for dynamic multimodal emotion analysis. Due to the lack of publicly available datasets of criminal interrogations, the MELD (Multimodal EmotionLines Dataset) was employed as the experimental basis, given its resemblance to real-life interaction contexts. This part of the work, structured according to the CRISP-DM methodology, explored three hypotheses regarding the relative importance of each modality in emotional evaluation.
- Integrated Approach to Data in Aquaponics SystemsPublication . Coelho, Edna Cristina dos Santos; Matias, Rosa Isabel Alves Cordeiro; Sebastião, Fernando José do Nascimento; Bernardino, Raul José SilvérioEste projeto consiste sobre o desenvolvimento de uma solução de Business Intelligence aplicada ao contexto de um sistema de aquaponia numa instituição de ensino superior, com o objetivo de facilitar a recolha, integração, análise e visualização de dados operacionais e ambientais. A fragmentação e a falta de padronização dos dados, quer dos ficheiros, convenções de nomenclatura ou estruturas das tabelas, dificultavam a consolidação eficiente da informação e a tomada de decisão. O objetivo principal foi desenvolver uma arquitetura baseada num Data Lakehouse para automatizar a recolha, integração, análise e visualização desses dados, favorecendo a monitorização contínua dos parâmetros e a partilha de resultados com a comunidade científica. Para isso, concebeu-se uma arquitetura de dados baseada em paradigmas de Data Lakehouse, que integra Apache Spark para processamento distribuído e Power BI para criação de um modelo semântico e dashboards interativos. O trabalho inclui a conceção de um modelo dimensional, a implementação de um pipeline de ETL (Extração, Transformação e Carregamento) para limpeza e unificação de arquivos heterogéneos (com formatos, convenções de nomenclatura e estruturas de tabelas inconsistentes) e o desenvolvimento de relatórios visuais orientados ao desempenho do sistema aquapónico. A principal contribuição consiste na demonstração do potencial das tecnologias analíticas e de visualização de dados na gestão sustentável de sistemas de aquaponia, mostrando como práticas de engenharia de dados aliadas a ferramentas de BI permitem superar desafios de qualidade, volumetria e escalabilidade dos dados. Por fim, a usabilidade da solução Power BI foi avaliada, recorrendo à aplicação de um questionário, através da Escala de Usabilidade do Sistema, obtendo-se a classificação de Aceitável. Destacaram-se como pontos fortes a clareza do conteúdo e a facilidade de navegação, enquanto a estética do design e o desempenho foram apontados como oportunidades de aperfeiçoamento em desenvolvimentos futuros.
- Plataforma de Gestão de Processos do Município de Pombal - Criação de Dashboards em Power BIPublication . Ramos, Maria Ângela Cardoso Silva; Salvador, Nuno Filipe Pereira; Matias, Rosa Isabel Alves CordeiroO presente relatório descreve um projeto que tem como objetivo a conceção e implementação de um sistema de Business Intelligence (BI) para otimizar a gestão e a tomada de decisão no Município de Pombal na área dos processos de licenciamento urbanístico, nomeadamente os da Unidade Orgânica Divisão de Obras Particulares. Para isso, foi realizada uma revisão da literatura sobre conceitos de BI, abordagens metodológicas e aplicações no setor público, destacando o seu impacto na eficiência operacional, tática e estratégica. Adota-se uma metodologia que permite estruturar o planeamento, conceção, desenvolvimento e implementação do sistema. A análise detalhada dos processos municipais permite identificar os principais KPIs e necessidades estratégicas da gestão, garantindo que a solução desenvolvida responda de forma eficaz aos desafios enfrentados pela autarquia. A solução de BI demonstra ser escalável e adaptável, possibilitando uma análise mais eficiente dos dados municipais, a identificação de ineficiências e a melhoria do planeamento de recursos. Além disso, este projeto destaca a importância da adoção de tecnologias de BI no setor público, não apenas como uma ferramenta de apoio à decisão, mas também como um meio para aumentar a transparência e a eficiência dos serviços prestados à comunidade. Após a extração, transformação e carregamento de dados brutos, o desenvolvimento de relatórios e a coordenação de várias medidas em DAX no Power BI, o resultado do projeto é um dashboard interativo com indicadores pertinentes à análise da gestão de processos de licenciamentos urbanísticos. Os resultados positivos obtidos por via da elaboração de inquéritos, reforçam o potencial do BI na Transformação Digital da Administração Pública, fornecendo um modelo replicável para outras autarquias que pretendam modernizar os seus processos através de uma gestão orientada a dados.
- Implementação de uma solução Business Intelligence aplicada à Contratação PúblicaPublication . Coelho, Susana Margarida Rodrigues; Salvador, Nuno Filipe Pereira; Matias, Rosa Isabel Alves CordeiroEste relatório apresenta o desenvolvimento e implementação de um sistema de Business Intelligence (BI) para otimizar a gestão da contratação pública no município de Pombal. Os dados são extraídos do Enterprise Resource Planning (ERP) do município. O projeto tem como objetivo a conceção de uma solução suportada por um conjunto de painéis interativos, que auxiliam na tomada de decisão estratégica para melhorar processos administrativos. A metodologia adotada foi Cross Industry Standard Process for Data Mining (CRISP- DM), abrangendo desde a compreensão do negócio até ao deployment do sistema. Para a estruturação dos dados, foi desenvolvido um modelo dimensional, permitindo a organização eficiente da informação e a melhoria do desempenho de consultas analíticas. O processo de Extract, Transform & Load (ETL) foi realizado através do Power BI, garantindo a integração e atualização periódica dos dados relativos aos contratos públicos do município. No contexto da análise dos dados são identificados Key Performance Indicators (KPIs) específicos, permitindo, a monitorização da execução dos contratos, a identificação de desvios orçamentais e a avaliação da conformidade regulamentar. Após a implementação do sistema os dashboards interativos foram publicados na cloud garantindo que cada utilizador só visualiza os dados de acordo com o seu perfil. A solução foi apresenta aos stakeholders, e os resultados obtidos demonstram que a solução contribui para a melhoria da eficácia e eficiência na contratação pública do município, possibilitando uma gestão mais ágil e fundamentada. Com esta ferramenta, o município de Pombal passou a dispor de um suporte estratégico robusto, capaz de otimizar processos, melhorar o planeamento e facilitar o acompanhamento dos contratos públicos
- Integrating Classification in Image Captioning Tasks: A StudyPublication . Luz, Gustavo Rocha; Grilo, Carlos Fernando de Almeida; Miragaia, Rolando Lúcio Germano; Ribeiro, José Carlos Bregieiro; Távora, Luís Miguel de Oliveira Pegado de Noronha eImage captioning combines computer vision and natural language processing to generate descriptive text for images. This dissertation evaluates whether integrating image classification into captioning models improves the quality of generated descriptions. Experiments were conducted with LSTM and Bidirectional LSTM architecture, using CNN based feature extractors on the FLOWERS dataset. Each configuration was trained 35 times with controlled random seeds to ensure consistency and reproducibility . Although all standard evaluation metrics were computed, the focus was on METEOR and SPICE for their balanced view of linguistic and semantic quality. ResNet50 yielded the best overall results among CNNs. The inclusion of classification labels showed mixed outcomes: in the Base Case, it increased variability; in BiLSTM models, it led to better METEOR scores and more consistent results. Further tests with varied classification accuracy showed limited impact on caption quality. The model remained robust, with no significant drop in performance observed down to 80% accuracy, and top performance recorded at 95% and 90% classification accuracy. These findings suggest classification can enhance performance under favorable conditions, especially when paired with BiLSTM architectures, which is valuable for real-world settings where classification errors are expected. In summary, the results underscore the subtle but meaningful role of classification in image captioning and offer guidance for building more robust multimodal systems.
- Um Sistema de Business Intelligence Aplicado à Análise de AssiduidadePublication . Nazaré, Rodrigo Silva; Matias, Rosa Isabel Alves Cordeiro; Piedade, Maria Beatriz GuerraNum contexto de crescente complexidade institucional e exigências regulatórias, a gestão eficiente dos recursos materiais e humanos torna-se essencial para o bom funcionamento de uma instituição de ensino superior. Entre os aspetos críticos da organização académica, o controlo da assiduidade dos estudantes às aulas é fundamental para a alocação eficaz de recursos e o cumprimento de regulamentos internos. Para enfrentar estes desafios, a utilização de Business Intelligence assume um papel relevante no apoio à tomada de decisão, fornecendo suporte orientado por dados e permitindo análises mais rigorosas e fundamentadas. Neste contexto, este trabalho apresenta um estudo sobre Business Intelligence e descreve as etapas da conceção e do desenvolvimento de um sistema aplicado à análise de assiduidade dos estudantes às aulas para a Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria. A solução desenvolvida segue uma abordagem modular, incluindo a criação de um data warehouse, o processo de extração-transformação-carga, além de scripts para atualização periódica dos dados. O sistema final inclui dashboards com um conjunto de recursos que permitem a monitorização eficaz da assiduidade, possibilitando que as decisões sobre o encerramento ou desdobramento dos turnos sejam tomadas atempadamente, com base em dados disponíveis. Além dos insights sobre a assiduidade, o sistema disponibiliza informação sobre os docentes, sobre os ciclos de estudo e oferece ainda um recurso adicional para auxiliar a composição dos grupos disciplinares. Ao proporcionar uma visão abrangente da assiduidade, o sistema torna-se uma ferramenta estratégica para a gestão académica, promovendo maior eficiência no planeamento e na tomada de decisões institucionais.
- MLCASE: Plataforma Automatizada de Desenvolvimento de Modelos de Machine LearningPublication . Sousa, Bruna Filipa Menó de; Malheiro, Ricardo Manuel da SilvaO desenvolvimento de modelos de Machine Learning é um processo intrinsecamente complexo, composto por múltiplas etapas, como o pré-processamento de dados, a seleção de algoritmos, a otimização de hiperparâmetros e a avaliação de desempenho. Este projeto propõe o desenvolvimento de uma plataforma automatizada, denominada MLCASE, com o objetivo de simplificar e acelerar estas etapas, permitindo que os cientistas de dados otimizem o seu tempo e concentrem os seus esforços na análise de resultados e na obtenção de insights estratégicos. A MLCASE foi concebida com base na framework Streamlit, proporcionando uma interface intuitiva e interativa, enquanto automatiza tarefas fundamentais como a seleção de features, a pesquisa e otimização de hiperparâmetros e a avaliação de modelos de aprendizagem automática. Adicionalmente, a plataforma integra a criação automática de relatórios técnicos e gráficos analíticos, promovendo a democratização do acesso a técnicas avançadas de Machine Learning e a sua aplicação eficiente em áreas como saúde, finanças, marketing e ciência social.
- Observabilidade em DevSecOps: Visualização de Dados de Segurança de Aplicações WebPublication . Penela, Alexandre Emanuel Carriço; Piedade, Maria Beatriz Guerra; Matias, Rosa Isabel Alves CordeiroO crescimento excecional do número de atividades de cibercrime que exploram as vulnerabilidades existentes em aplicações Web reforçou a necessidade das organizações em fortalecerem as suas políticas de segurança em vigor durante o ciclo de vida de desenvolvimento de software – SDLC. Para suprir esta necessidade surgiu o conceito de DevSecOps, que implementa práticas e testes de segurança, realizados por scanners automáticos, durante todo o SDLC. Estes scanners possuem meios para reportar as vulnerabilidades identificadas, mas geralmente apresentam funcionalidades limitadas para representar essa informação de forma visual. Este documento apresenta a descrição de uma solução desenvolvida no âmbito de um estágio curricular realizado em ambiente empresarial. A solução permite a extração, integração e visualização de dados relevantes e constantes nos relatórios de diversos tipos ferramentas de segurança. Os dados extraídos e integrados são apresentados graficamente, por meio de um dashboard interativo e customizado, explorando os conceitos associados à visualização de dados. São descritas todas etapas de desenvolvimento desta solução, desde o processo de extração de dados até ao desenvolvimento do dashboard. A análise comparativa efetuada demonstra que a solução se destaca das soluções semelhantes, devido à sua capacidade de integração e apresentação de dados de múltiplos tipos de ferramentas de segurança num dashboard unificado, contrariamente às restantes, que se focam em tipos específicos de ferramentas de seguranças. Esta abordagem proporciona uma visão geral do estado da segurança das aplicações e uma análise detalhada das vulnerabilidades existentes. O contributo principal desta solução reside na melhoria do processo de monitorização e avaliação do estado de segurança das aplicações desenvolvidas, fornecendo insights valiosos para a organização. Esses insights auxiliam na tomada de decisões sobre a implementação de medidas e protocolos de segurança no SDLC. Este contributo foi corroborado pela realização de um inquérito SUS, que confirma a validade da solução desenvolvida
- Health literacy of the Leiria Polytechnic AcademiaPublication . Ascenso, Rita Margarida Teixeira; Dias, Sara Alexandra da Fonseca Marques Simões; Luís, Luís Francisco Soares; Gonçalves, Dulce Cristina dos Santos IriaLiteracy spans from economic, and financial to digital and information literacy, environmental and environmental sustainability and energy, and statistics literacy to health literacy. Health literacy (HL) has several definitions and numerous HL assessment tools. World Health Organization (WHO) has the 1998 Health Promotion Glossary and defines HL; “Health literacy implies the achievement of a level of knowledge, personal skills and confidence to take action to improve personal and community health by changing personal lifestyles and living conditions”. Several systematic reviews on HL identified tools for HL assessment, namely: Short Assessment of Health Literacy (SAHL) questionnaire and the European Health Literacy Survey with 47 questions (HLS-EU-Q47), with 16 questions (HLS-EU-Q16) , and with only 6 questions (HLS-EU-Q6). These have already been translated into Portuguese and used to assess HL since 2017. In a study published in 2022, Pedro et. al. described that almost half of higher education students in Portugal had inadequate or problematic health literacy levels, with no significant differences between first and last-year students but variations among health-related courses. Data revealed that HL tends to be adequate or excellent among those students with health-related degrees. Limited HL is confirmed at university and higher education students. Is it true in the Polytechnic of Leiria academia? This work follows the CRISP-DM methodology, used for data mining, to perform the exploratory analysis of existing data. Data came from the survey applied to the academia of the Polytechnic of Leiria. HLS-EU-Q16 was applied between 8th December 2020 and 26th March 2021 and saved. Data mining was proposed as a dissertation in the first edition of Data Science Masters. The objectives to be fulfilled by executing the work, started with a Literature review, from a perspective of business understanding and text mining was used. Dataset characteristics were deeply analysed, starting from 431 survey participants. After the whole sample analysis, data mining for students’ subset was performed. Classification analysis and predictive data analysis were performed to achieve School classification based on HL index.
- Visualização de Dados e Data Storytelling: Estudo de CasoPublication . Paiva, João Francisco Soares; Matias, Rosa Isabel Alves Cordeiro; Piedade, Maria Beatriz GuerraDesde os primórdios da civilização, a humanidade lida com dados de diferentes naturezas, porém os avanços computacionais provocaram tanto a explosão de informação, como o processo de a tornar interpretável num determinado contexto. Com o desenvolvimento de um volume cada vez maior de dados, surge a necessidade de desenvolver e aprimorar técnicas e ferramentas capazes de lidar com o armazenamento, processamento e apresentação da informação proveniente destas fontes. Dando resposta a estes desafios, as ferramentas gráficas evoluíram também para analisar estes dados massivos, tornando a sua leitura mais amigável. Estas ferramentas são capazes de facilitar a deteção de anomalias nos dados, relacionamentos, padrões ou tendências, tornando os pontos a avaliar mais evidentes nos gráficos selecionados. Uma das problemáticas mais relevantes do estudo da visualização de informação recai sobre a escolha das representações gráficas adequadas para cada tipo de dados. Associar dados a elementos gráficos e a uma localização no espaço pode ser uma tarefa difícil que requer conhecimentos em tipos de dados, análise de dados e representações gráficas. Também o storytelling se apresenta como um tema bastante preponderante na questão da apresentação de informação proveniente dos dados recolhidos, entrando em ação, frequentemente, a par da temática da visualização de dados. Como objetivo geral deste estudo, pretende-se o desenvolvimento de painéis sobre a forma de dashboards que sejam capazes de transmitir a informação presente numa base de dados considerada previamente (projeto UniBench) de forma que o utilizador final seja capaz de interpretar a informação apresentada e responder a um conjunto de questões definidas a priori. Durante este processo serão tidas em conta as técnicas de visualização adequadas para cada caso específico e, consequentemente, as técnicas de storytelling mais adequadas para contar a história desses dados. No final do estudo foi possível inferir que os utilizadores dão primazia à simplicidade de utilização e navegação, sendo este um fator decisivo na sua escolha por determinada plataforma ou dashboard. É essencial que os tópicos mais relevantes sejam de fácil acesso e que se apresentem bem visíveis, devendo ser desenvolvido um esquema de navegação conciso, cujo acesso aos dados seja coerente e que ocorra mediante processos semelhantes, de forma que o utilizador consiga identificar com facilidade a forma de resgatar determinados dados. Para finalizar, importa ressalvar que a história de dados deve sustentar os elementos visuais conferindo uma fonte adicional de suporte à navegação pelos diferentes painéis, complementando a informação apresentada com a interpretação do próprio utilizador.
