Grilo, Carlos Fernando de AlmeidaMiragaia, Rolando Lúcio GermanoRibeiro, José Carlos BregieiroTávora, Luís Miguel de Oliveira Pegado de Noronha eLuz, Gustavo Rocha2025-08-052025-08-052025-05-27http://hdl.handle.net/10400.8/13874Image captioning combines computer vision and natural language processing to generate descriptive text for images. This dissertation evaluates whether integrating image classification into captioning models improves the quality of generated descriptions. Experiments were conducted with LSTM and Bidirectional LSTM architecture, using CNN based feature extractors on the FLOWERS dataset. Each configuration was trained 35 times with controlled random seeds to ensure consistency and reproducibility . Although all standard evaluation metrics were computed, the focus was on METEOR and SPICE for their balanced view of linguistic and semantic quality. ResNet50 yielded the best overall results among CNNs. The inclusion of classification labels showed mixed outcomes: in the Base Case, it increased variability; in BiLSTM models, it led to better METEOR scores and more consistent results. Further tests with varied classification accuracy showed limited impact on caption quality. The model remained robust, with no significant drop in performance observed down to 80% accuracy, and top performance recorded at 95% and 90% classification accuracy. These findings suggest classification can enhance performance under favorable conditions, especially when paired with BiLSTM architectures, which is valuable for real-world settings where classification errors are expected. In summary, the results underscore the subtle but meaningful role of classification in image captioning and offer guidance for building more robust multimodal systems.A geração de legendas para imagens combina visão computacional e processamento de linguagem natural para produzir descrições textuais descritivas a partir de imagens. Esta dissertação avalia se a integração da classificação de imagens em modelos de legendagem melhora a qualidade das descrições geradas. Os experimentos foram realizados com arquiteturas LSTM e Bidirecional LSTM, utilizando extratores de características baseados em CNNs sobre o conjunto de dados FLOWERS. Cada configuração foi treinada 35 vezes com sementes aleatórias controladas, a fim de garantir consistência e reprodutibilidade dos resultados. Embora todas as métricas padrões de avaliação tenham sido calculadas, a análise concentrou se nas métricas METEOR e SPICE, por fornecerem uma visão equilibrada da qualidade linguística e semântica. A ResNet50 apresentou os melhores resultados gerais entre as CNNs avaliadas. A inclusão de rótulos de classificação gerou resultados variados: no modelo Base Case, aumentou a variabilidade; nos modelos BiLSTM, levou a melhores pontuações de METEOR e maior consistência nos resultados. Testes adicionais com diferentes níveis de acurácia de classificação indicaram impacto limitado na qualidade das legendas. O modelo manteve-se robusto, sem queda significativa de desempenho até o limite de 80% de acurácia, com os melhores resultados sendo registrados nos níveis de 95% e 90%. Esses achados sugerem que a classificação pode melhorar o desempenho sob condições favoráveis, especialmente quando associada a arquiteturas BiLSTM, o que é relevante para contextos reais onde erros de classificação são esperados. Em síntese, os resultados ressaltam o papel sutil, porém relevante, da classificação na tarefa de geração de legendas para imagens e oferecem orientações práticas para o desenvolvimento de sistemas multimodais mais robustosengGeração de legendasAprendizado multimodalBiLSTMClassificaçãoMETEORSPICEIntegrating Classification in Image Captioning Tasks: A Studymaster thesis203980344