Repository logo
 
Publication

Integrating Classification in Image Captioning Tasks: A Study

datacite.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologias
dc.contributor.advisorGrilo, Carlos Fernando de Almeida
dc.contributor.advisorMiragaia, Rolando Lúcio Germano
dc.contributor.advisorRibeiro, José Carlos Bregieiro
dc.contributor.advisorTávora, Luís Miguel de Oliveira Pegado de Noronha e
dc.contributor.authorLuz, Gustavo Rocha
dc.date.accessioned2025-08-05T13:03:21Z
dc.date.available2025-08-05T13:03:21Z
dc.date.issued2025-05-27
dc.description.abstractImage captioning combines computer vision and natural language processing to generate descriptive text for images. This dissertation evaluates whether integrating image classification into captioning models improves the quality of generated descriptions. Experiments were conducted with LSTM and Bidirectional LSTM architecture, using CNN based feature extractors on the FLOWERS dataset. Each configuration was trained 35 times with controlled random seeds to ensure consistency and reproducibility . Although all standard evaluation metrics were computed, the focus was on METEOR and SPICE for their balanced view of linguistic and semantic quality. ResNet50 yielded the best overall results among CNNs. The inclusion of classification labels showed mixed outcomes: in the Base Case, it increased variability; in BiLSTM models, it led to better METEOR scores and more consistent results. Further tests with varied classification accuracy showed limited impact on caption quality. The model remained robust, with no significant drop in performance observed down to 80% accuracy, and top performance recorded at 95% and 90% classification accuracy. These findings suggest classification can enhance performance under favorable conditions, especially when paired with BiLSTM architectures, which is valuable for real-world settings where classification errors are expected. In summary, the results underscore the subtle but meaningful role of classification in image captioning and offer guidance for building more robust multimodal systems.eng
dc.description.abstractA geração de legendas para imagens combina visão computacional e processamento de linguagem natural para produzir descrições textuais descritivas a partir de imagens. Esta dissertação avalia se a integração da classificação de imagens em modelos de legendagem melhora a qualidade das descrições geradas. Os experimentos foram realizados com arquiteturas LSTM e Bidirecional LSTM, utilizando extratores de características baseados em CNNs sobre o conjunto de dados FLOWERS. Cada configuração foi treinada 35 vezes com sementes aleatórias controladas, a fim de garantir consistência e reprodutibilidade dos resultados. Embora todas as métricas padrões de avaliação tenham sido calculadas, a análise concentrou se nas métricas METEOR e SPICE, por fornecerem uma visão equilibrada da qualidade linguística e semântica. A ResNet50 apresentou os melhores resultados gerais entre as CNNs avaliadas. A inclusão de rótulos de classificação gerou resultados variados: no modelo Base Case, aumentou a variabilidade; nos modelos BiLSTM, levou a melhores pontuações de METEOR e maior consistência nos resultados. Testes adicionais com diferentes níveis de acurácia de classificação indicaram impacto limitado na qualidade das legendas. O modelo manteve-se robusto, sem queda significativa de desempenho até o limite de 80% de acurácia, com os melhores resultados sendo registrados nos níveis de 95% e 90%. Esses achados sugerem que a classificação pode melhorar o desempenho sob condições favoráveis, especialmente quando associada a arquiteturas BiLSTM, o que é relevante para contextos reais onde erros de classificação são esperados. Em síntese, os resultados ressaltam o papel sutil, porém relevante, da classificação na tarefa de geração de legendas para imagens e oferecem orientações práticas para o desenvolvimento de sistemas multimodais mais robustospor
dc.identifier.tid203980344
dc.identifier.urihttp://hdl.handle.net/10400.8/13874
dc.language.isoeng
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectGeração de legendas
dc.subjectAprendizado multimodal
dc.subjectBiLSTM
dc.subjectClassificação
dc.subjectMETEOR
dc.subjectSPICE
dc.titleIntegrating Classification in Image Captioning Tasks: A Study
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMaster’s degree in Data Science

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Integrating Classification in Image Captioning Tasks - A Study_c_f.pdf
Size:
1.3 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.32 KB
Format:
Item-specific license agreed upon to submission
Description: