Integrating Classification in Image Captioning Tasks: A Study

Luz, Gustavo Rocha

Publicação

Integrating Classification in Image Captioning Tasks: A Study

2025-05-27Dissertação de mestrado

datacite.subject.fos	Engenharia e Tecnologia::Outras Engenharias e Tecnologias
dc.contributor.advisor	Grilo, Carlos Fernando de Almeida
dc.contributor.advisor	Miragaia, Rolando Lúcio Germano
dc.contributor.advisor	Ribeiro, José Carlos Bregieiro
dc.contributor.advisor	Távora, Luís Miguel de Oliveira Pegado de Noronha e
dc.contributor.author	Luz, Gustavo Rocha
dc.date.accessioned	2025-08-05T13:03:21Z
dc.date.available	2025-08-05T13:03:21Z
dc.date.issued	2025-05-27
dc.description.abstract	Image captioning combines computer vision and natural language processing to generate descriptive text for images. This dissertation evaluates whether integrating image classification into captioning models improves the quality of generated descriptions. Experiments were conducted with LSTM and Bidirectional LSTM architecture, using CNN based feature extractors on the FLOWERS dataset. Each configuration was trained 35 times with controlled random seeds to ensure consistency and reproducibility . Although all standard evaluation metrics were computed, the focus was on METEOR and SPICE for their balanced view of linguistic and semantic quality. ResNet50 yielded the best overall results among CNNs. The inclusion of classification labels showed mixed outcomes: in the Base Case, it increased variability; in BiLSTM models, it led to better METEOR scores and more consistent results. Further tests with varied classification accuracy showed limited impact on caption quality. The model remained robust, with no significant drop in performance observed down to 80% accuracy, and top performance recorded at 95% and 90% classification accuracy. These findings suggest classification can enhance performance under favorable conditions, especially when paired with BiLSTM architectures, which is valuable for real-world settings where classification errors are expected. In summary, the results underscore the subtle but meaningful role of classification in image captioning and offer guidance for building more robust multimodal systems.	eng
dc.description.abstract	A geração de legendas para imagens combina visão computacional e processamento de linguagem natural para produzir descrições textuais descritivas a partir de imagens. Esta dissertação avalia se a integração da classificação de imagens em modelos de legendagem melhora a qualidade das descrições geradas. Os experimentos foram realizados com arquiteturas LSTM e Bidirecional LSTM, utilizando extratores de características baseados em CNNs sobre o conjunto de dados FLOWERS. Cada configuração foi treinada 35 vezes com sementes aleatórias controladas, a fim de garantir consistência e reprodutibilidade dos resultados. Embora todas as métricas padrões de avaliação tenham sido calculadas, a análise concentrou se nas métricas METEOR e SPICE, por fornecerem uma visão equilibrada da qualidade linguística e semântica. A ResNet50 apresentou os melhores resultados gerais entre as CNNs avaliadas. A inclusão de rótulos de classificação gerou resultados variados: no modelo Base Case, aumentou a variabilidade; nos modelos BiLSTM, levou a melhores pontuações de METEOR e maior consistência nos resultados. Testes adicionais com diferentes níveis de acurácia de classificação indicaram impacto limitado na qualidade das legendas. O modelo manteve-se robusto, sem queda significativa de desempenho até o limite de 80% de acurácia, com os melhores resultados sendo registrados nos níveis de 95% e 90%. Esses achados sugerem que a classificação pode melhorar o desempenho sob condições favoráveis, especialmente quando associada a arquiteturas BiLSTM, o que é relevante para contextos reais onde erros de classificação são esperados. Em síntese, os resultados ressaltam o papel sutil, porém relevante, da classificação na tarefa de geração de legendas para imagens e oferecem orientações práticas para o desenvolvimento de sistemas multimodais mais robustos	por
dc.identifier.tid	203980344
dc.identifier.uri	http://hdl.handle.net/10400.8/13874
dc.language.iso	eng
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Geração de legendas
dc.subject	Aprendizado multimodal
dc.subject	BiLSTM
dc.subject	Classificação
dc.subject	METEOR
dc.subject	SPICE
dc.title	Integrating Classification in Image Captioning Tasks: A Study
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.name	Master’s degree in Data Science

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Integrating Classification in Image Captioning Tasks - A Study_c_f.pdf
Tamanho:: 1.3 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.32 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ESTG - Mestrado em Ciência de Dados