Publication
The Specialist vs. The Generalist: A Comparative Analysis of Performance and Explainability for Financial Sentiment Classification
| datacite.subject.fos | Engenharia e Tecnologia::Outras Engenharias e Tecnologias | |
| dc.contributor.advisor | Miragaia, Rolando Lúcio Germano | |
| dc.contributor.advisor | Grilo, Carlos Fernando de Almeida | |
| dc.contributor.author | Roque, Miguel Augusto | |
| dc.date.accessioned | 2025-12-12T14:43:21Z | |
| dc.date.available | 2025-12-12T14:43:21Z | |
| dc.date.issued | 2025-11-12 | |
| dc.description.abstract | The accurate and transparent classification of sentiment in financial texts is a cornerstone of computational finance. This field is currently at a methodological crossroads, dominated by two paradigms: the fine-tuned specialist, represented by domain-adapted models like FinBERT, and the instructed generalist, embodied by modern Large Language Models (LLMs) like Google's Gemini. While performance benchmarks are emerging, a significant research gap exists in the systematic comparison of their performance trade-offs and the nature of their explainability. This dissertation conducts a comparative study between a fine-tuned FinBERT model and the Gemini 2.5 Pro LLM on an extended version of the Financial PhraseBank dataset. The analysis is performed along two axes: (1) Classification Performance, evaluated via metrics robust to class imbalance, and (2) Explainability, where FinBERT's predictions are analyzed using SHapley Additive exPlanations (SHAP). For Gemini, two distinct prompting protocols are compared: a two-step Separated Protocol designed to rigorously test the "overthinking" hypothesis and a single-step Simultaneous Protocol. The results reveal a nuanced performance verdict. While FinBERT excels in accuracy, a key finding is that both Gemini protocols achieve virtually identical performance, challenging the initial "overthinking" hypothesis and suggesting a high degree of robustness in modern LLMs. The qualitative analysis uncovers two distinct reasoning styles: FinBERT's logic is bottom-up and pattern-based, excelling at domain-specific jargon, while Gemini's is top-down and conceptual, grasping holistic meaning but failing on specialized idioms. Ultimately, this work concludes that the choice between a specialist and a generalist is not one of absolute superiority, but a strategic trade-off between accuracy, risk sensitivity, implementation cost, and the desired nature of explainability. This dissertation provides a comprehensive framework for navigating that trade-off. | eng |
| dc.description.abstract | A classificação precisa e transparente de sentimento em textos financeiros é um pilar da finança computacional. Este campo encontra-se numa encruzilhada metodológica, dominada por dois paradigmas: o especialista afinado, representado por modelos adaptados ao domínio como o FinBERT, e o generalista instruído, personificado por Modelos de Linguagem de Grande Escala (LLMs) modernos como o Gemini da Google. Embora as comparações de desempenho estejam a emergir, existe uma lacuna de investigação significativa na comparação sistemática dos seus compromissos de desempenho e da natureza da sua explicabilidade. Esta dissertação realiza um estudo comparativo entre um modelo FinBERT afinado e o LLM Gemini 2.5 Pro, utilizando uma versão estendida do conjunto de dados Financial PhraseBank. A análise é realizada ao longo de dois eixos: (1) Desempenho de Classificação, avaliado através de métricas robustas ao desequilíbrio de classes, e (2) Explicabilidade, onde as previsões do FinBERT são analisadas com SHAP. Para o Gemini, são comparados dois protocolos de prompting distintos: um Protocolo Separado em duas etapas, desenhado para testar rigorosamente a hipótese de "overthinking", e um Protocolo Simultâneo de uma só etapa. Os resultados revelam um veredicto de desempenho matizado. Embora o FinBERT se destaque em acurácia, uma descoberta fundamental é que ambos os protocolos do Gemini alcançam uma performance virtualmente idêntica, desafiando a hipótese inicial de "overthinking" e sugerindo um elevado grau de robustez nos LLMs modernos. A análise qualitativa desvenda dois estilos de raciocínio distintos: a lógica do FinBERT é bottom-up e baseada em padrões, destacando-se no jargão específico do domínio, enquanto a do Gemini é top-down e conceptual, captando o significado holístico mas falhando em expressões idiomáticas especializadas. Em suma, este trabalho conclui que a escolha entre um especialista e um generalista não é uma questão de superioridade absoluta, mas sim um compromisso estratégico entre acurácia, sensibilidade ao risco, custo de implementação e a natureza desejada da explicabilidade. Esta dissertação fornece uma estrutura abrangente para navegar esse compromisso. | por |
| dc.identifier.tid | 204081025 | |
| dc.identifier.uri | http://hdl.handle.net/10400.8/15015 | |
| dc.language.iso | eng | |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | Análise de sentimento financeiro | |
| dc.subject | Modelos transformer | |
| dc.subject | IA Explicável (XAI) | |
| dc.subject | FinBERT | |
| dc.subject | SHAP | |
| dc.subject | Gemini | |
| dc.title | The Specialist vs. The Generalist: A Comparative Analysis of Performance and Explainability for Financial Sentiment Classification | |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| thesis.degree.name | Mestrado em Ciências de Dados |
