| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 1.64 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Language and music are fundamental human tools for expression, communication, and emotional connection. Music plays a central role in shaping identity, conveying feelings, and promoting social bonds, making it an intriguing domain for technological exploration. Replicating human creativity in music, especially in songwriting, presents a complex challenge, as natural language processing (NLP) and deep learning (DL) must capture both linguistic structure and emotional nuance.
This study investigates the generation of emotionally contextualised song lyrics using DL models, including LSTM, GPT-2, and T5, guided by Russell’s Circumplex Model of Emotions. The models were evaluated on readability, coherence, perplexity, structural consistency, thematic alignment, and emotional accuracy. Results show that GPT-2, particularly when fine-tuned, achieves the best balance of coherence and emotional alignment, although it still lacks some musical features such as rhyme and rhythm. LSTM exhibits patterned sequences but high variability, while T5 struggles with structural consistency and repetitive output, highlighting the challenges of small, non-specialised datasets.
Overall, the work confirms the feasibility of using DL models as creative support in lyric composition, capable of offering emotionally expressive material to inspire musicians, while also pointing to the need for larger datasets and models tailored to musical structure to achieve fully convincing results.
A linguagem e a música são ferramentas humanas fundamentais para expressão, comunicação e ligação emocional. A música desempenha um papel fundamental na formação da identidade, na transmissão de sentimentos e na promoção de laços sociais, tornando-se um domínio particularmente interessante para exploração tecnológica. Replicar a criatividade humana na música, especialmente na composição de letras, constitui um desafio complexo, uma vez que o processamento de linguagem natural e o deep learning devem capturar tanto a estrutura linguística como a nuance emocional. Este estudo investiga a geração de letras de música contextualizadas emocionalmente através de modelos DL, incluindo LSTM, GPT-2 e T5, orientados pelo Modelo Circumplexo de Emoções de Russell. Os modelos foram avaliados quanto à legibilidade, coerência, perplexidade, consistência estrutural, alinhamento temático e precisão emocional. Os resultados mostram que o GPT-2, particularmente quando ajustado (fine-tuned), atinge o melhor equilíbrio entre coerência e alinhamento emocional, embora ainda careça de algumas características musicais, como rima e ritmo. O LSTM apresenta sequências padronizadas, mas com elevada variabilidade, enquanto o T5 tem dificuldades com a consistência estrutural e tende a produzir conteúdos repetitivos, destacando os desafios de trabalhar com conjuntos de dados pequenos e não especializados. De forma geral, o trabalho confirma a viabilidade de utilizar modelos DL como apoio criativo na composição de letras, capazes de fornecer material emocionalmente expressivo para inspirar músicos, enquanto aponta para a necessidade de conjuntos de dados maiores e modelos ajustados à estrutura musical para alcançar resultados totalmente convincentes.
A linguagem e a música são ferramentas humanas fundamentais para expressão, comunicação e ligação emocional. A música desempenha um papel fundamental na formação da identidade, na transmissão de sentimentos e na promoção de laços sociais, tornando-se um domínio particularmente interessante para exploração tecnológica. Replicar a criatividade humana na música, especialmente na composição de letras, constitui um desafio complexo, uma vez que o processamento de linguagem natural e o deep learning devem capturar tanto a estrutura linguística como a nuance emocional. Este estudo investiga a geração de letras de música contextualizadas emocionalmente através de modelos DL, incluindo LSTM, GPT-2 e T5, orientados pelo Modelo Circumplexo de Emoções de Russell. Os modelos foram avaliados quanto à legibilidade, coerência, perplexidade, consistência estrutural, alinhamento temático e precisão emocional. Os resultados mostram que o GPT-2, particularmente quando ajustado (fine-tuned), atinge o melhor equilíbrio entre coerência e alinhamento emocional, embora ainda careça de algumas características musicais, como rima e ritmo. O LSTM apresenta sequências padronizadas, mas com elevada variabilidade, enquanto o T5 tem dificuldades com a consistência estrutural e tende a produzir conteúdos repetitivos, destacando os desafios de trabalhar com conjuntos de dados pequenos e não especializados. De forma geral, o trabalho confirma a viabilidade de utilizar modelos DL como apoio criativo na composição de letras, capazes de fornecer material emocionalmente expressivo para inspirar músicos, enquanto aponta para a necessidade de conjuntos de dados maiores e modelos ajustados à estrutura musical para alcançar resultados totalmente convincentes.
Description
Keywords
Deep learning Processamento de linguagem natural Geração de letras de música Letras com contexto emocional
