Repository logo
 
Loading...
Thumbnail Image
Publication

Time-Aware Neural Networks for Onset Detection

Use this identifier to reference this record.

Abstract(s)

This dissertation investigates the application of time-aware neural networks to musical onset detection, building upon Böck and Schlüter's (2014) work. The research explores modifications of neural network architectures to better capture temporal aspects of music for improved onset detection accuracy. Starting with a replication of Böck and Schlüter's convolutional neural network (CNN) model, the study explores incremental modifications including batch normalization, Long Short-Term Memory (LSTM) layers, and adjustments to convolutional layer capacities. Experiments conducted on the Böck dataset, using 8-fold cross-validation, reveal that increasing the number of feature maps in convolutional layers yields the most significant improvement. The best-performing model, a CNN with increased feature maps and batch normalization, achieves an F1-score of 0.905, outperforming variations with recurrent elements. The research also highlights the importance of multi-channel spectrogram representations for providing multi-scale temporal information. While improvements are incremental, this study offers insights into designing time-aware neural networks for onset detection, contributing to ongoing research in music information retrieval. It reaffirms the strength of Böck and Schlüter's approach while demonstrating potential for refinement, underscoring the challenges in advancing onset detection techniques and the importance of temporal dynamics in music analysis.
Esta dissertação investiga a aplicação de redes neuronais conscientes do tempo à deteção de onsets musicais, baseando-se no trabalho de Böck e Schlüter (2014). A investigação explora modificações de arquiteturas de redes neuronais para melhor capturar os aspetos temporais da música, visando melhorar a precisão na deteção de onsets. Começando com uma replicação do modelo de rede neuronal convolucional (CNN) de Böck e Schlüter, o estudo explora modificações incrementais, incluindo normalização de lotes, camadas de Long Short-Term Memory (LSTM) e ajustes nas capacidades das camadas convolucionais. As experiências realizadas no conjunto de dados de Böck, utilizando validação cruzada de 8 dobras, revelam que o aumento do número de mapas de características nas camadas convolucionais proporciona a melhoria mais significativa. O modelo com melhor desempenho, uma CNN com mapas de características aumentados e normalização de lotes, atinge uma pontuação F1 de 0,904, superando variações com elementos recorrentes. A investigação também destaca a importância das representações de espectrogramas multicanal para fornecer informações temporais em múltiplas escalas. Embora as melhorias sejam incrementais, este estudo oferece insights sobre o design de redes neuronais conscientes do tempo para deteção de onsets, contribuindo para a investigação em curso na área de recuperação de informação musical. Reafirma a solidez da abordagem de Böck e Schlüter, demonstrando simultaneamente o potencial de refinamento, sublinhando os desafios no avanço das técnicas de deteção de onsets e a importância da dinâmica temporal na análise musical.

Description

Keywords

Deteção de Onsets redes neuronais conscientes do tempo Redes neuronais convolucionais Recuperação de informação musical Aprendizagem profunda

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue