Name: | Description: | Size: | Format: | |
---|---|---|---|---|
9.98 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Ao longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo
neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez
ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e.
limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply-
ACcumulate (MAC)) por inferência.
É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o
máximo de informação pertinente dos recursos de áudio e também para otimizar a
arquitetura do modelo.
São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de
treino antecipada para melhorar a generalização do modelo, melhorando a resposta
na presença de novos dados não utilizados para treino.
São propostas ainda três abordagens com o objetivo de aumentar o campo de
aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam
métodos de otimização e aprendizagem, como agrupamento de modelos ensemble,
separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a
técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade
do modelo, esta técnica acabou por funcionar também como regularizador
diminuindo o sobreajuste.
As abordagens propostas foram validadas através da participação no desafio “Task
1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade
internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas
num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação.
O modelo submetido que obteve melhores resultados é designado AI4EDGE_4
é um ensemble de dez modelos OvA, utilizado como “professor” num processo
de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo
base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de
LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão
de AC=51.6% e uma perda de LOSS=1.330.
Description
Keywords
Rede neuronal artificial Classificação de cenas acústicas Dispositivos de ponta Rede neuronal convolucional Pesquisa de hiperparâmetros Redes neuronais conjuntas (ensemble)