Repository logo
 
Publication

Towards Efficient Classification of Gene Expression Data with Machine Learning

datacite.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologias
dc.contributor.advisorGrilo, Carlos Fernando de Almeida
dc.contributor.advisorFaria, Paula Cristina Rodrigues Pascoal
dc.contributor.advisorMenezes, João Pedro Almeida
dc.contributor.authorFebra, José Leonel de Sousa
dc.date.accessioned2025-12-12T11:51:20Z
dc.date.available2025-12-12T11:51:20Z
dc.date.issued2025-11-06
dc.description.abstracthe growing availability of gene expression datasets offers new opportunities for applying machine learning to biological classification. These datasets are typically high-dimensional, limited in sample size, and experimentally diverse, posing both computational and biological challenges. This dissertation investigates how deep learning and classical machine learning models can classify gene expression profiles while evaluating the impact of reducing experimental and computational complexity, thereby lowering associated costs. Three datasets were analysed: GSE3406, with temporal profiles of Saccharomyces species under stress; GSE1723, profiling S. cerevisiae under nutrient limitation and oxygen variation; and GSE6186, recording temporal expression during Drosophila melanogaster embryogenesis. Four models were compared — convolutional neural networks (CNN), long short-term memory networks (LSTMs), support vector machines (SVMs), and XGBoost — with hyperparameters optimised via the Optuna library and performance assessed through repeated experiments. Results show that CNNs achieved the best performance in GSE3406, LSTMs were slightly superior in GSE6186, and CNN and XGBoost performed competitively in GSE1723. Comparable accuracy was often obtained under reduced experimental conditions, such as subsets of stimuli, nutrient regimes, or time points. Additionally, gene-level consistency analysis in GSE3406 identified genes consistently well or poorly classified, supporting dimensionality reduction and biological interpretation. This work demonstrates the potential of deep learning for the classification of gene expression profiles, proposing strategies to simplify experimental design without compromising predictive performance.eng
dc.description.abstractA crescente disponibilidade de conjuntos de dados de expressão genética oferece novas oportunidades para a aplicação de técnicas de aprendizagem automática à classificação biológica. Estes tipos de dados são normalmente de elevada dimensionalidade, limitados em tamanho amostral e experimentalmente diversos, colocando constrangimentos tanto computacionais como biológicos. Esta dissertação investiga de que forma modelos de aprendizagem profunda e de aprendizagem automática clássica podem classificar perfis de expressão genética, avaliando simultaneamente o impacto da redução da complexidade experimental e computacional, e consequentemente a diminuição dos custos associados. Foram analisados três conjuntos de dados: GSE3406, com perfis temporais de espécies de Saccharomyces sob diferentes estímulos; GSE1723, com perfis de S. cerevisiae em condições de limitação de nutrientes com distintos regimes de oxigénio; e GSE6186, que contém a expressão genética durante a embriogénese de Drosophila melanogaster. Quatro modelos foram comparados — redes neuronais convolucionais (CNN), redes de memória de longo curto prazo (LSTM), máquinas de vetores de suporte (SVM) e XGBoost — com hiperparâmetros otimizados através da biblioteca Optuna e com o desempenho avaliado através da repetição sistemática de experiências. Os resultados mostram que as CNN atingiram o melhor desempenho no GSE3406, as LSTM foram ligeiramente superiores no GSE6186, e as CNN e as XGBoost tiveram desempenhos competitivos no GSE1723. Importa salientar que, foi possível obter um desempenho comparável em condições experimentais reduzidas como subconjuntos de estímulos, regimes nutricionais ou pontos temporais. Adicionalmente, a análise de consistência ao nível dos genes no GSE3406 identificou genes sistematicamente bem ou mal classificados, apoiando estratégias de redução da dimensionalidade e de interpretação biológica. Este trabalho demonstra o potencial da aprendizagem profunda para a classificação de perfis de expressão genética, propondo estratégias para simplificar o desenho experimental sem comprometer a capacidade de previsão.por
dc.identifier.tid204080800
dc.identifier.urihttp://hdl.handle.net/10400.8/15007
dc.language.isoeng
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectExpressão genética
dc.subjectAprendizagem profunda
dc.subjectAprendizagem automática
dc.subjectClassificação
dc.subjectOptuna
dc.subjectSéries temporais
dc.titleTowards Efficient Classification of Gene Expression Data with Machine Learning
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMestrado em Ciências de Dados

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Towards Efficient Classification of Gene Expression Data with Machine Learning.pdf
Size:
1.88 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.32 KB
Format:
Item-specific license agreed upon to submission
Description: