| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 14.38 MB | Adobe PDF |
Authors
Abstract(s)
The main objective of this research is to design and implement a comprehensive framework
that integrates text mining, sentiment analysis, and Business Intelligence (BI) for the analysis
of hotel reviews. The study aims to provide hotel managers with a systematic and automated
tool capable of transforming unstructured textual data into actionable insights that improve
customer satisfaction, enhance online reputation, and support data-driven marketing and
operational strategies.
This thesis investigates the integration of sentiment analysis, text mining, and BI frameworks
as a strategic tool for online reputation management in the hospitality industry. The study
combines a systematic literature review, conducted under the PRISMA guidelines, with an
empirical project developed according to the CRISP-DM process model. The dataset used
comprises all the positive and negative reviews from multiple sources—including Google
Reviews, Booking.com, Tripadvisor, and physical surveys—covering five hotels in Portugal
during 2023 and 2024.
The methodology involved a pipeline of data preparation, including cleaning, deduplication,
translation into European Portuguese, normalization, stemming, and lemmatization.
Supervised machine learning models, particularly Logistic Regression and Naive Bayes,
were implemented and optimized through techniques such as SMOTE and threshold
adjustment, demonstrating high accuracy and strong recall for negative comments.
Additionally, topic modeling (LDA and NMF) and semantic categorization were applied to
extract latent themes and classify reviews into business-relevant categories.
Results were operationalized through interactive dashboards in Power BI, which enabled the
visualization of satisfaction levels, temporal trends, word frequencies, and category
distributions across hotels. These dashboards provided to hotel managers with actionable
insights to detect strengths, weaknesses, and seasonal patterns in customer perception. The
system was further enhanced with an automated scraping pipeline for Google Reviews,
ensuring continuous integration of updated customer feedback.
The findings confirm that sentiment analysis and BI tools represent a powerful combination
for transforming unstructured textual data into actionable insights. The study demonstrates
the feasibility, scalability, and strategic relevance of this approach, while also highlighting
limitations related to data availability and semantic overlaps. Ultimately, this work
contributes to advancing data-driven decision-making in the hospitality industry.
O principal objetivo desta investigação é conceber e implementar uma estrutura abrangente que integre técnicas de text mining, análise de sentimento e Business Intelligence (BI) para a análise de comentários de hotéis. O estudo pretende fornecer aos gestores hoteleiros uma ferramenta sistemática e automatizada, capaz de transformar dados textuais não estruturados em insights que permitam melhorar a satisfação dos clientes, reforçar a reputação online e apoiar as estratégias operacionais e de marketing baseadas nestes dados. Esta tese investiga a integração da análise de sentimento, do text mining e dos frameworks de Business Intelligence (BI) como ferramenta estratégica para a gestão da reputação online na indústria hoteleira. O estudo combina uma revisão sistemática da literatura, conduzida de acordo com as diretrizes PRISMA, com um projeto empírico desenvolvido segundo a metodologia CRISP-DM. O conjunto de dados utilizado inclui todos os comentários positivos e negativos provenientes de múltiplas fontes — incluindo Google Reviews, Booking.com, Tripadvisor e inquéritos presenciais — relativos a cinco hotéis em Portugal da cadeia Eurosol, durante os anos de 2023 e 2024. A metodologia envolveu um processo rigoroso de preparação dos dados, incluindo limpeza, remoção de duplicados, tradução para português europeu, normalização, stemming e lematização. Foram implementados modelos de machine learning supervisionados, em particular Regressão Logística e Naive Bayes, que foram otimizados através de técnicas como SMOTE e ajuste de limiares, demonstrando elevada precisão e forte capacidade de cobertura (recall) para comentários negativos. Adicionalmente, foram aplicados métodos de modelação de tópicos (LDA e NMF) e categorização semântica, com o objetivo de extrair temas latentes e classificar os comentários em categorias relevantes para a gestão hoteleira. Os resultados foram operacionalizados através de dashboards interativos no software Power BI, que permitiram visualizar níveis de satisfação, tendências temporais, frequências de palavras e distribuições por categoria nos diferentes hotéis. Estes dashboards forneceram aos gestores hoteleiros insights práticos para identificar pontos fortes, pontos fracos e padrões sazonais na perceção dos clientes. O sistema foi ainda enriquecido com um processo automatizado de scraping para Google Reviews, garantindo a integração contínua dos comentários atualizados dos clientes. As conclusões confirmam que a análise de sentimento e as ferramentas de BI representam uma combinação poderosa para transformar dados textuais não estruturados em insights acionáveis. O estudo demonstra a viabilidade, escalabilidade e relevância estratégica desta abordagem, ao mesmo tempo que evidencia limitações relacionadas com a disponibilidade dos dados e com sobreposições semânticas. Em última instância, este trabalho contribui para o avanço da tomada de decisão baseada em dados na indústria hoteleira.
O principal objetivo desta investigação é conceber e implementar uma estrutura abrangente que integre técnicas de text mining, análise de sentimento e Business Intelligence (BI) para a análise de comentários de hotéis. O estudo pretende fornecer aos gestores hoteleiros uma ferramenta sistemática e automatizada, capaz de transformar dados textuais não estruturados em insights que permitam melhorar a satisfação dos clientes, reforçar a reputação online e apoiar as estratégias operacionais e de marketing baseadas nestes dados. Esta tese investiga a integração da análise de sentimento, do text mining e dos frameworks de Business Intelligence (BI) como ferramenta estratégica para a gestão da reputação online na indústria hoteleira. O estudo combina uma revisão sistemática da literatura, conduzida de acordo com as diretrizes PRISMA, com um projeto empírico desenvolvido segundo a metodologia CRISP-DM. O conjunto de dados utilizado inclui todos os comentários positivos e negativos provenientes de múltiplas fontes — incluindo Google Reviews, Booking.com, Tripadvisor e inquéritos presenciais — relativos a cinco hotéis em Portugal da cadeia Eurosol, durante os anos de 2023 e 2024. A metodologia envolveu um processo rigoroso de preparação dos dados, incluindo limpeza, remoção de duplicados, tradução para português europeu, normalização, stemming e lematização. Foram implementados modelos de machine learning supervisionados, em particular Regressão Logística e Naive Bayes, que foram otimizados através de técnicas como SMOTE e ajuste de limiares, demonstrando elevada precisão e forte capacidade de cobertura (recall) para comentários negativos. Adicionalmente, foram aplicados métodos de modelação de tópicos (LDA e NMF) e categorização semântica, com o objetivo de extrair temas latentes e classificar os comentários em categorias relevantes para a gestão hoteleira. Os resultados foram operacionalizados através de dashboards interativos no software Power BI, que permitiram visualizar níveis de satisfação, tendências temporais, frequências de palavras e distribuições por categoria nos diferentes hotéis. Estes dashboards forneceram aos gestores hoteleiros insights práticos para identificar pontos fortes, pontos fracos e padrões sazonais na perceção dos clientes. O sistema foi ainda enriquecido com um processo automatizado de scraping para Google Reviews, garantindo a integração contínua dos comentários atualizados dos clientes. As conclusões confirmam que a análise de sentimento e as ferramentas de BI representam uma combinação poderosa para transformar dados textuais não estruturados em insights acionáveis. O estudo demonstra a viabilidade, escalabilidade e relevância estratégica desta abordagem, ao mesmo tempo que evidencia limitações relacionadas com a disponibilidade dos dados e com sobreposições semânticas. Em última instância, este trabalho contribui para o avanço da tomada de decisão baseada em dados na indústria hoteleira.
Description
Keywords
Sentiment Analysis Text mining Business Intelligence Hospitality Machine learning Online reputation
