Título
Predicting success in latin-language cinema: A machine learning approach to identify key factors in film Performance
Autor
Moura, Margarida Paias
Resumo
pt
Esta tese tem como objetivo de identificar os principais fatores que influenciam o resultados na previção do sucesso de filmes em línguas latinas. Focando em filmes em português, francês, espanhol, italiano, romeno, galego, catalão e provençal, o estudo aborda uma lacuna na investigação, que frequentemente se centra nos cinemas de língua inglesa e indiana.
Foi criado um conjunto de dados abrangente, incluindo variáveis como orçamento, popularidade do elenco, influência do realizador e data de lançamento, com o objetivo de identificar as características que mais afetam o sucesso de um filme. Esta pesquisa aplica técnicas de aprendizagem automática para prever o sucesso de filmes, como um problema de classificação binário. Após comparar algoritmos como Random Forest, Support Vector Machines (SVM), K-Nearest Neighbors (KNN), XGBoost e Redes Neuronais, o modelo XGBoost demonstrou um desempenho superior. Os resultados revelam que fatores como a popularidade do filme, o elenco e o orçamento têm um impacto significativo no sucesso da produção. Este estudo oferece observações valiosas para cineastas e profissionais da indústria, permitindo decisões baseadas em dados para aumentar o sucesso das produções em línguas latinas. Futuramente poderão ser incorporadas métricas de sentimentos nas
redes sociais e de envolvimento do público para melhorar ainda mais a precisão preditiva.
Este trabalho contribui para uma melhor compreensão dos determinantes de sucesso na indústria cinematográfica em línguas latinas, destacando o potencial da aprendizagem automática para fornecer observações baseadas em dados a um segmento sub-representado do cinema global.
en
This dissertation aims to identify the key factors that influence the prediction of success in Latin-language films. Focusing on Portuguese, French, Spanish, Italian, Romanian, Galician, Catalan, and Occidental films, the study addresses a gap in research often centered on English-speaking and Indian cinemas. A comprehensive dataset consolidating information, including variables like budget, revenue, cast popularity, director influence, and release date, was developed to identify features that most affect a movie’s success. This research applies machine learning to predict the movie’s success, as a binary classification problem. After comparing algorithms such as Random Forest, SVM, KNN, XGBoost, and Neural Networks, the XGBoost model demonstrated superior performance. Findings reveal that factors like movie popularity, cast, and budget significantly impact the movie’s success. This study offers valuable insights for filmmakers and industry professionals, enabling data-driven decisions to enhance the success of Latin-language productions. Future research may incorporate social media sentiment and audience engagement metrics to improve predictive accuracy further. This work contributes to a better understanding of success determinants in the Latin-language film industry, highlighting the potential of machine learning to provide data-driven insights into an underrepresented segment of global cinema.