Introdução

A previsão do resultado de uma partida de futebol envolve a consideração de diversos fatores, como o número de gols, o local do jogo, o número de substituições, entre outras variáveis. Para desenvolver um modelo preditivo, selecionou-se um conjunto de variáveis que podem ser relevantes para capturar a dinâmica da partida e determinar o desempenho de um time. As variáveis escolhidas são:

Objetivos

O objetivo é criar um modelo de Floresta Aleatória para prever o resultado de uma partida de futebol e avaliar quais variáveis contribuiram para tal desfecho. Espera-se que o modelo generalize bem para novos dados, garantindo previsões precisas além dos dados utilizados no treinamento.

Metodologia

Para atingir o objetivo proposto, vamos seguir os seguintes passos:

Resultados da modelagem

Importância das Variáveis - Floresta Aleatória

O Gráfico de Importância das Variáveis mostra valores altos tanto na Redução Média da Acurácia quanto na Redução Média do Gini, destacando as variáveis que mais contribuem para o desempenho do modelo. Em outras palavras, essas variáveis têm um impacto relevante na precisão das previsões. Observa-se que os gols marcados, gols sofridos, além do ranking do time e do adversário, são as variáveis mais importantes para o modelo. Esse resultado é intuitivo, pois o número de gols marcados e sofridos e a posição no ranking são fatores determinantes para o desfecho de uma partida, influenciando diretamente a chance de vitória.

Taxa de Erro por Número de Árvores

Esse gráfico mostra a taxa de erro do modelo de floresta aleatória em função do número de árvores, conforme ele vai sendo ajustado ao conjunto de dados. O gráfico possui três linhas de erro:

Matriz de Confusão

A matriz de confusão avaliou o desempenho do modelo de Floresta Aleatória na previsão de Ganhar e Não Ganhar em partidas de futebol. Nota-se que o modelo acertou 27443(soma da diagonal principal) e errou apenas 10(soma da diagonal secundária). A acurácia do modelo foi próximo a 100%, o que indica que o modelo é capaz de prever com precisão o resultado de uma partida de futebol.

Curva ROC

A curva ROC é uma métrica comum para avaliar a qualidade de um modelo de classificação. Ela mostra a relação entre a taxa de verdadeiros positivos (sensibilidade) e a taxa de falsos positivos (1 - especificidade) para diferentes limiares de decisão. Quanto mais próxima a curva estiver do canto superior esquerdo, melhor será o modelo. A área sob a curva (AUC) é uma medida resumida da qualidade do modelo, onde um valor de 1 indica um modelo perfeito e um valor de 0,5 indica um modelo aleatório. Neste caso, a curva ROC mostra que o modelo de floresta aleatória tem uma AUC de 1, o que indica um modelo muito bom para prever o resultado de uma partida de futebol.

Treinamento por Validação Cruzada

Por fim, utilizamos a validação cruzada com 5 folds para treinar o modelo de floresta aleatória. O gráfico mostra a acurácia média para cada valor de mtry (número de variáveis selecionadas aleatoriamente em cada split). O modelo atingiu uma acurácia média de aproximadamente 100% para todos os valores de mtry, o que indica que o modelo é capaz de prever com precisão o resultado de uma partida de futebol. O ponto referente a mtry = 5 indica uma menor variabilidade na acurácia e maior estabilidade. Isso sugere que o modelo pode ser treinado com um número menor de variáveis, mantendo a precisão das previsões.

Conclusão

O modelo de Floresta Aleatória foi capaz de prever com precisão o resultado de uma partida de futebol, atingindo uma acurácia média de aproximadamente 100%. As variáveis mais importantes para o modelo foram Gols marcados, Gols sofridos, Rank do time e Rank do adversário. A curva ROC mostrou uma AUC de 1, indicando um modelo excelente para prever vitórias e derrotas. A matriz de confusão confirmou a alta precisão do modelo, com apenas 10 erros em 27453 previsões. A validação cruzada com 5 folds mostrou que o modelo é robusto e generaliza bem para novos dados. Em resumo, o modelo de Floresta Aleatória é uma ferramenta poderosa para prever o resultado de partidas de futebol com base em variáveis como Gols, Idade dos Jogadores, Local do Jogo e Percentual de Estrangeiros.