A previsão do resultado de uma partida de futebol envolve a consideração de diversos fatores, como o número de gols, o local do jogo, o número de substituições, entre outras variáveis. Para desenvolver um modelo preditivo, selecionou-se um conjunto de variáveis que podem ser relevantes para capturar a dinâmica da partida e determinar o desempenho de um time. As variáveis escolhidas são:
O objetivo é criar um modelo de Floresta Aleatória para prever o resultado de uma partida de futebol e avaliar quais variáveis contribuiram para tal desfecho. Espera-se que o modelo generalize bem para novos dados, garantindo previsões precisas além dos dados utilizados no treinamento.
Para atingir o objetivo proposto, vamos seguir os seguintes passos:
O Gráfico de Importância das Variáveis mostra valores altos tanto na Redução Média da Acurácia quanto na Redução Média do Gini, destacando as variáveis que mais contribuem para o desempenho do modelo. Em outras palavras, essas variáveis têm um impacto relevante na precisão das previsões. Observa-se que os gols marcados, gols sofridos, além do ranking do time e do adversário, são as variáveis mais importantes para o modelo. Esse resultado é intuitivo, pois o número de gols marcados e sofridos e a posição no ranking são fatores determinantes para o desfecho de uma partida, influenciando diretamente a chance de vitória.
Esse gráfico mostra a taxa de erro do modelo de floresta aleatória em função do número de árvores, conforme ele vai sendo ajustado ao conjunto de dados. O gráfico possui três linhas de erro:
OOB (Out-of-Bag), em vermelho: representa o erro estimado usando a técnica de amostras fora da bolsa, ou seja, o erro calculado para observações que não foram incluídas na construção de cada árvore. A linha OOB fornece uma estimativa do erro geral do modelo;
Classe 0, em verde: representa o erro para a classe 0 (ou seja, para as observações que não são vitórias);
Classe 1, em azul: representa o erro para a classe 1 (ou seja, para as observações de vitórias);
Início das árvores (próximo de 0 a 20 árvores): O erro é mais alto e apresenta uma variabilidade significativa. Isso ocorre porque o modelo ainda está em fase inicial de construção e possui poucas árvores, o que significa menor capacidade de generalização;
Erro ao fim de 100 árvores: No final do gráfico (com 100 árvores), o erro praticamente se estabilizou em um valor muito baixo, próximo de zero para todas as linhas de erro (OOB, classe 0 e classe 1). Isso sugere que o modelo conseguiu aprender bem o padrão dos dados para prever tanto vitórias quanto derrotas, mantendo uma baixa taxa de erro.
A matriz de confusão avaliou o desempenho do modelo de Floresta Aleatória na previsão de Ganhar e Não Ganhar em partidas de futebol. Nota-se que o modelo acertou 27443(soma da diagonal principal) e errou apenas 10(soma da diagonal secundária). A acurácia do modelo foi próximo a 100%, o que indica que o modelo é capaz de prever com precisão o resultado de uma partida de futebol.
A curva ROC é uma métrica comum para avaliar a qualidade de um modelo
de classificação. Ela mostra a relação entre a taxa de verdadeiros
positivos (sensibilidade) e a taxa de falsos positivos (1 -
especificidade) para diferentes limiares de decisão. Quanto mais próxima
a curva estiver do canto superior esquerdo, melhor será o modelo. A área
sob a curva (AUC) é uma medida resumida da qualidade do modelo, onde um
valor de 1 indica um modelo perfeito e um valor de 0,5 indica um modelo
aleatório. Neste caso, a curva ROC mostra que o modelo de floresta
aleatória tem uma AUC de 1, o que indica um modelo muito bom para prever
o resultado de uma partida de futebol.
Por fim, utilizamos a validação cruzada com 5 folds para treinar o modelo de floresta aleatória. O gráfico mostra a acurácia média para cada valor de mtry (número de variáveis selecionadas aleatoriamente em cada split). O modelo atingiu uma acurácia média de aproximadamente 100% para todos os valores de mtry, o que indica que o modelo é capaz de prever com precisão o resultado de uma partida de futebol. O ponto referente a mtry = 5 indica uma menor variabilidade na acurácia e maior estabilidade. Isso sugere que o modelo pode ser treinado com um número menor de variáveis, mantendo a precisão das previsões.
O modelo de Floresta Aleatória foi capaz de prever com precisão o resultado de uma partida de futebol, atingindo uma acurácia média de aproximadamente 100%. As variáveis mais importantes para o modelo foram Gols marcados, Gols sofridos, Rank do time e Rank do adversário. A curva ROC mostrou uma AUC de 1, indicando um modelo excelente para prever vitórias e derrotas. A matriz de confusão confirmou a alta precisão do modelo, com apenas 10 erros em 27453 previsões. A validação cruzada com 5 folds mostrou que o modelo é robusto e generaliza bem para novos dados. Em resumo, o modelo de Floresta Aleatória é uma ferramenta poderosa para prever o resultado de partidas de futebol com base em variáveis como Gols, Idade dos Jogadores, Local do Jogo e Percentual de Estrangeiros.