Proposta de análise

Objetivos e Hipóteses

O objetivo desse trabalho é analisar a base de dados do campeonato brasileiro de futebol , a fim de mostrar as relações sobre aproveitamento e posição no campeonato , médias de pontuação por estado, média de pontuação para conquista do título e se os times rebaixados tendem a empatar mais e realmente precisam de no minimo 45 pontos para escapar do rebaixamento

Fonte dos dados

a fonte de dados foi a base de dados sobre o campeonato brasileiro desde 2009 , encontrada no site https://www.kaggle.com/joaotostes/classificacao-brasileirao-10-anos

library(readxl)
Data_Camp_Brasileiro <- read_excel("C:/Users/T-Gamer/Downloads/classificacao-brasileirao-10-anos/Data Camp Brasileiro.xlsx")
View(Data_Camp_Brasileiro)

Descrição do Conjunto de dados

Significado de cada variavel

Ano = Ano dos jogos

Posição = Posição na classificação do campeonato

Time = Time que esta disputando o campeonato (ex: flamengo,vasco,etc)

Pontos = total de pontos do time no campeonato

Vitoria = total de vitórias da equipe no campeonato

Empates = total de empates da equipe no campeonato

Derrotas = total de derrotas da equipe no campeonato

Gols pró = total de gols que a equipe marcou

Gols contra = total de gols que a equipe sofreu

Saldo Gols = (gols pró) - (gols contra)

Aproveitamento = porcentagem de como o time esta no campeonato de acordo com vitorias,empates e derrotas

Estados = Estado da equipe

Número de observações

a base de dados possui 200 linhas e 12 variaveis , que são referentes as partidas realizadas no campeonato brasileiro desde 2009

Métodos Utilizados

Boxplot : Um boxplot pode nos ajudar a visualizar o centro, a dispersão e a assimetria de um conjunto de dados. Além disso, ele é excelente para identificar e controlar valores extremos (outliers). Com ele, você consegue identificar facilmente, qual é o valor que representa melhor os seus dados (mediana).

Diagrama de Dispersão : Diagrama ou gráfico de dispersão é uma ferramenta que indica a existência, ou não, de relações entre variáveis de um processo e sua intensidade, representando duas ou mais variáveis uma em função da outra

Gráficos

Relação entre pontos e posição

plot(Data_Camp_Brasileiro$Pontos~Data_Camp_Brasileiro$Posição, col= "red", xlab= "Posição", ylab= "Pontos", main= "Pontos por Posição")
abline(lm(Data_Camp_Brasileiro$Pontos~Data_Camp_Brasileiro$Posição))

O Diagrama mostra, que em média , um time campeão , tende a ter 80 pontos, e também comprova que para escapar do rebaixamento , são necessãrios em média 45 pontos

Relação entre derrotas e posição

boxplot(Data_Camp_Brasileiro$Derrotas~Data_Camp_Brasileiro$Posição, col= "tomato", xlab= "Posição", ylab= "Derrotas", main= "Derrotas por Posição")

Podemos ver que a quantidade de derrotas é um fator importante para decidir o aproveitamento e o posicionamento do time no campeonato , pois mostra se o time está tendendo ao rebaixamento

Relação entre empates e posição

boxplot(Data_Camp_Brasileiro$Empates~Data_Camp_Brasileiro$Posição, col= "turquoise", xlab= "Posição", ylab= "Empates", main= "Empates por Posição")

Podemos perceber, que a quantidade de empates por posição não é linear, ou seja, não podemos dizer que um time em situação de rebaixamento tende a empatar mais ou não , logo, a quantidade de empates não parece ser um critério relevante

Relação entre vitórias e posição

boxplot(Data_Camp_Brasileiro$Vitoria~Data_Camp_Brasileiro$Posição, col= "magenta", xlab= "Posição", ylab= "Vitórias", main= "Vitórias por Posição")

A quantidade de vitórias é um fator importante pois influencia diretamente na média de pontos do campeão e na porcentagem de aproveitamento, além de seguir uma sequencia linear.

Relação entre aproveitamento e posição

Data_Camp_Brasileiro$Aproveitamento <- as.numeric(Data_Camp_Brasileiro$Aproveitamento)

boxplot(Data_Camp_Brasileiro$Aproveitamento~Data_Camp_Brasileiro$Posição, col= "yellowgreen", xlab= "Posição", ylab= "Aproveitamento", main= "Aproveitamento por Posição")

Os boxplots nos mostram que a Relação entre aproveitamento e posição , baseado no calculo entre vitorias, empates e derrotas , é um critério relevante , porém, nem sempre um bom aproveitamento é sinônimo de bom rendimento , ao mesmo tempo que uma equipe pode ter um bom aproveitamento sem ter um bom rendimento , uma equipe pode ter um aproveitamento mediano com um bom rendimento (que é o caso de equipes de pequeno porte que lutam para se manter na primeira divisão)

Relação entre pontos por estados

library(ggplot2)

ggplot(Data_Camp_Brasileiro) +
 aes(x = Estados, y = Pontos) +
 geom_boxplot(fill = "#0c4c8a") +
 labs(title = "médias de ponto por estados") +
 theme_minimal()

Podemos ver , que os estados que possuem maior média de pontos (RJ,MG,SP,RS) são os estados em que estão localizados os 12 maiores times do brasil , sendo os paulistas o destaque , o que tem relação direta com o fato de nos ultimos 10 anos, terem ganho o campeonato 5 vezes (2011,2015,2016,2017,2018)

SP > Corinthians, Santos , São Paulo e Palmeiras RJ > Flamengo, Fluminense, Vasco e Botafogo MG > Cruzeiro e Atletico MG RS > Grêmio e Internacional