O futebol, é um dos esportes mais populares do mundo. Conta com uma infinidade de jogadores, competições, torcedores, profissionais de outras áreas (medicina,etc) que exercem suas funções no meio do futebol, marcas que o patrocinam, investimentos, enfim. Com isso, sempre ganha muita atenção, especialmente daqueles que gostam de acompanhar e tem times que os agradam, formando assim a torcida desses respectivos times. Cada país tem seus campeonatos regionais e nacionais e também existem os campeonatos que saem do âmbito nacional para algo maior. Fazendo uma análise do Futebol no Brasil, temos os campeonatos regionais, o campeonato brasileiro, a copa do Brasil. Partindo pra essas disputas fora do meio nacional (para o Brasil), temos a Libertadores da América e a Sul-Americana que alguns clubes se classificam, dependendo da colocação que eles estejam ao final do campeonato brasileiro. É possível chegar em outras competições com um bom resultado nessas citadas, mas para análise de hoje, vamos parar por aqui.
O objetivo dessa análise é passar pelas estatísticas do que aconteceu na série A e B do campeonato brasileiro de 2019, analisando algumas variáveis obtidas através de uma planilha no excel que eu mesmo criei, de acordo com pesquisas (sites para base estarão no final deste artigo). Vamos analisar diversas variáveis, como por exemplo, a região geográfica dos times que estão disputando a série A e B. Quais times se classificaram para Libertadores e Sul-Americana; Quais times foram rebaixados; A maior pontuação alcançada no ano de 2019 juntando a série A e B, entre outras análises. Usaremos gráficos, cores, números, para deixar o mais claro possível, todos os processos realizados.
Aqui, carregamos a base de dados onde contêm todas as informações que trabalharemos ao longo desse artigo.
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
corrplot 0.90 loaded
Gols pró, é referente a quantidade de gols que o time fez, -no nosso caso, durante todo campeonato de 2019-. Para nossa análise, vamos fazer a soma dos gols feito por todos os times da nossa base de dados.
[1] 1667
Gols contra por sua vez, é referente a quantidade de gols que o time levou, -no nosso caso, durante todo campeonato de 2019-. Para nossa análise, vamos fazer a soma dos gols que cada equipe tomou. A soma será feita entre todos os times da base de dados.
[1] 1667
Pudemos observar no capítulo anterior a soma dos gols pró e contra de todos os times na base. Mas será que podemos saber exatamente qual foi a maior quantidade de gols pró? E contra? E o maior número de pontos obtidos por um time na base de dados. Podemos e vamos além. Nesse passo vamos calcular a mínima, média, mediana e máxima (que vamos chamar de 4M) de algumas variáveis da base de dados Brasileiro 2019 - Série A e B.
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 41.00 49.50 51.38 61.25 90.00
Dentro de uma rápida análise, podemos perceber que o maior número de pontos conquistado em 2019 foi de 90 pontos, enquanto a menor pontuação registrada foi de 20 pontos. A média de pontuação ficou em 51 pontos, já a mediana ficou em 49 pontos.
Min. 1st Qu. Median Mean 3rd Qu. Max.
18.00 31.75 41.50 41.67 46.00 86.00
Já na análise dos Gols pró, podemos ver que o mínimo de gols que um time fez no campeonato brasileiro de 2019 (que estão em nossa base de dados), é de 18 gols, o máximo fez incríveis 86 gols. A média de gols no campeonato desse ano foi de 41, a mediana ficou também em 41.
Como falamos ao longo deste relatório, o campeonato brasileiro de futebol, é um campeonato que reune times de diversos lugares do Brasil. Nossa base de dados apresenta os times que fizeram parte da série A e B do campeonato brasileiro em 2019. Na nossa base de dados também é possível vermos de qual região geográfica esses times fazem parte. Analisando ainda mais nossa base de dados, podemos ver os times classificados para as demais competições, entre outras variáveis. Mas nesse momento, vamos fazer essas análises em forma de proporções. Ex: Quantos % dos times da base de dados, ficam no Sul do Brasil? E no sudeste? É isso que vamos ver agora, na nossa primeira análise com proporções.
Centro-Oeste Nordeste Sudeste Sul
10.0 17.5 42.5 30.0
Podemos perceber então que 10% dos times pertencem ao Centro-Oeste do Brasil, 17,5% ao Nordeste, 42,5 ao Sudeste e 30% pertencem ao Sul do Brasil.
Agora vamos transformar essas porcentagens em números exatos. Quantos times do Centro-Oeste, Nordeste, Sudeste e Sul, estão na série A? E quantos estão na série B? Vamos fazer essa análise agora.
Através dessa tabela, evidenciamos a quantidade de times, separados por região e a sua respectiva série. Vamos lá: O Centro-Oeste contou com 4 times disputando o brasileirão 2019, 1 na série A e 3 na série B. O Nordeste teve 7 times sendo 4 na série A e 3 na B. O Sudeste foi a região com mais representantes, com soma de 17 times, sendo 10 na série A e 7 na B. E por fim o Sul contou com 12 times, sendo 5 na série A e 7 na série B. Podemos análisar isso também através do gráfico abaixo.
Avaliando nossa base de dados, vamos que temos 40 times. Pensando em como funciona o campeonato brasileiro, existe uma taxa de vagas para libertadores. Vamos fazer agora a análise de proporção de quantos se classificaram e quantos não alcançaram a classificação.
NÃO SIM
80 20
Podemos ver que 20% dos times alcançaram a classificação para Libertadores, enquanto 80% dos times não se classificaram. Agora vamos olhar esses dados em um gráfico.
Agora que temos análises sobre a região dos times e também os números de classificados para libertador, que tal vermos quantos times (por região) se classificaram? Vamos lá:
Analisando a tabela acima, podemos perceber que apenas times do Sudeste (5 times) e Sul (3) conseguiram vaga para a libertadores.
Para nossa última análise vamos usar uma outra variável, que é o do rebaixamento. Os times rebaixados são aqueles que ocupam as últimas colocações, os que possuem menos pontos ao final do campeonato. Vamos analisar de acordo com nossa base de dados.
NÃO SIM
80 20
Podemos ver que a tabela nos mostra que 20% dos times da nossa base de dados foram rebaixados ao final do campeonato brasileiro de 2019. Vamos ver essa representação em um gráfico.
Já temos muitos parâmetros interessantes nessas análises, você não acha? E poderiamos fica aqui por muito tempo e fazermos diversos outros experimentos e análises, porém, vamos seguir o nosso relatório com outras análises.
Nessa etapa vou fazer uma análise dentro das variáveis do banco de dados utilizado neste projeto, onde através dos gráficos vamos criar as definições que desejamos.
Analisando através do gráfico Boxplot, percebemos que nessa variável existe um outliers, que a mediana está muito próxima do 3º quartil, que o diagrama é levemente assimétrico e concentrado.
Agora vamos analisar os gols contra
Analisando através do gráfico Boxplot, percebmos que nessa variável não existe outliers, que a mediana é minimamente mais próxima ao 1º quartil, o diagrama é simétrico e concentrado.
Uma matriz de correlação é uma ferramenta poderosa no entendimento das relações entre variáveis, e as variáveis que vamos usar para nossa matriz serão: Gols Pró, Gols Contra, Pontos e Colocação.
Utilizamos no teste de Shapiro as seguintes condições:
Hipótese nula: os dados são normalmente distribuídos Hipótese alternativa: os dados não são normalmente distribuidos.
Determinamos como nosso alpha o valor de 0,05. Então temos as seguintes atribuições para os resultados:
Se pvalor menor que 0,05 rejeitamos o H0 (Hipótese nula), sendo atribuído ao resultado, a hipótese alternativa (H1) Se pvalor maior que 0,05 NÃO rejeitamos o H0 (Hipótese nula)
Aqui vamos visualizar um histograma com a quantidade de times distribuidos pelas pontuações que foram obtidas durante o ano de 2019.
Shapiro-Wilk normality test
data: BRASILEIRO2019$Pontos
W = 0.97657, p-value = 0.5641
Após os testes realizados na variável Pontos, podemos concluir que os dados são normalmente distribuídos. Pois o resultado obtido foi de p-value = 0.5641, ou seja, maior que nosso alpha 0,05.
Shapiro-Wilk normality test
data: BRASILEIRO2019$Colocação
W = 0.95101, p-value = 0.08215
Após os testes realizados na variável Colocação, podemos concluir que os dados são normalmente distribuídos. Pois o resultado obtido foi de p-value = 0.08215, ou seja, maior que nosso alpha 0,05.
Shapiro-Wilk normality test
data: BRASILEIRO2019$`Gols Pró`
W = 0.92581, p-value = 0.01178
Após os testes realizados na variável Gols Pró, podemos concluir que os dados não são normalmente distribuídos. Pois o resultado obtido foi de p-value = 0.01178, ou seja, menor que nosso alpha 0,05.
shapiro.test(BRASILEIRO2019$`Gols contra`)##
## Shapiro-Wilk normality test
##
## data: BRASILEIRO2019$`Gols contra`
## W = 0.96327, p-value = 0.2164
Após os testes realizados na variável Gols Contra, podemos concluir que os dados são normalmente distribuídos. Pois o resultado obtido foi de p-value = 0.2164, ou seja, maior que nosso alpha 0,05.
Após tantas análises, gráficos, números, testes, chegamos ao final do nosso relatório. Podemos ver que, apesar do futebol um esporte muito famoso e praticado no país inteiro, e no mundo também, no Brasil, focando no campeonato de 2019, houve uma supremacia dos times da região Sudeste e Sul disputando as séries A e B. Podemos ver também a ausência de times da região Norte. Sendo assim, podemos concluir que os times mais fortes estão dentro dessas regiões.
Vimos também que em 2019 a maior pontuação obtida por um clube foi de 90 pontos, e esse time foi o Flamengo. Analisamos também as regiões dos times que conseguiram a classificação para Libertadores, times apenas da região Sudeste e sul, o que reforço o parágrafo anterior, onde falamos da supremacia dessas duas regiões em um comparativo com as demais. Dentro de tantas outras análises que abordamos neste artigo.
Tabela final do campeonato Brasileiro de 2019, Série A. Disponível em: https://www.cbf.com.br/futebol-brasileiro/competicoes/campeonato-brasileiro-serie-a/2019. Acesso em: 20 de setembro de 2021
Tabela final do campeonato Brasileiro de 2019, Série B. Disponível em: https://www.cbf.com.br/futebol-brasileiro/competicoes/campeonato-brasileiro-serie-b/2019. Acesso em: 20 de setembro de 2021
Mapa das regiões gráficas do Brasil. Disponível em: https://www.coladaweb.com/geografia-do-brasil/as-cinco-regioes-do-brasil. Acesso em: 20 de setembro de 2021.
História do Futebol. Disponível em: https://www.google.com/search?q=hist%C3%B3ria+do+futebol&oq=hist%C3%B3ria+do+futebol&aqs=chrome. Acesso em: 20 de setembro de 2021
Logo do campeonato brasileiro de 2019. Disponível em: https://www.elo7.com.br/vetores-do-campeonato-brasileiro-de-futebol-2021-serie-a/dp/15735D1. Acesso em: 22 de setembro de 2021
Site para escolha de layout. Disponível em: https://bootswatch.com. Acesso em: 22 de setembro de 2021
Mapa das regiões gráficas do Brasil. Disponível em: https://img.elo7.com.br/product/zoom/23CB936/banner-mapa-do-brasil-65x65cm-brasil.jpg. Acesso em: 21 de setembro de 2021