O Brasileirão é o mais disputado?
Quem acompanha futebol ouve constantemente que o campeonato brasileiro é o mais disputado do mundo pela quantidade de postulantes ao título. Porém essa tese nunca foi validada por nenhuma metodologia, por isso, venho aqui trazer uma pequena amostra sobre o que pode ser feito.
Pegando emprestado da literatura de desigualdade, o trabalho irá replicar o cálculo do índice Gini que primariamente serve para medir a desigualdade de renda dos países, porém iremos trocar a variavel renda pela variavel de total de pontos ganhos por cada clube ao final do campeonato.
Os campeonatos selecionados foram o Brasileirão, a Premier League (Inglaterra), conhecida por ser a liga mais rica do mundo e a La Liga (Espanha), conhecida por ser uma das mais desiguais. O período de análise é de 10 anos, de 2010 até 2019.
Scrapping dos dados
# Pacotes
library(htmltab) # scrapping das tabelas
library(tidyverse) # melhor pacote
library(ineq) # Calculo do Indice Gini
# Scrapping dos dados
## Brasil
Br19 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2019_-_S%C3%A9rie_A",7)
Br18 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2018_-_S%C3%A9rie_A",6)
Br17 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2017_-_S%C3%A9rie_A",6)
Br16 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2016_-_S%C3%A9rie_A",7)
Br15 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2015_-_S%C3%A9rie_A",7)
Br14 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2014_-_S%C3%A9rie_A",7)
Br13 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2013_-_S%C3%A9rie_A",7)
Br12 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2012_-_S%C3%A9rie_A",5)
Br11 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2011_-_S%C3%A9rie_A",4)
Br10 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2010_-_S%C3%A9rie_A",4)
## Inglaterra
ing19 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2018%E2%80%9319',8)
ing18 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2017%E2%80%9318',8)
ing17 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2016%E2%80%9317',7)
ing16 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2015%E2%80%9316',7)
ing15 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2014%E2%80%9315',7)
ing14 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2013%E2%80%9314',4)
ing13 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2012%E2%80%9313',4)
ing12 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2011%E2%80%9312',4)
ing11 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2010%E2%80%9311',4)
ing10 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2009%E2%80%9310',4)
## Espanha
esp19 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2018%E2%80%9319",9)
esp18 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2017%E2%80%9318",8)
esp17 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2016%E2%80%9317",7)
esp16 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2015%E2%80%9316",7)
esp15 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2014%E2%80%9315",7)
esp14 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2013%E2%80%9314",7)
esp13 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2012%E2%80%9313",5)
esp12 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2011%E2%80%9312",9)
esp11 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2010%E2%80%9311",6)
esp10 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2009%E2%80%9310",8)
Alguns podem se perguntar porque não fiz um loop for. Sim, seria ótimo, mas as tabelas nunca estavam na mesma posição nas páginas da wikipedia e eu ainda estou iniciando no scrapping, se alguém quiser melhorar o código, manda para o meu email depois! lucaseqt@hotmail.com
Pré Processamento
# Adicionando coluna ANO
## Brasil
Br19$Ano <- 2019
Br18$Ano <- 2018
Br17$Ano <- 2017
Br16$Ano <- 2016
Br15$Ano <- 2015
Br14$Ano <- 2014
Br13$Ano <- 2013
Br12$Ano <- 2012
Br11$Ano <- 2011
Br10$Ano <- 2010
## Inglaterra
ing19$Ano <- 2019
ing18$Ano <- 2018
ing17$Ano <- 2017
ing16$Ano <- 2016
ing15$Ano <- 2015
ing14$Ano <- 2014
ing13$Ano <- 2013
ing12$Ano <- 2012
ing11$Ano <- 2011
ing10$Ano <- 2010
## Espanha
esp19$Ano <- 2019
esp18$Ano <- 2018
esp17$Ano <- 2017
esp16$Ano <- 2016
esp15$Ano <- 2015
esp14$Ano <- 2014
esp13$Ano <- 2013
esp12$Ano <- 2012
esp11$Ano <- 2011
esp10$Ano <- 2010
# Juntando os dados
## Brasil
names(Br13)[3] <- "P"
names(Br14)[3] <- "P"
names(Br11)[3] <- "P"
names(Br10)[3] <- "P"
Brasil <- bind_rows(Br19,Br18,Br17,Br16,Br15,Br14,Br13,Br12,Br11,Br10)
## Inglaterra
names(ing10)[3] <- "Pts"
Inglaterra <- bind_rows(ing19,ing18,ing17,ing16,ing15,ing14,ing13,ing12,ing11,ing10)
Inglaterra <- Inglaterra[-201,]
## Espanha
names(esp11)[3] <- "Pts"
Espanha <- bind_rows(esp19,esp18,esp17,esp16,esp15,esp14,esp13,esp12,esp11,esp10)
Resultados
# Calculando os indices
## Brasil
Gini_Brasil <- Brasil %>%
group_by(Ano) %>%
summarise(Gini_Brasilerao = ineq(P,type = "Gini"))
## Inglaterra
Gini_Inglaterra <- Inglaterra %>%
group_by(Ano) %>%
summarise(Gini_Premier_League = ineq(Pts,type = "Gini"))
## Espanha
Gini_Espanha <- Espanha %>%
group_by(Ano) %>%
summarise(Gini_La_Liga = ineq(Pts,type = "Gini"))
# Juntando os índices
Agrupado <- Gini_Brasil %>%
left_join(Gini_Inglaterra) %>%
left_join(Gini_Espanha)
# Graficos
Agrupado %>%
gather("Pais","Gini",-Ano) %>%
ggplot(aes(Ano,Gini)) +
geom_line(aes(colour = Pais),size = 2) +
theme_classic() +
scale_y_continuous(breaks = seq(from = 0.1,to = 0.2,by = 0.1)) +
scale_x_continuous(breaks = seq(from = 2010,to = 2019, by = 1)) +
geom_point() +
labs(title = "Desigualdade nos campeonatos nacionais")
Por esse método e para essa amostra, parece que na maior parte do tempo o campeonato brasileiro foi o mais disputado, porém recentemente parece que a La Liga teve um surto de competitividade e o Brasileirão um surto de desequilíbrio (Graças ao meu Flamengo).
Pode ser interessante outras formas de análise posteriores, como a comparação da distancia dos primeiros colocados contra os últimos e a adição de outros campeonatos na análise.
Uma limitação desse estudo é que os campeonatos nunca atingem a soma de pontuação máxima, na qual seria um campeonato sem empates e todos os clubes com 19 vitórias cada. Como essa seria a divisão igualitária de pontos, porém que provavelmente nunca será alcançada.