O Brasileirão é o mais disputado?

Quem acompanha futebol ouve constantemente que o campeonato brasileiro é o mais disputado do mundo pela quantidade de postulantes ao título. Porém essa tese nunca foi validada por nenhuma metodologia, por isso, venho aqui trazer uma pequena amostra sobre o que pode ser feito.

Pegando emprestado da literatura de desigualdade, o trabalho irá replicar o cálculo do índice Gini que primariamente serve para medir a desigualdade de renda dos países, porém iremos trocar a variavel renda pela variavel de total de pontos ganhos por cada clube ao final do campeonato.

Os campeonatos selecionados foram o Brasileirão, a Premier League (Inglaterra), conhecida por ser a liga mais rica do mundo e a La Liga (Espanha), conhecida por ser uma das mais desiguais. O período de análise é de 10 anos, de 2010 até 2019.

Scrapping dos dados

# Pacotes
library(htmltab) # scrapping das tabelas
library(tidyverse) # melhor pacote 
library(ineq) # Calculo do Indice Gini

# Scrapping dos dados

## Brasil

Br19 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2019_-_S%C3%A9rie_A",7)
Br18 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2018_-_S%C3%A9rie_A",6)
Br17 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2017_-_S%C3%A9rie_A",6)
Br16 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2016_-_S%C3%A9rie_A",7)
Br15 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2015_-_S%C3%A9rie_A",7)
Br14 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2014_-_S%C3%A9rie_A",7)
Br13 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2013_-_S%C3%A9rie_A",7)
Br12 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2012_-_S%C3%A9rie_A",5)
Br11 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2011_-_S%C3%A9rie_A",4)
Br10 <- htmltab("https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2010_-_S%C3%A9rie_A",4)

## Inglaterra

ing19 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2018%E2%80%9319',8)
ing18 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2017%E2%80%9318',8)
ing17 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2016%E2%80%9317',7)
ing16 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2015%E2%80%9316',7)
ing15 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2014%E2%80%9315',7)
ing14 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2013%E2%80%9314',4)
ing13 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2012%E2%80%9313',4)
ing12 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2011%E2%80%9312',4)
ing11 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2010%E2%80%9311',4)
ing10 <- htmltab('https://pt.wikipedia.org/wiki/Premier_League_de_2009%E2%80%9310',4)

## Espanha

esp19 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2018%E2%80%9319",9)
esp18 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2017%E2%80%9318",8)
esp17 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2016%E2%80%9317",7)
esp16 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2015%E2%80%9316",7)
esp15 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2014%E2%80%9315",7)
esp14 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2013%E2%80%9314",7)
esp13 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2012%E2%80%9313",5)
esp12 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2011%E2%80%9312",9)
esp11 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2010%E2%80%9311",6)
esp10 <- htmltab("https://pt.wikipedia.org/wiki/La_Liga_de_2009%E2%80%9310",8)

Alguns podem se perguntar porque não fiz um loop for. Sim, seria ótimo, mas as tabelas nunca estavam na mesma posição nas páginas da wikipedia e eu ainda estou iniciando no scrapping, se alguém quiser melhorar o código, manda para o meu email depois!

Resultados

Por esse método e para essa amostra, parece que na maior parte do tempo o campeonato brasileiro foi o mais disputado, porém recentemente parece que a La Liga teve um surto de competitividade e o Brasileirão um surto de desequilíbrio (Graças ao meu Flamengo).

Pode ser interessante outras formas de análise posteriores, como a comparação da distancia dos primeiros colocados contra os últimos e a adição de outros campeonatos na análise.

Uma limitação desse estudo é que os campeonatos nunca atingem a soma de pontuação máxima, na qual seria um campeonato sem empates e todos os clubes com 19 vitórias cada. Como essa seria a divisão igualitária de pontos, porém que provavelmente nunca será alcançada.