A Série B do Campeonato Brasileiro é uma das principais competições de futebol do Brasil, sendo considerada uma das divisões de acesso à elite do futebol nacional, a Série A. Criada em 1971, a Série B tem como objetivo principal promover o desenvolvimento do futebol brasileiro, proporcionando aos clubes participantes a oportunidade de competir em um cenário nacional e buscar o acesso à primeira divisão. A competição é disputada anualmente por 20 clubes, que jogam entre si em um sistema de pontos corridos ao longo de uma temporada. Os quatro primeiros colocados garantem o acesso à Série A do ano seguinte, enquanto os quatro últimos são rebaixados para a Série C. A Série B é conhecida por sua competitividade e equilíbrio, com clubes de diferentes regiões do país lutando pelo acesso e enfrentando desafios ao longo da temporada. Além disso, a competição tem sido uma vitrine para jovens talentos e uma oportunidade para clubes menores se destacarem no cenário nacional.Com uma base sólida de torcedores e uma cobertura midiática significativa, a Série B do Campeonato Brasileiro continua a desempenhar um papel importante no panorama do futebol brasileiro, proporcionando emoção, rivalidades locais e histórias inspiradoras a cada temporada.
Este é um artigo que tem buscado dentro da base de dados fornecidas gratuitas e organizadas pelo autor desde de 2016 a 2023, ter como forma crítica e analítica em entender o comportamento de times de futebol e seus respectivos atletas e elenco. Além disso, compreender os dados pode ser crucial para um time evidenciar erros e acertos para um planejamento de um clube ao longo de 38 rodadas. A primeira parte deste projeto é fazer a análise descritiva dos dados buscando compreender as variáveis em análise e as características. Após esse processo, será realizada uma visualização gráfica como compreensão e correlação para explorar variáveis importantes como idade e tempo de jogo. Perguntas serão levantadas como tais times conseguiram o acesso série A e o rebaixamento à série C ou permaneceram na competição seja com vitórias,derrotas ou empates e suas respectivas pontuações. Ao longo do processo sempre que surgir novas ideias será feita uma nova atualização aqui.
O gráfico abaixo apresenta a média de idade dos atletas da Série B ao longo dos anos. Podemos observar uma tendência geral de aumento ou diminuição da idade média dos jogadores ao longo do tempo.
Este gráfico mostra a relação entre a idade dos jogadores e o ano da competição. Cada ponto representa um jogador em um determinado ano, e a cor indica a equipe à qual o jogador pertence.
| ano | media_idade |
|---|---|
| 2016 | 25.40650 |
| 2017 | 25.40803 |
| 2018 | 25.41296 |
| 2019 | 25.52183 |
| 2020 | 26.08269 |
| 2021 | 26.12523 |
| 2022 | 26.12523 |
A tabela abaixo apresenta os times que menos realizaram substituições em cada temporada da Série B. O critério de seleção foi o total de substituições realizadas ao longo da temporada.
| ano | Equipe | total_substituicoes | media_substituicoes_por_rodada |
|---|---|---|---|
| 2016 | Brasil (RS) | 112 | 2.947368 |
| 2016 | Goiás | 112 | 2.947368 |
| 2017 | Juventude | 114 | 3.000000 |
| 2018 | Coritiba | 112 | 2.947368 |
| 2019 | Botafogo (SP) | 112 | 2.947368 |
| 2020 | Londrina | 179 | 4.710526 |
| 2021 | CRB | 178 | 4.684210 |
| 2022 | CRB | 178 | 4.684210 |
| 2023 | Ceará | 184 | 4.842105 |
| 2023 | Chapecoense | 184 | 4.842105 |
O gráfico abaixo mostra os times que menos realizaram substituições em cada ano da Série B. As barras representam o total de substituições realizadas pelo time em uma temporada específica.
Os times listados abaixo foram os que mais marcaram gols em cada temporada da Série B, representando o melhor ataque da competição em cada ano.
| ano | Equipe | onG |
|---|---|---|
| 2016 | Náutico | 51 |
| 2017 | Londrina | 49 |
| 2018 | Atl Goianiense | 49 |
| 2019 | Bragantino | 55 |
| 2020 | Botafogo (RJ) | 43 |
| 2021 | Cruzeiro | 53 |
| 2022 | Cruzeiro | 53 |
| 2023 | Atl Goianiense | 54 |
A tabela abaixo mostra o jogador que mais pontuou por partida com sua equipe em cada temporada da Série B, considerando os pontos acumulados ao longo da temporada.
| ano | Jogador | PPM | Equipe |
|---|---|---|---|
| 2016 | Alan José Bernardon | 3 | Londrina |
| 2017 | Jorginho | 3 | CRB |
| 2018 | Paulo Keke | 3 | Vila Nova |
| 2019 | Rayne | 3 | Bragantino |
| 2020 | Gustavo Cipriano | 3 | Ponte Preta |
| 2021 | Matheus Mancini | 3 | Vila Nova |
| 2022 | Matheus Mancini | 3 | Vila Nova |
| 2023 | Rodrigo Ferreira | 3 | Mirassol Futebol Clube |
A tabela abaixo mostra o jogador que menos pontuou por partida com sua equipe em cada temporada da Série B, considerando os pontos acumulados ao longo da temporada.
| ano | Jogador | PPM | Equipe |
|---|---|---|---|
| 2016 | Marcos Vinicius Amaral Alves | 0 | Bragantino |
| 2017 | Juninho Beliato | 0 | ABC |
| 2018 | Jhon Cley | 0 | Boa |
| 2019 | Bruno Cosendey | 0 | Criciúma |
| 2020 | Luiz Gabriel | 0 | Coritiba |
| 2021 | Gustavo | 0 | CRB |
| 2022 | Gustavo | 0 | CRB |
| 2023 | Luís Hungria | 0 | Tombense Futebol Clube |
| ano | Equipe | Jogador | total_minutos_jogados | pontos_totais |
|---|---|---|---|---|
| 2016 | Atl Goianiense | Thales | 99 | 3.00 |
| 2016 | Londrina | Alan José Bernardon | 124 | 3.00 |
| 2016 | Londrina | Lucas Machado | 48 | 3.00 |
| 2016 | Vila Nova | Fernando | 303 | 2.67 |
| 2016 | Bahia | Wesley Natã | 259 | 2.60 |
| 2016 | Avaí | Luiz Gustavo | 331 | 2.50 |
A correlação é uma medida estatística que descreve a relação entre duas variáveis. Ela indica se e como as mudanças em uma variável estão associadas a mudanças na outra variável. Em outras palavras, a correlação mede a força e a direção da relação linear entre duas variáveis.
A fórmula da correlação mais comumente usada é a correlação de Pearson, que é representada por \(r\). A fórmula para calcular a correlação de Pearson entre duas variáveis \(X\) e \(Y\) é:
\[ r = \frac{n(\sum{XY}) - (\sum{X})(\sum{Y})}{\sqrt{[n\sum{X^2} - (\sum{X})^2][n\sum{Y^2} - (\sum{Y})^2]}} \]
Onde:
##
## Pearson's product-moment correlation
##
## data: basededadoserieb$MP and basededadoserieb$onG
## t = 104.44, df = 4090, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8442362 0.8609595
## sample estimates:
## cor
## 0.8528164
##
## Pearson's product-moment correlation
##
## data: basededadoserieb$onG and basededadoserieb$PPM
## t = 20.262, df = 4090, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2739246 0.3296211
## sample estimates:
## cor
## 0.3020306
##
## Pearson's product-moment correlation
##
## data: basededadoserieb$`Mn/Sub` and basededadoserieb$Idade
## t = 3.1546, df = 4090, p-value = 0.001619
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.01865386 0.07978735
## sample estimates:
## cor
## 0.04926675
##
## Pearson's product-moment correlation
##
## data: basededadoserieb$Idade and basededadoserieb$Subs.
## t = -2.1487, df = 4090, p-value = 0.03172
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.064154178 -0.002941123
## sample estimates:
## cor
## -0.03357914
O Teorema de Bayes é um princípio fundamental da teoria da probabilidade que descreve como atualizar nossas crenças sobre um evento dado novas evidências. Ele é especialmente útil em situações onde queremos calcular a probabilidade de um evento, dado que observamos outro evento relacionado. Essa fórmula nos diz como calcular a probabilidade condicional de um evento A ocorrer, dado que já observamos o evento B. Aqui está o que cada parte da fórmula significa:
\[ P(A|B) = \frac{P(B|A) \times P(A)}{P(B)} \]
Onde:
A fórmula do gráfico de densidade é uma maneira de estimar a distribuição de probabilidade subjacente dos dados. Ela suaviza os dados e cria uma função contínua que representa a densidade de probabilidade em cada ponto ao longo do intervalo dos dados. Isso nos permite visualizar como os valores dos dados estão distribuídos e identificar padrões, como picos e simetria, na distribuição.
\[ f(x) = \frac{1}{n \times h} \times \sum_{i=1}^{n} K\left(\frac{h}{x - x_i}\right) \]
Onde: