análise de dados da NBA e suas reamostragem

Aldrei Peralta

2023-12-19

História

A técnica Monte Carlo recebeu esse nome em referência ao famoso cassino Monte Carlo, localizado no principado de Mônaco. A escolha desse nome foi feita pelo físico nuclear norte-americano Stanislaw Ulam e seu colega matemático John von Neumann na década de 1940.

Durante a visita de Ulam a Monte Carlo, ele pensou em aplicar o método de amostragem estatística aleatória para resolver problemas complexos, inspirando-se na incerteza associada aos jogos de azar no cassino. Essa abordagem foi formalizada e desenvolvida para resolver uma variedade de problemas em física, matemática, finanças e outros campos, e o nome “Monte Carlo” acabou sendo adotado para descrever essa técnica de simulação baseada em amostragem aleatória

Uma história curiosa sobre o Cassino Monte Carlo é que, em 1913, aconteceu um evento extraordinário na roleta. A roleta tinha caído na cor preta 26 vezes consecutivas, o que foi uma sequência incrivelmente improvável.

Isso atraiu a atenção de jogadores e matemáticos, pois desafiava as probabilidades comuns. Muitos jogadores começaram a apostar grandes somas de dinheiro na próxima jogada, esperando que a sequência de preto fosse quebrada. Surpreendentemente, a roleta caiu no vermelho na 27ª rodada, causando grandes perdas para aqueles que confiaram na continuação da sequência.

Essa sequência ficou conhecida como a “Quebra da Banca de Monte Carlo” e serviu como exemplo notável de como até mesmo eventos altamente improváveis podem ocorrer em jogos de azar.

Introdução

A NBA é a principal liga de basquete do mundo, ela possui 30 times e 82 partidas na temporada regular são disputadas. A quantidade de amostragem de dados é extremamente alta e consistente referente a cada subpopulação. Serão observados 2460 jogos neste trabalho que terá como base a técnica Bootstrap. Foram coletados tais dados no site Basketball reference que tem informações desde 1969 dos times pertencentes a franquia, são públicos de acesso livre.

Aqui é interessante entender como eu irei abordar estatisticamente essa população, seguindo alguns critérios como pontos que são determinador de vitória ou derrota no basquete não existe empate como resultado final apenas prorrogação e não foi levado em consideração essa OT. A principal características são de fato entender como cada time irá se comportar e aplicará a reamostragem!

Aplicação

Como foi abordado a primeira impressão foi entender que precisava unir os bancos de dados dos 30 times para que fosse feito o estudo. Além disso, pontos importantes como mutate para reescrever através da função que uma coluna precisaria indicar a Equipe. Então, foi aplicado. A organização dos dados são obrigatorios pois a necessidade de especificar a reamostragem para cada equipe e não só da liga. Pois, mas que eles possuem aleatoriedade a coleta da amostra tem significado maior quando se identifica padrões e observações de cada equipe. Da parte que une todos os times, pode ser visualizada por gráfico que é muito eficiente do que fingir que cada dado unico da equipe não exista!

Teoria aplicada

## function(data, indices) {
##   amostra_bootstrap <- data[indices, ]
##   return(mean(amostra_bootstrap$Tm))
## }
## 
## ORDINARY NONPARAMETRIC BOOTSTRAP
## 
## 
## Call:
## boot(data = df_final, statistic = estatistica_interesse, R = n_resamples)
## 
## 
## Bootstrap Statistics :
##     original      bias    std. error
## t1* 114.7347 0.005447029   0.2461813

Métodos e resultados

Manly 1997

A amostra tinha que ser o dobro de replicações.

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 5000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = resultados_bootstrap, type = "bca")
## 
## Intervals : 
## Level       BCa          
## 95%   (114.3, 115.2 )  
## Calculations and Intervals on Original Scale
##                Atlanta         Boston Celtics          Brooklyn Nets 
##               118.3976               117.9390               113.3537 
##      charlotte_hornets          chicago_bulls                 dallas 
##               110.9512               112.8095               114.2195 
##         denver_nuggets        detroit_pistons           golden_state 
##               115.7927               110.3049               118.9390 
##        houston_rockets         indiana_pacers   los_angeles_clippers 
##               110.7439               116.2805               113.5854 
##     los_angeles_lakers      memphis_frizzlies             miami_heat 
##               117.0602               116.9146               109.3333 
##        milwaukee_bucks minnesota_timberwolves   new_orleans_pelicans 
##               116.9390               115.6667               114.4096 
##       new_yorck_knicks  oklahoma_city_thunder          orlando_magic 
##               116.0244               117.2738               111.4146 
##     philadelphia_76ers           phoenix_suns portland_trail_blazers 
##               115.2195               113.6463               113.4024 
##             sacramento      san_antonio_spurs        toronto_raptors 
##               120.7073               113.0366               112.7590 
##              utah_jazz       washiton_wizards 
##               117.0732               113.1585
##         Boston Celtics          Brooklyn Nets      charlotte_hornets 
##             -0.4585660             -4.5853659             -2.4024390 
##          chicago_bulls                 dallas         denver_nuggets 
##              1.8583043              1.4099884              1.5731707 
##        detroit_pistons           golden_state        houston_rockets 
##             -5.4878049              8.6341463             -8.1951220 
##         indiana_pacers   los_angeles_clippers     los_angeles_lakers 
##              5.5365854             -2.6951220              3.4748751 
##      memphis_frizzlies             miami_heat        milwaukee_bucks 
##             -0.1456068             -7.5813008              7.6056911 
## minnesota_timberwolves   new_orleans_pelicans       new_yorck_knicks 
##             -1.2723577             -1.2570281              1.6147517 
##  oklahoma_city_thunder          orlando_magic     philadelphia_76ers 
##              1.2494193             -5.8591754              3.8048780 
##           phoenix_suns portland_trail_blazers             sacramento 
##             -1.5731707             -0.2439024              7.3048780 
##      san_antonio_spurs        toronto_raptors              utah_jazz 
##             -7.6707317             -0.2775492              4.3141346 
##       washiton_wizards 
##             -3.9146341
## [1] 117.939
## [1] 115.7927
## [1] 2.146341
## [1] 82
## [1] 144.6506
## [1] 126.2404
## [1] 11.63811
## 
##  Two Sample t-test
## 
## data:  (df_final$Tm[df_final$Equipe == "Boston Celtics"]) and (df_final$Tm[df_final$Equipe == "denver_nuggets"])
## t = 1.1809, df = 162, p-value = 0.1197
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -0.8604845        Inf
## sample estimates:
## mean of x mean of y 
##  117.9390  115.7927
## [1] 1.180887
## [1] 1.974716
## [1] 0.1196892

Ordinary Nonparametric Bootstrap

Estatística Original (original):

O valor original da estatística de interesse (média da variável Tm) no seu conjunto de dados original é 114.7347. Viés (bias):

O viés é uma medida de quão diferente a estimativa do Bootstrap é do valor real. Neste caso, o viés é muito pequeno, indicado pelo valor 0.008105439. Um viés pequeno sugere que a estimativa do bootstrap está próxima do valor real. Erro Padrão (std. error):

O erro padrão é uma medida de dispersão das estimativas do Bootstrap. Ele fornece uma ideia da precisão da estimativa. No seu caso, o erro padrão é 0.242047. Um erro padrão moderado sugere alguma variabilidade nas estimativas do bootstrap. Notação “t1”:*

A notação “t1*” representa a média da variável Tm na amostra bootstrap.

Em resumo, os resultados indicam que a média da pontuação (Tm) estimada pelo bootstrap é próxima da média real no seu conjunto de dados original, com um viés pequeno e um erro padrão moderado. Isso sugere que a estimativa bootstrap é confiável e fornece uma boa aproximação da verdadeira média da pontuação.

Conclusão

A análise bootstrap realizada forneceu insights valiosos e robustos sobre o Analise de dados na nba. Através da ressimulação de amostras, podemos obter estimativas mais precisas e compreender melhor a variabilidade subjacente aos nossos dados.

Os resultados indicam que a estimativa é muito semelhante a amostra. Os intervalos de confiança bootstrap revelaram uma estimativa confiável para parâmetro de interesse, fornecendo uma faixa realista para a verdadeira população.

As visualizações gráficas, incluindo utilizados, como histogramas, gráficos de densidade, etc., corroboraram as conclusões quantitativas, destacando padrões interessantes e fornecendo uma representação visual clara da distribuição dos dados.