Aldrei Peralta
2023-12-19
A técnica Monte Carlo recebeu esse nome em referência ao famoso cassino Monte Carlo, localizado no principado de Mônaco. A escolha desse nome foi feita pelo físico nuclear norte-americano Stanislaw Ulam e seu colega matemático John von Neumann na década de 1940.
Durante a visita de Ulam a Monte Carlo, ele pensou em aplicar o método de amostragem estatística aleatória para resolver problemas complexos, inspirando-se na incerteza associada aos jogos de azar no cassino. Essa abordagem foi formalizada e desenvolvida para resolver uma variedade de problemas em física, matemática, finanças e outros campos, e o nome “Monte Carlo” acabou sendo adotado para descrever essa técnica de simulação baseada em amostragem aleatória
Uma história curiosa sobre o Cassino Monte Carlo é que, em 1913, aconteceu um evento extraordinário na roleta. A roleta tinha caído na cor preta 26 vezes consecutivas, o que foi uma sequência incrivelmente improvável.
Isso atraiu a atenção de jogadores e matemáticos, pois desafiava as probabilidades comuns. Muitos jogadores começaram a apostar grandes somas de dinheiro na próxima jogada, esperando que a sequência de preto fosse quebrada. Surpreendentemente, a roleta caiu no vermelho na 27ª rodada, causando grandes perdas para aqueles que confiaram na continuação da sequência.
Essa sequência ficou conhecida como a “Quebra da Banca de Monte Carlo” e serviu como exemplo notável de como até mesmo eventos altamente improváveis podem ocorrer em jogos de azar.
Introdução
A NBA é a principal liga de basquete do mundo, ela possui 30 times e 82 partidas na temporada regular são disputadas. A quantidade de amostragem de dados é extremamente alta e consistente referente a cada subpopulação. Serão observados 2460 jogos neste trabalho que terá como base a técnica Bootstrap. Foram coletados tais dados no site Basketball reference que tem informações desde 1969 dos times pertencentes a franquia, são públicos de acesso livre.
Aqui é interessante entender como eu irei abordar estatisticamente essa população, seguindo alguns critérios como pontos que são determinador de vitória ou derrota no basquete não existe empate como resultado final apenas prorrogação e não foi levado em consideração essa OT. A principal características são de fato entender como cada time irá se comportar e aplicará a reamostragem!
Como foi abordado a primeira impressão foi entender que precisava unir os bancos de dados dos 30 times para que fosse feito o estudo. Além disso, pontos importantes como mutate para reescrever através da função que uma coluna precisaria indicar a Equipe. Então, foi aplicado. A organização dos dados são obrigatorios pois a necessidade de especificar a reamostragem para cada equipe e não só da liga. Pois, mas que eles possuem aleatoriedade a coleta da amostra tem significado maior quando se identifica padrões e observações de cada equipe. Da parte que une todos os times, pode ser visualizada por gráfico que é muito eficiente do que fingir que cada dado unico da equipe não exista!
## function(data, indices) {
## amostra_bootstrap <- data[indices, ]
## return(mean(amostra_bootstrap$Tm))
## }
##
## ORDINARY NONPARAMETRIC BOOTSTRAP
##
##
## Call:
## boot(data = df_final, statistic = estatistica_interesse, R = n_resamples)
##
##
## Bootstrap Statistics :
## original bias std. error
## t1* 114.7347 0.005447029 0.2461813
Manly 1997
A amostra tinha que ser o dobro de replicações.
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 5000 bootstrap replicates
##
## CALL :
## boot.ci(boot.out = resultados_bootstrap, type = "bca")
##
## Intervals :
## Level BCa
## 95% (114.3, 115.2 )
## Calculations and Intervals on Original Scale
## Atlanta Boston Celtics Brooklyn Nets
## 118.3976 117.9390 113.3537
## charlotte_hornets chicago_bulls dallas
## 110.9512 112.8095 114.2195
## denver_nuggets detroit_pistons golden_state
## 115.7927 110.3049 118.9390
## houston_rockets indiana_pacers los_angeles_clippers
## 110.7439 116.2805 113.5854
## los_angeles_lakers memphis_frizzlies miami_heat
## 117.0602 116.9146 109.3333
## milwaukee_bucks minnesota_timberwolves new_orleans_pelicans
## 116.9390 115.6667 114.4096
## new_yorck_knicks oklahoma_city_thunder orlando_magic
## 116.0244 117.2738 111.4146
## philadelphia_76ers phoenix_suns portland_trail_blazers
## 115.2195 113.6463 113.4024
## sacramento san_antonio_spurs toronto_raptors
## 120.7073 113.0366 112.7590
## utah_jazz washiton_wizards
## 117.0732 113.1585
## Boston Celtics Brooklyn Nets charlotte_hornets
## -0.4585660 -4.5853659 -2.4024390
## chicago_bulls dallas denver_nuggets
## 1.8583043 1.4099884 1.5731707
## detroit_pistons golden_state houston_rockets
## -5.4878049 8.6341463 -8.1951220
## indiana_pacers los_angeles_clippers los_angeles_lakers
## 5.5365854 -2.6951220 3.4748751
## memphis_frizzlies miami_heat milwaukee_bucks
## -0.1456068 -7.5813008 7.6056911
## minnesota_timberwolves new_orleans_pelicans new_yorck_knicks
## -1.2723577 -1.2570281 1.6147517
## oklahoma_city_thunder orlando_magic philadelphia_76ers
## 1.2494193 -5.8591754 3.8048780
## phoenix_suns portland_trail_blazers sacramento
## -1.5731707 -0.2439024 7.3048780
## san_antonio_spurs toronto_raptors utah_jazz
## -7.6707317 -0.2775492 4.3141346
## washiton_wizards
## -3.9146341
## [1] 117.939
## [1] 115.7927
## [1] 2.146341
## [1] 82
## [1] 144.6506
## [1] 126.2404
## [1] 11.63811
##
## Two Sample t-test
##
## data: (df_final$Tm[df_final$Equipe == "Boston Celtics"]) and (df_final$Tm[df_final$Equipe == "denver_nuggets"])
## t = 1.1809, df = 162, p-value = 0.1197
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.8604845 Inf
## sample estimates:
## mean of x mean of y
## 117.9390 115.7927
## [1] 1.180887
## [1] 1.974716
## [1] 0.1196892
Ordinary Nonparametric Bootstrap
Estatística Original (original):
O valor original da estatística de interesse (média da variável Tm) no seu conjunto de dados original é 114.7347. Viés (bias):
O viés é uma medida de quão diferente a estimativa do Bootstrap é do valor real. Neste caso, o viés é muito pequeno, indicado pelo valor 0.008105439. Um viés pequeno sugere que a estimativa do bootstrap está próxima do valor real. Erro Padrão (std. error):
O erro padrão é uma medida de dispersão das estimativas do Bootstrap. Ele fornece uma ideia da precisão da estimativa. No seu caso, o erro padrão é 0.242047. Um erro padrão moderado sugere alguma variabilidade nas estimativas do bootstrap. Notação “t1”:*
A notação “t1*” representa a média da variável Tm na amostra bootstrap.
Em resumo, os resultados indicam que a média da pontuação (Tm) estimada pelo bootstrap é próxima da média real no seu conjunto de dados original, com um viés pequeno e um erro padrão moderado. Isso sugere que a estimativa bootstrap é confiável e fornece uma boa aproximação da verdadeira média da pontuação.
A análise bootstrap realizada forneceu insights valiosos e robustos sobre o Analise de dados na nba. Através da ressimulação de amostras, podemos obter estimativas mais precisas e compreender melhor a variabilidade subjacente aos nossos dados.
Os resultados indicam que a estimativa é muito semelhante a amostra. Os intervalos de confiança bootstrap revelaram uma estimativa confiável para parâmetro de interesse, fornecendo uma faixa realista para a verdadeira população.
As visualizações gráficas, incluindo utilizados, como histogramas, gráficos de densidade, etc., corroboraram as conclusões quantitativas, destacando padrões interessantes e fornecendo uma representação visual clara da distribuição dos dados.