O conjunto de dados trabalhados contém algumas estatísticas de quatro
jogadores da NBA durante os playoffs, no ano de 2021.
A estrutura dos dados é resumida abaixo:
| SHOOTER |
character |
Nome do jogador que fez o arremesso |
| X |
numérico |
Distância horizontal do tiro tirado da cesta em
pés |
| Y |
numérico |
Distância vertical do tiro dado da cesta em pés |
| FAIXA |
numérico |
Raio de alcance do arremesso feito da cesta em
pés |
| DEFENSOR |
character |
Nome do jogador que defendeu o chute |
| PONTUAÇÃO |
character |
‘ACERTO’ se o tiro for marcado, caso contrário
‘ERRO’ |
No início, realizamos o carregamento dos dados e alteramos alguns
termos visando a composição futura dos gráficos.
data <- read_csv("nba_players_shooting.csv", show_col_types = FALSE)
data <- data %>%
mutate(RANGE = gsub("\"", "", RANGE)) %>%
mutate(RANGE = recode(RANGE,
"(0, 4)" = "0-4",
"(5, 9)" = "5-9",
"(10, 14)" = "10-14",
"(15, 19)" = "15-19",
"(20, 24)" = "20-24",
"(25, 29)" = "25-29")) %>%
mutate(SCORE = recode(SCORE,
"MADE" = "ACERTO",
"MISSED" = "ERRO")) %>%
mutate(X = round(X, 2)) %>%
mutate(Y = round(Y, 2))
data$RANGE <- factor(data$RANGE,
levels = c("0-4", "5-9", "10-14", "15-19", "20-24", "25-29"))
data %>%
DT::datatable()
Com base nos dados, iremos responder algumas perguntas:
1. Dos arremessos realizados, quantos foram acertos e
erros?
data %>%
group_by(SCORE) %>%
summarise(total = n()) %>%
ggplot(aes(x = SCORE, y = total, fill = SCORE)) +
geom_bar(alpha = .5, width = .75, stat = 'identity') +
labs(
title = "Arremessos: Falhas e Acertos",
fill = "",
y = "count",
x = "ARREMESSOS"
) +
scale_fill_manual(values = c("green", "red")) +
scale_y_continuous(breaks = seq(0, 450, 50)) +
theme_bw() +
theme(
legend.position = "",
legend.box.margin = margin(t = -10),
plot.title = element_text(size = 10,
face = "bold",
hjust = .5)) +
geom_text(aes(y = total, label = total), position = position_stack(vjust = 0.9), fontface = 'bold')

É observado que há mais arremessos falhos do que acertos, de forma
geral:
data %>%
group_by(SCORE) %>%
summarise(total = n()) %>%
mutate(percent = round(total/sum(total) * 100, 2)) %>%
DT::datatable()
2. Qual jogador faz mais arremessos? Quantos destes são
falhas e quantos são acertos?
data %>%
group_by(SHOOTER, SCORE) %>%
summarise(total = n()) %>%
ggplot(aes(x = SHOOTER, y = total, fill = SCORE)) +
geom_col(position = 'dodge', alpha = .5, width = .75) +
labs(
x = "JOGADORES",
fill = '',
title = 'arremessos totais: acertos/erros por jogador') +
scale_fill_manual(values = c('green', 'red')) +
theme_bw() +
theme(
legend.position = 'bottom',
plot.title = element_text(size = 10,
face = 'bold',
hjust = .5),
legend.box.margin = margin(t = -10)) +
geom_text(aes(SHOOTER, label = total), position = position_dodge(width = 0.75), size = 4, vjust = 1.5, fontface = 'bold')
`summarise()` has grouped output by 'SHOOTER'. You can override using the `.groups` argument.

Percebe-se que o Trae Young é o jogador que faz mais arremessos,
sendo vários desses acertos, mas a maioria são falhos. O único que
acerta mais do que erra é o jogador Seth Curry.
Agora vamos observar em termos de porcentagem:
data %>%
group_by(SHOOTER, SCORE) %>%
summarise(total = n()) %>%
mutate(percent = round(total/sum(total)*100, 2)) %>%
ggplot(aes(x = SHOOTER, y = percent, fill = SCORE)) +
geom_col(position = 'stack', alpha = .5) +
scale_fill_manual(values = c('green', 'red')) +
labs(x = 'JOGADORES',
y = '%',
title = '% erros/acertos por jogador') +
theme_bw() +
theme(legend.position = 'bottom',
plot.title = element_text(size = 10,
face = 'bold',
hjust = .5),
legend.box.margin = margin(t = -13)) +
geom_text(aes(label = percent), position = position_stack(vjust = .5), fontface = 'bold')
`summarise()` has grouped output by 'SHOOTER'. You can override using the `.groups` argument.

Percebe-se que, apesar de ser o líder em arremessos, o Trae Young só
acerta 43.16% deles, enquanto o Seth Curry lidera em termos de acertos,
com 57.82% de êxito. Já o jogador Russel é o que mais erra, com 66.67%
de falha em seus arremessos.
3. Quantos acertos/erros se relacionam com a distância da
cesta e o local de arremesso da bola?
data %>%
group_by(RANGE, SCORE) %>%
summarise(total = n()) %>%
mutate(percent = round(total/sum(total) * 100, 2)) %>%
ggplot(aes(x = RANGE, y = total, fill = SCORE)) +
geom_col(position = 'dodge', alpha = .5, width = .75) +
labs(x = 'RANGE',
y = 'count',
fill = '',
title = 'acertos e erros em relação ao range') +
scale_fill_manual(values = c('green', 'red')) +
scale_y_continuous(breaks = seq(0, 200, 25)) +
theme_bw() +
theme(legend.position = 'bottom',
plot.title = element_text(size = 10,
face = 'bold',
hjust = .5),
legend.box.margin = margin(t = -10)) +
geom_text(aes(label = paste0(percent, '%')),
position = position_dodge(width = 0.75),
vjust = -.5,
size = 2.5, fontface = 'bold')
`summarise()` has grouped output by 'RANGE'. You can override using the `.groups` argument.

Observa-se que a única distância com relação acerto/erro positiva é
0-4, supõe-se que por ser mais perto da cesta, a chance de um êxito seja
maior. Também é possível analisar que a distância 25-29 é a mais dificil
de acertar, com cerca de 2/3 de falhas, podendo inferir que por ser mais
distante, a precisão do arremesso diminua.
4. Em quais posições da quadra os jogadores mais
acertam/erram ?
data %>%
group_by(SHOOTER, RANGE, SCORE) %>%
summarise(total = n(),) %>%
mutate(percent = round(total/sum(total) * 100, 2)) %>%
ggplot(aes(x = RANGE, y = percent, fill = SCORE)) +
geom_col(alpha = .5, width = .85, position = "dodge") +
scale_fill_manual(values = c('green', 'red')) +
scale_y_continuous(limits = c(0, 100)) +
labs(
title = "% acerto/erro dos jogadores por range",
y = "% de acerto/erro por range",
x = "RANGE",
fill = ""
) +
facet_wrap(~ SHOOTER, ncol = 2) +
theme_bw() +
theme(
plot.title = element_text(size = 10,
face = "bold",
hjust = .5),
legend.position = "bottom",
legend.box.margin = margin(t = -10)) +
geom_text(aes(label = paste0(percent, '%')), position = position_dodge(width = .75), vjust = -.5, size = 2.5, fontface = 'bold')
`summarise()` has grouped output by 'SHOOTER', 'RANGE'. You can override using the `.groups` argument.

Observações:
Acertos Chris Paul: suas taxas de acerto maior são nos ranges
10-14 e 15-19, sendo acima de 25%; Seth Curry: possui maior taxa de
acerto de todos no range 25-29 e em 20-24, ele é bom em acertar de
longe; Russel Westbrook: possui a maior taxa de acerto no range 0-4e e
empata com Chris Paul no 15-19; Trae Young: é bom tanto de longe como de
perto, possuindo pontuações equivalentes de 0-4, 15-19 e 25-29.
Erros Chis Paul: a menor taxa de erro é no range 0-4, o jogador é
bom à curta distância da cesta; Seth Curry: 50% dos erros foram no range
25-29, porém erra menos na distância de 0 a 19, precisa focar nesse
range; Russel Westbrook: menor taxa de erro no range 10-14; Trae Young:
apesar de acertar muito de longe, a maior taxa de erro dele é em 25-29,
com a menor em 15-19.
5. Qual o desempenho dos jogadores atacantes em relação aos
seus defensores?
data %>%
filter(SHOOTER %in% SHOOTER) %>%
group_by(SHOOTER, DEFENDER, SCORE) %>%
summarise(total = n()) %>%
mutate(perc = round(total/sum(total)*100, 2)) %>%
ggplot(aes(x = DEFENDER, fill = SCORE)) +
geom_bar(aes(y = perc), stat = 'identity', alpha = .5, width = .75, position = 'dodge') +
labs(x = 'DEFENSOR',
y = '% DEFESA',
fill = '',
title = 'Desempenho dos atacantes em relação aos defensores') +
scale_y_continuous(limits = c(0, 100)) +
scale_fill_manual(values = c('green', 'red')) +
facet_wrap(~ SHOOTER, ncol = 2) +
theme_bw() +
theme(legend.position = 'bottom',
legend.box.margin = margin(t = -10),
plot.title = element_text(size = 10,
face = 'bold',
hjust = .5)) +
geom_text(aes(y = perc, label = paste0(perc, '%')),
position = position_dodge(width = .75),
vjust = -.5,
size = 2,
fontface = 'bold')
`summarise()` has grouped output by 'SHOOTER', 'DEFENDER'. You can override using the `.groups` argument.

Observações:
- Chris Paul: é um excelente defensor se ficar marcando o jogador
Russell;
- Russell Westbrook: apesar de falhar na maioria de seus arremessos, é
um marcador muito bom, causando falha nos arremessos dos outros
jogadores em mais de 70%;
- Seth Curry: é um ótimo jogador para defender os arremessos do
Russel, porém mantém o equilíbrio com o Chris e o Trae;
- Trae Young: é péssimo em defender os arremessos do Seth Curry e do
Chris Paul, tendo maior êxito contra o Russel (o qual ainda consegue
sair positivo).
Por fim, quais as posições dos arremessos feitos pelos
jogadores em situações de acertos/erros?
ggplot(data, aes(x = X, y = Y, color = SCORE)) +
geom_point(alpha = .7, size = 1.5) +
scale_color_manual(values = c('green', 'red')) +
labs(title = 'Posição dos arremessos',
color = '') +
facet_wrap(~ SHOOTER, ncol = 2) +
theme_bw() +
theme(legend.position = 'bottom',
legend.box.margin = margin(t = -12),
plot.title = element_text(size = 10,
face = 'bold',
hjust = .5)) +
guides(color = guide_legend(override.aes = ))

De maneira geral, o gráfico permite visualizar o desempenho dos
jogadores em relação à posição de seus arremessos, indicando quais
jogadores tiveram uma melhor precisão e efetividade durante o jogo.
- Chris Paul: seus arremessos estão concentrados na região central do
gráfico, com uma boa proporção de acertos e erros;
- Russell Westbrook: faz poucos arremessos em comparação aos outros
jogadores, tendo mais erros do que acertos, sendo um tanto
dispersos;
- Seth Curry: consegue arremessar a bola e fazer cesta em diversas
posições da quadra;
- Trae Young: arremessa de diversas posições, porém só possui relação
positiva no range 0-4
Conclusão: - Apesar de trazer informações
interessantes (de forma gráfica), o dataset utilizado possui somente
dados de jogos de alguns playoffs da NBA (2021), fazendo com que o
volume de informações seja muito pequena e, portanto, não é recomendado
tirar conclusões assertivas acerca dos jogadores, mas sim apenas algumas
ideias e visualizações que ocorreram nesses jogos em questão.
---
title: "ANÁLISE EXPLORATÓRIA DE DADOS DE JOGADORES DE BASQUETE - PLAYOFFS NBA 2021"
author: "Miguel Gabriel"
date: "18/12/2024"
output:
  html_notebook: default
  html_document:
    df_print: paged
  pdf_document: default
  word_document: default
---

O conjunto de dados trabalhados contém algumas estatísticas de quatro jogadores da NBA durante os playoffs, no ano de 2021.

A estrutura dos dados é resumida abaixo:

| VARIÁVEL | TIPO | DESCRIÇÃO |
| :---: | :---: | :---: |
| SHOOTER | character | Nome do jogador que fez o arremesso |
| X | numérico | Distância horizontal do tiro tirado da cesta em pés |
| Y | numérico | Distância vertical do tiro dado da cesta em pés |
| FAIXA | numérico | Raio de alcance do arremesso feito da cesta em pés |
| DEFENSOR | character | Nome do jogador que defendeu o chute |
| PONTUAÇÃO | character | 'ACERTO' se o tiro for marcado, caso contrário 'ERRO' |

No início, realizamos o carregamento dos dados e alteramos alguns termos visando a composição futura dos gráficos.
```{r}
data <- read_csv("nba_players_shooting.csv", show_col_types = FALSE)
data <- data %>% 
  mutate(RANGE = gsub("\"", "", RANGE)) %>% 
  mutate(RANGE = recode(RANGE,
                        "(0, 4)" = "0-4",
                        "(5, 9)" = "5-9",
                        "(10, 14)" = "10-14",
                        "(15, 19)" = "15-19",
                        "(20, 24)" = "20-24",
                        "(25, 29)" = "25-29")) %>% 
  mutate(SCORE = recode(SCORE,
                        "MADE" = "ACERTO",
                        "MISSED" = "ERRO")) %>% 
  mutate(X = round(X, 2)) %>% 
  mutate(Y = round(Y, 2))

data$RANGE <- factor(data$RANGE,
                     levels = c("0-4", "5-9", "10-14", "15-19", "20-24", "25-29"))
data %>% 
  DT::datatable()
```
Com base nos dados, iremos responder algumas perguntas:

**1. Dos arremessos realizados, quantos foram acertos e erros?**
```{r}
data %>%
  group_by(SCORE) %>% 
  summarise(total = n()) %>% 
  ggplot(aes(x = SCORE, y = total, fill = SCORE)) +
  geom_bar(alpha = .5, width = .75, stat = 'identity') +
  labs(
    title = "Arremessos: Falhas e Acertos",
    fill = "",
    y = "count",
    x = "ARREMESSOS"
  ) +
  scale_fill_manual(values = c("green", "red")) +
  scale_y_continuous(breaks = seq(0, 450, 50)) +
  theme_bw() +
  theme(
    legend.position = "",
     legend.box.margin = margin(t = -10),
    plot.title = element_text(size = 10,
                              face = "bold",
                              hjust = .5)) +
  geom_text(aes(y = total, label = total), position = position_stack(vjust = 0.9), fontface = 'bold')
```
É observado que há mais arremessos falhos do que acertos, de forma geral:
```{r}
data %>%
  group_by(SCORE) %>% 
  summarise(total = n()) %>% 
  mutate(percent = round(total/sum(total) * 100, 2)) %>% 
  DT::datatable()
```

**2. Qual jogador faz mais arremessos? Quantos destes são falhas e quantos são acertos?**
```{r}
data %>% 
  group_by(SHOOTER, SCORE) %>% 
  summarise(total = n()) %>% 
  ggplot(aes(x = SHOOTER, y = total, fill = SCORE)) +
  geom_col(position = 'dodge', alpha = .5, width = .75) +
  labs(
    x = "JOGADORES",
    fill = '',
    title = 'arremessos totais: acertos/erros por jogador') +
  scale_fill_manual(values = c('green', 'red')) +
  theme_bw() +
  theme(
    legend.position = 'bottom',
    plot.title = element_text(size = 10,
                              face = 'bold',
                              hjust = .5),
    legend.box.margin = margin(t = -10)) +
      geom_text(aes(SHOOTER, label = total), position = position_dodge(width = 0.75), size = 4, vjust = 1.5, fontface = 'bold')
```

Percebe-se que o Trae Young é o jogador que faz mais arremessos, sendo vários desses acertos, mas a maioria são falhos. O único que acerta mais do que erra é o jogador Seth Curry.

Agora vamos observar em termos de porcentagem:

```{r}
data %>% 
  group_by(SHOOTER, SCORE) %>% 
  summarise(total = n())  %>% 
  mutate(percent = round(total/sum(total)*100, 2)) %>% 
  ggplot(aes(x = SHOOTER, y = percent, fill = SCORE)) +
  geom_col(position = 'stack', alpha = .5) +
  scale_fill_manual(values = c('green', 'red')) +
  labs(x = 'JOGADORES',
       y = '%',
       title = '% erros/acertos por jogador') +
  theme_bw() +
  theme(legend.position = 'bottom',
        plot.title = element_text(size = 10,
                                  face = 'bold',
                                  hjust = .5),
        legend.box.margin = margin(t = -13)) +
  geom_text(aes(label = percent), position = position_stack(vjust = .5), fontface = 'bold')
```

Percebe-se que, apesar de ser o líder em arremessos, o Trae Young só acerta 43.16% deles, enquanto o Seth Curry lidera em termos de acertos, com 57.82% de êxito. Já o jogador Russel é o que mais erra, com 66.67% de falha em seus arremessos.

**3. Quantos acertos/erros se relacionam com a distância da cesta e o local de arremesso da bola?**
```{r}
data %>% 
  group_by(RANGE, SCORE) %>% 
  summarise(total = n()) %>%
  mutate(percent = round(total/sum(total) * 100, 2)) %>% 
  ggplot(aes(x = RANGE, y = total, fill = SCORE)) +
  geom_col(position = 'dodge', alpha = .5, width = .75) +
  labs(x = 'RANGE',
       y = 'count',
       fill = '',
       title = 'acertos e erros em relação ao range') +
  scale_fill_manual(values = c('green', 'red')) +
  scale_y_continuous(breaks = seq(0, 200, 25)) +
  theme_bw() +
  theme(legend.position = 'bottom',
        plot.title = element_text(size = 10,
                                  face = 'bold',
                                  hjust = .5),
        legend.box.margin = margin(t = -10)) +
  geom_text(aes(label = paste0(percent, '%')), 
            position = position_dodge(width = 0.75), 
            vjust = -.5,
            size = 2.5, fontface = 'bold')
```
Observa-se que a única distância com relação acerto/erro positiva é 0-4, supõe-se que por ser mais perto da cesta, a chance de um êxito seja maior.
Também é possível analisar que a distância 25-29 é a mais dificil de acertar, com cerca de 2/3 de falhas, podendo inferir que por ser mais distante, a precisão do arremesso diminua.

**4. Em quais posições da quadra os jogadores mais acertam/erram ?**
```{r,fig.align='center', fig.width=12, fig.height=8}
data %>%
    group_by(SHOOTER, RANGE, SCORE) %>% 
    summarise(total = n(),) %>% 
    mutate(percent = round(total/sum(total) * 100, 2)) %>% 
    ggplot(aes(x = RANGE, y = percent, fill = SCORE)) +
    geom_col(alpha = .5, width = .85, position = "dodge") +
    scale_fill_manual(values = c('green', 'red')) +
    scale_y_continuous(limits = c(0, 100)) +
    labs(
      title = "% acerto/erro dos jogadores por range",
      y = "% de acerto/erro por range",
      x = "RANGE",
      fill = ""
    ) +
    facet_wrap(~ SHOOTER, ncol = 2) +
    theme_bw() +
    theme(
      plot.title = element_text(size = 10,
                                face = "bold",
                                hjust = .5),
      legend.position = "bottom",
      legend.box.margin = margin(t = -10)) +
    geom_text(aes(label = paste0(percent, '%')), position = position_dodge(width = .75), vjust = -.5, size = 2.5, fontface = 'bold')
```
**Observações:**

- Acertos
Chris Paul: suas taxas de acerto maior são nos ranges 10-14 e 15-19, sendo acima de 25%;
Seth Curry: possui maior taxa de acerto de todos no range 25-29 e em 20-24, ele é bom em acertar de longe;
Russel Westbrook: possui a maior taxa de acerto no range 0-4e e empata com Chris Paul no 15-19;
Trae Young: é bom tanto de longe como de perto, possuindo pontuações equivalentes de 0-4, 15-19 e 25-29.

- Erros
Chis Paul: a menor taxa de erro é no range 0-4, o jogador é bom à curta distância da cesta;
Seth Curry: 50% dos erros foram no range 25-29, porém erra menos na distância de 0 a 19, precisa focar nesse range;
Russel Westbrook: menor taxa de erro no range 10-14;
Trae Young: apesar de acertar muito de longe, a maior taxa de erro dele é em 25-29, com a menor em 15-19.


**5. Qual o desempenho dos jogadores atacantes em relação aos seus defensores?**

```{r,fig.align='center', fig.width=8, fig.height=4}
data %>% 
  filter(SHOOTER %in% SHOOTER) %>%
  group_by(SHOOTER, DEFENDER, SCORE) %>% 
  summarise(total = n()) %>% 
  mutate(perc = round(total/sum(total)*100, 2)) %>% 
  ggplot(aes(x = DEFENDER, fill = SCORE)) +
  geom_bar(aes(y = perc), stat = 'identity', alpha = .5, width = .75, position = 'dodge') +
  labs(x = 'DEFENSOR',
       y = '% DEFESA',
       fill = '',
       title = 'Desempenho dos atacantes em relação aos defensores') +
  scale_y_continuous(limits = c(0, 100)) +
  scale_fill_manual(values = c('green', 'red')) +
  facet_wrap(~ SHOOTER, ncol = 2) +
  theme_bw() +
  theme(legend.position = 'bottom',
        legend.box.margin = margin(t = -10),
        plot.title = element_text(size = 10,
                                  face = 'bold',
                                  hjust = .5)) +
  geom_text(aes(y = perc, label = paste0(perc, '%')),
            position = position_dodge(width = .75),
            vjust = -.5,
            size = 2,
            fontface = 'bold')
```
**Observações:**

- Chris Paul: é um excelente defensor se ficar marcando o jogador Russell;
- Russell Westbrook: apesar de falhar na maioria de seus arremessos, é um marcador muito bom, causando falha nos arremessos dos outros jogadores em mais de 70%;
- Seth Curry: é um ótimo jogador para defender os arremessos do Russel, porém mantém o equilíbrio com o Chris e o Trae;
- Trae Young: é péssimo em defender os arremessos do Seth Curry e do Chris Paul, tendo maior êxito contra o Russel (o qual ainda consegue sair positivo).


**Por fim, quais as posições dos arremessos feitos pelos jogadores em situações de acertos/erros?**

```{r}

ggplot(data, aes(x = X, y = Y, color = SCORE)) +
  geom_point(alpha = .7, size = 1.5) +
  scale_color_manual(values = c('green', 'red')) +
  labs(title = 'Posição dos arremessos',
       color = '') +
  facet_wrap(~ SHOOTER, ncol = 2) +
  theme_bw() +
  theme(legend.position = 'bottom',
        legend.box.margin = margin(t = -12),
        plot.title = element_text(size = 10,
                                  face = 'bold',
                                  hjust = .5)) +
  guides(color = guide_legend(override.aes = ))
```
De maneira geral, o gráfico permite visualizar o desempenho dos jogadores em relação à posição de seus arremessos, indicando quais jogadores tiveram uma melhor precisão e efetividade durante o jogo.

- Chris Paul: seus arremessos estão concentrados na região central do gráfico, com uma boa proporção de acertos e erros;
- Russell Westbrook: faz poucos arremessos em comparação aos outros jogadores, tendo mais erros do que acertos, sendo um tanto dispersos;
- Seth Curry: consegue arremessar a bola e fazer cesta em diversas posições da quadra;
- Trae Young: arremessa de diversas posições, porém só possui relação positiva no range 0-4

**Conclusão:**
- Apesar de trazer informações interessantes (de forma gráfica), o dataset utilizado possui somente dados de jogos de alguns playoffs da NBA (2021), fazendo com que o volume de informações seja muito pequena e, portanto, não é recomendado tirar conclusões assertivas acerca dos jogadores, mas sim apenas algumas ideias e visualizações que ocorreram nesses jogos em questão. 