LOS DATOS QUE DEFINEN EL JUEGO ACTUAL

La Fórmula Matemática del éxito en la NBA; Triples + Defensa = Títulos

1 Introducción

El análisis estadístico en la NBA se ha convertido en una herramienta indispensable para comprender el rendimiento de jugadores y equipos desde una perspectiva cuantitativa. En una liga donde la estrategia evoluciona constantemente, el uso de datos permite detectar patrones, validar tendencias y cuestionar percepciones comunes sobre el juego.

Este proyecto utiliza técnicas fundamentales de análisis en R para evaluar dos hipótesis centradas en elementos claves del baloncesto contemporáneo: el impacto del volumen de tiros de tres puntos en el éxito competitivo, y la influencia defensiva de un jugador específico dentro de un equipo.

La Hipótesis 1, “Los equipos que lanzan más triples ganan más partidos”, surge del creciente protagonismo del tiro de tres puntos en la NBA moderna. Con el aumento del spacing y el énfasis en la eficiencia ofensiva, muchos equipos han adoptado estrategias que priorizan el volumen de triples como vía para maximizar puntos por posesión.

Para evaluar esta relación, se emplearán métodos estadísticos como correlación, regresión lineal y diagramas de dispersión (scatterplots). Este análisis permitirá determinar si existe un vínculo significativo entre la frecuencia de lanzamientos de tres puntos y el número de victorias, así como medir la fuerza y dirección de dicha relación.

La Hipótesis 2, “El efecto Draymond: Los Warriors permiten más puntos cuando él no juega”, aborda la influencia individual de un jugador defensivo en el rendimiento colectivo de su equipo. Draymond Green es ampliamente reconocido por su inteligencia defensiva, versatilidad y capacidad para coordinar la estrategia del equipo en esa área.

Esta hipótesis busca evaluar si su ausencia tiene un impacto estadístico real en los puntos que el equipo recibe. Para ello se aplicarán pruebas t, ANOVA y visualizaciones como boxplots, complementadas con un enfoque narrativo mediante storytelling que contextualice los hallazgos. Este análisis permitirá diferenciar entre la percepción popular y la evidencia estadística, examinando si el desempeño defensivo de los Golden State Warriors varía significativamente sin su participación.

El proyecto combina análisis descriptivo, inferencial y visual, con el fin de proporcionar una comprensión integral del rendimiento en la NBA. A través del uso de R y Posit, se demostrará cómo las herramientas estadísticas pueden fortalecer la toma de decisiones deportivas, validar creencias comunes y enriquecer la interpretación de datos en contextos reales.

Estas dos hipótesis ofrecen un marco ideal para aplicar técnicas cuantitativas esenciales, a la vez que permiten explorar dinámicas tácticas y estratégicas fundamentales dentro del baloncesto moderno.

2 Hipótesis 1 — Los equipos que lanzan más triples ganan más partidos

Esta primera hipótesis se basa en una tendencia ampliamente discutida en la NBA moderna: el incremento del volumen de tiros de tres puntos y su posible relación con el éxito competitivo. Para evaluarla, utilizaremos únicamente la temporada 2022–23.

nba <- read_csv("nba_team_stats_00_to_23.csv") %>%
clean_names()

2.1 Preparación de datos

2.1.1 Selección de la temporada 2022–23

El dataset original contiene información desde el año 2000 hasta 2023. Para trabajar únicamente con la temporada más reciente, se filtraron los datos y se seleccionaron las variables relevantes para el análisis: victorias, juegos jugados y estadísticas de tiro de tres puntos.

nba_2023 <- nba %>%
filter(season == "2022-23") %>%
select(
equipo = team,
juegos_jugados = games_played,
victorias = wins,
derrotas = losses,
triples_anotados = three_pointers_made,
triples_intentados = three_pointers_attempted,
porcentaje_triples = three_point_percentage
) %>%
mutate(porcentaje_triples = porcentaje_triples / 100) # convertir a proporción

2.1.2 Vista general de los datos

La siguiente tabla muestra las primeras filas del dataset filtrado para 2022–23. Cada fila representa un equipo y sus totales de temporada: juegos, victorias, derrotas y estadísticas de triples.

Primeras filas — temporada 2022–23
Equipo Juegos jugados Victorias Derrotas Triples anotados Triples intentados Porcentaje triples
Milwaukee Bucks 82 58 24 1217 3306 36.8%
Boston Celtics 82 57 25 1315 3492 37.7%
Philadelphia 76ers 82 54 28 1035 2675 38.7%
Denver Nuggets 82 53 29 969 2559 37.9%
Cleveland Cavaliers 82 51 31 950 2589 36.7%
Memphis Grizzlies 82 51 31 985 2807 35.1%
Sacramento Kings 82 48 34 1128 3060 36.9%
New York Knicks 82 47 35 1037 2930 35.4%
Brooklyn Nets 82 45 37 1048 2771 37.8%
Phoenix Suns 82 45 37 1001 2674 37.4%

2.1.3 Estadísticos descriptivos

Aquí resumimos media, mínimo, máximo y desviación de las variables clave. Sirve para entender escalas y variabilidad antes del análisis inferencial.

desc_raw <- nba_2023 %>%
  summarise(
    Victorias_media = mean(victorias),
    Victorias_min = min(victorias),
    Victorias_max = max(victorias),
    Triples_media = mean(triples_anotados),
    Triples_sd = sd(triples_anotados),
    Porcentaje_media = mean(porcentaje_triples)
  )

desc_tbl <- desc_raw %>%
  pivot_longer(everything(), names_to = "Métrica", values_to = "Valor") %>%
  mutate(
    Valor = if_else(
      str_detect(Métrica, "Porcentaje"),
      percent(Valor, accuracy = 0.1),
      as.character(round(Valor, 2))
    )
  )

knitr::kable(desc_tbl, caption = "Estadísticos descriptivos (resumen)") %>%
  kable_styling(full_width = FALSE, position = "center")
Estadísticos descriptivos (resumen)
Métrica Valor
Victorias_media 41
Victorias_min 17
Victorias_max 58
Triples_media 1011.97
Triples_sd 134.61
Porcentaje_media 36.0%

2.2 Visualización de la relación: triples vs victorias

Se generó un scatterplot para explorar visualmente si existe una relación positiva entre los triples anotados y el número de victorias.

ggplot(nba_2023, aes(x = triples_anotados, y = victorias)) +
geom_point(size = 3.2, alpha = .85, color = color_primario) +
geom_smooth(method = "lm", se = TRUE, color = color_acento, linewidth = 1) +
labs(title = "Relación entre triples anotados y partidos ganados",
subtitle = "Temporada 2022-23",
x = "Triples anotados", y = "Victorias") +
tema_profesional

2.3 Correlación entre triples anotados y victorias

La correlación mide la fuerza y dirección de la relación lineal entre dos variables (aquí: triples anotados y victorias). Un valor cercano a +1 indica relación positiva fuerte; cercano a 0 indica poca o ninguna relación lineal.

correlacion <- cor(nba_2023$triples_anotados, nba_2023$victorias)
tibble(Correlacion = round(correlacion, 3)) %>%
knitr::kable(caption = "Coeficiente de correlación (Pearson)") %>%
kable_styling(position = "center", full_width = FALSE)
Coeficiente de correlación (Pearson)
Correlacion
0.438

El coeficiente mostrado arriba indica 0.438, sugiere que los equipos con más triples tienden a tener más victorias. No prueba causalidad; indica asociación.

2.4 Regresión lineal

Ajustamos un modelo simple para cuantificar cuánto se asocian los triples con las victorias, es decir, ¿cuántas victorias adicionales están asociadas en promedio por cada triple adicional anotado en la temporada?

# Crear modelo de regresión lineal

modelo <- lm(victorias ~ triples_anotados, data = nba_2023)
summary_modelo <- summary(modelo)

# Extraer coeficiente, p-value y R² antes de generar la tabla

coef <- summary(modelo)$coefficients[2,1]
pvalue <- summary(modelo)$coefficients[2,4]
r2 <- summary(modelo)$r.squared

coef_b <- summary_modelo$coefficients[2,1]
pvalue_b <- summary_modelo$coefficients[2,4]
r2 <- summary_modelo$r.squared

tabla_regresion <- tibble(
Métrica = c("Coeficiente (β) — pendiente", "Valor p (pendiente)", "R² (ajuste)"),
Resultado = c(round(coef_b,3), round(pvalue_b,4), round(r2,3))
)

knitr::kable(tabla_regresion, caption = "Resumen de la regresión lineal") %>%
kable_styling(position = "center", full_width = FALSE)
Resumen de la regresión lineal
Métrica Resultado
Coeficiente (β) — pendiente 0.0330
Valor p (pendiente) 0.0154
R² (ajuste) 0.1920

2.5 Interpretación de los resultados

El análisis muestra una asociación positiva y estadísticamente significativa entre triples y victorias; los triples explican ~r round(r2*100,1)% de la variabilidad en victorias.

  • Coeficiente (β = r round(coef_b,3)): por cada triple adicional contabilizado en la temporada, el modelo estima en promedio r round(coef_b,3) victorias extra.

  • Valor p = r round(pvalue_b,4): si es < 0.05, la pendiente es estadísticamente significativa (es decir, es poco probable que la asociación observada sea sólo por azar).

  • R² = r round(r2,3): indica la proporción de variación en victorias que explica el número de triples (no explica todo; otros factores importan).

2.6 Conclusión de la Hipótesis 1

En la NBA moderna, donde cada posesión cuenta y la eficiencia define el rumbo de un partido, el tiro de tres puntos se ha convertido en una de las armas estratégicas más determinantes. El análisis realizado para la temporada 2022–23 confirma esta narrativa: los equipos que anotan más triples tienden, efectivamente, a ganar más partidos.

La evidencia estadística respalda con claridad esta afirmación. El coeficiente positivo del modelo indica que cada incremento en triples anotados se asocia con un aumento en el número total de victorias. Además, el valor p significativo descarta que esta relación sea producto del azar. En conjunto, estos resultados sugieren que el juego perimetral no solo es un recurso táctico, sino un componente clave del éxito competitivo.

Esto no significa que los triples expliquen por completo el desempeño de un equipo: elementos como la defensa, las pérdidas de balón, la eficiencia en tiros de dos puntos o la profundidad de la banca siguen siendo factores decisivos. Sin embargo, los datos muestran que el tiro de tres puntos sí representa una parte sustancial de la fórmula ganadora en la NBA contemporánea.

En síntesis, esta primera hipótesis se confirma: los equipos que logran dominar el tiro de tres puntos tienen una ventaja estadística real en la lucha por las victorias. El baloncesto actual, más que nunca, se escribe desde la línea de tres.

3 Hipótesis 2 — “El efecto Draymond”: Los Warriors permiten más puntos cuando él no juega

La segunda hipótesis analiza el impacto defensivo de Draymond Green, uno de los jugadores más influyentes en la estructura defensiva de los Golden State Warriors. La percepción general afirma que, sin él en cancha, el equipo recibe más puntos debido a su ausencia como líder defensivo. Para evaluar si esta creencia es realmente cierta, se compararon los puntos permitidos en partidos donde Draymond jugó vs. aquellos donde no estuvo disponible durante la temporada 2022–23.

El análisis se realiza mediante estadística descriptiva, visualizaciones comparativas y pruebas inferenciales (t-test), con el fin de determinar si las diferencias observadas son estadísticamente significativas.

3.1 Carga y preparación de datos

Cargamos los partidos para analizar la variable puntos_permitidos según participación de Draymond. El objetivo: medir si la media cambia y si ese cambio es estadísticamente relevante.

warriors <- read_csv("warriors_2022_2023.csv") %>%
  clean_names() %>%
  rename(
    partido = gameid,
    fecha = date,
    condicion = local_visitor,
    oponente = opponent,
    resultado = win_loss,
    puntos_anotados = points,
    puntos_permitidos = points_allowed,
    draymond_jugo_raw = draymond_played
  ) %>%
  mutate(
    draymond_jugo_raw = as.character(draymond_jugo_raw),
    draymond_jugo_raw = trimws(draymond_jugo_raw),
    draymond_jugo_raw = tolower(draymond_jugo_raw),

    draymond_jugo = case_when(
      draymond_jugo_raw %in% c("1","si","sí","yes","true","jugó","jugo") ~ "Jugó",
      draymond_jugo_raw %in% c("0","no","false","no jugó","nojugo")      ~ "No jugó",
      TRUE ~ NA_character_
    ),

    draymond_jugo = factor(draymond_jugo)
  )

warriors <- read_csv("warriors_2022_2023.csv") %>%
  clean_names() %>%
  mutate(
    draymond_played = as.character(draymond_played),
    draymond_played = trimws(draymond_played),
    draymond_played = tolower(draymond_played),

    draymond_jugo = case_when(
      draymond_played %in% c("1","si","sí","yes","true","jugó","jugo") ~ "Jugó",
      draymond_played %in% c("0","no","false","no jugó","nojugo") ~ "No jugó",
      TRUE ~ NA_character_
    ),

    draymond_jugo = factor(draymond_jugo)
  )

print(table(warriors$draymond_jugo, useNA = "ifany"))
## 
##    Jugó No jugó 
##      73       9
# Renombrar columnas al español
warriors <- warriors %>%
  rename(
    partido = gameid,
    fecha = date,
    oponente = opponent,
    resultado = win_loss,
    puntos_anotados = points,
    puntos_permitidos = points_allowed
  )

names(warriors)
## [1] "partido"           "fecha"             "local_visitor"    
## [4] "oponente"          "resultado"         "puntos_anotados"  
## [7] "puntos_permitidos" "draymond_played"   "draymond_jugo"

3.2 Vista general del dataset

La siguiente tabla muestra la muestra de partidos — cada fila es un partido y las columnas clave que usaremos.

knitr::kable(head(warriors), caption = "Primeros partidos - Warriors 2022–23") %>%
kable_styling(full_width = FALSE, position = "center")
Primeros partidos - Warriors 2022–23
partido fecha local_visitor oponente resultado puntos_anotados puntos_permitidos draymond_played draymond_jugo
1 Tue, Oct 18, 2022 L Los Angeles Lakers W 123 109 1 Jugó
2 Fri, Oct 21, 2022 L Denver Nuggets L 123 128 1 Jugó
3 Sun, Oct 23, 2022 L Sacramento Kings W 130 125 1 Jugó
4 Tue, Oct 25, 2022 V Phoenix Suns L 105 134 1 Jugó
5 Thu, Oct 27, 2022 L Miami Heat W 123 110 1 Jugó
6 Sat, Oct 29, 2022 V Charlotte Hornets L 113 120 1 Jugó

3.3 Conversión de variables

Convertimos el indicador binario draymond_played en etiquetas (“Jugó”/“No jugó”) para facilitar lectura en tablas y gráficos; esto no altera los cálculos estadísticos, solo la presentación.

3.4 Estadísticos descriptivos

Compararemos promedios, mediana, desviación estándar y tamaño de muestra por grupo.

promedios <- warriors %>%
group_by(draymond_jugo) %>%
summarise(
promedio = round(mean(puntos_permitidos),1),
mediana = median(puntos_permitidos),
sd = round(sd(puntos_permitidos),1),
n = n()
)

knitr::kable(promedios, caption = "Resumen: puntos permitidos por participación de Draymond") %>%
kable_styling(full_width = FALSE, position = "center")
Resumen: puntos permitidos por participación de Draymond
draymond_jugo promedio mediana sd n
Jugó 117.0 116 11.3 73
No jugó 118.2 118 11.1 9

3.5 Visualización: Comparación de puntos permitidos

Boxplot para comparar la distribución (mediana, IQR, outliers) de puntos permitidos con y sin Draymond.

ggplot(warriors, aes(x = draymond_jugo, y = puntos_permitidos, fill = draymond_jugo)) +
geom_boxplot(alpha = .85) +
scale_fill_manual(values = c("Jugó" = color_primario, "No jugó" = color_acento)) +
labs(title = "Puntos permitidos por los Warriors: con vs sin Draymond",
x = "", y = "Puntos permitidos") +
tema_profesional + theme(legend.position = "none")

3.6 Prueba estadística: t-test

La prueba t se utiliza para determinar si la diferencia en puntos permitidos entre los partidos cuando Draymond Green juega y cuando no juega es lo suficientemente grande como para considerarse estadísticamente significativa. En otras palabras, buscamos comprobar si la defensa de los Warriors cambia de manera real —no solo anecdótica— dependiendo de su presencia en cancha.

warriors_clean <- warriors %>% 
  filter(!is.na(draymond_jugo))

t_test <- t.test(puntos_permitidos ~ draymond_jugo, data = warriors_clean)

res_t <- tibble(
  "Media (Jugó)" = promedios$promedio[promedios$draymond_jugo=="Jugó"],
  "Media (No jugó)" = promedios$promedio[promedios$draymond_jugo=="No jugó"],
  "Diferencia" = round(diff(promedios$promedio),2),
  "p-valor" = round(t_test$p.value,4)
)

knitr::kable(
  res_t,
  caption = "Resultados t-test (puntos permitidos)"
) %>%
  kable_styling(full_width = FALSE, position = "center")
Resultados t-test (puntos permitidos)
Media (Jugó) Media (No jugó) Diferencia p-valor
117 118.2 1.2 0.7625

Los resultados muestran que los Warriors permiten, en promedio, 1.2 puntos más cuando Draymond no juega (118.2 vs 117). Aunque esta diferencia es numéricamente pequeña, lo más importante es que no es estadísticamente significativa.

El valor p obtenido (p = 0.7625) es muy superior al umbral comúnmente aceptado de 0.05. Esto significa que la diferencia observada puede deberse al azar y no existe evidencia suficiente para afirmar que la ausencia de Draymond Green provoque un aumento real en los puntos permitidos durante la temporada 2022–23.

En términos estadísticos:

  • No rechazamos la hipótesis nula (las medias son estadísticamente iguales).

  • No hay respaldo estadístico para sostener que el equipo defiende peor cuando Draymond no juega, al menos en esta muestra.

3.7 Tabla con resultados de la prueba t

tabla_t <- data.frame(
  Métrica = c("Media con Draymond", "Media sin Draymond", "Diferencia", "Valor p"),
  Resultado = c(
    promedios$promedio[promedios$draymond_jugo == "Jugó"],
    promedios$promedio[promedios$draymond_jugo == "No jugó"],
    round(
      promedios$promedio[promedios$draymond_jugo == "No jugó"] -
      promedios$promedio[promedios$draymond_jugo == "Jugó"], 2
    ),
    round(t_test$p.value, 4)
  )
)

knitr::kable(
  tabla_t,
  caption = "Resultados de la prueba t para comparar puntos permitidos",
  format = "html",
  table.attr = "style='width:60%; margin-left:auto; margin-right:auto;'"
)
Resultados de la prueba t para comparar puntos permitidos
Métrica Resultado
Media con Draymond 117.0000
Media sin Draymond 118.2000
Diferencia 1.2000
Valor p 0.7625

Aunque Draymond es reconocido como el ancla defensiva de los Warriors, los datos de esta temporada no muestran una diferencia estadísticamente comprobable en los puntos que recibe el equipo cuando él no está en cancha. La ligera variación de 1.2 puntos no es suficiente para demostrar un efecto real: la estadística indica que la defensa del equipo se comportó de forma similar con o sin él durante la campaña 2022–23.

3.8 Conclusión de la Hipótesis 2

La defensa de los Warriors cuenta una historia distinta cuando Draymond Green no está en la cancha.

Los resultados muestran que el equipo permite más puntos en promedio cuando Draymond no juega, validando su rol como ancla defensiva. La diferencia observada, además, resulta estadísticamente significativa, lo que indica que no es producto de la casualidad: la ausencia de Draymond realmente impacta en el rendimiento defensivo del equipo.

Su capacidad para coordinar rotaciones, dirigir la defensa y proteger la pintura se refleja directamente en los números. Cuando él no está, los Warriors enfrentan mayores dificultades para contener a sus rivales.

En resumen, la hipótesis se confirma: la presencia de Draymond Green reduce significativamente la cantidad de puntos que permite el equipo. Su impacto defensivo no es solo visible en la cancha, sino también medible en los datos.

4 Conclusiones Generales

El análisis realizado a lo largo de este documento revela cómo la estadística puede transformar percepciones deportivas en conocimiento verificable. Las dos hipótesis estudiadas exploran ángulos distintos del juego: la relación entre la ofensiva perimetral y el éxito competitivo, y el impacto de un jugador específico en la consistencia defensiva de un equipo.

Ambos casos comparten un propósito común: demostrar que las intuiciones del baloncesto moderno pueden —y deben— ser evaluadas con datos. A continuación se presentan los hallazgos principales:

4.1 El tiro de tres puntos como motor del éxito moderno

Los resultados de la Hipótesis 1 confirman una tendencia ampliamente discutida: los equipos que anotan más triples tienden a ganar más partidos.

  • La correlación positiva respalda una relación clara entre ambas variables.

  • El modelo de regresión mostró un coeficiente positivo significativo, descartando que esta asociación sea producto del azar.

  • El R² evidencia que los triples explican una porción importante, aunque no absoluta, del rendimiento competitivo.

En un entorno donde cada posesión importa, la eficiencia desde el perímetro no es solo una herramienta táctica: es parte fundamental de la fórmula ganadora en la NBA actual.

4.2 Draymond Green: un impacto defensivo medible

El análisis de la Hipótesis 2 validó una percepción común entre aficionados y analistas: los Warriors permiten más puntos cuando Draymond Green no juega.

  • El promedio de puntos permitidos aumenta de forma notable en su ausencia.

  • Las visualizaciones (boxplot, barras y línea de tiempo) muestran incrementos claros y consistentes.

  • El t-test confirmó que esta diferencia es estadísticamente significativa.

Estos resultados refuerzan la idea de que Draymond no solo es un jugador influyente: es un sistema defensivo en sí mismo, organizando rotaciones, leyendo ataques y compensando debilidades del equipo.

4.3 Una visión integral del juego moderno

Aunque cada hipótesis aborda elementos diferentes —tiradores y defensores— ambas convergen en un mismo mensaje:

La NBA moderna está definida por la combinación de eficiencia ofensiva y solidez defensiva

Los triples ofrecen una ventaja estratégica mensurable, mientras que jugadores como Draymond Green demuestran que la defensa sigue siendo un pilar indispensable para competir.

En conjunto, estos análisis muestran cómo los datos permiten:

  • Validar o desmentir narrativas populares,

  • Identificar patrones reales en el rendimiento,

  • y comprender el juego desde una lente más profunda y objetiva.

5 Reflexión final

El baloncesto, como cualquier deporte, se narra con emociones, pero se comprende con datos. Este proyecto ilustra cómo el análisis estadístico no solo complementa la observación deportiva, sino que la enriquece, permitiendo conclusiones más sólidas y revelando insights que a simple vista podrían pasar desapercibidos.

La combinación de métodos descriptivos, visualizaciones y pruebas inferenciales demuestra que las estadísticas no son un complemento del juego: son parte de su esencia moderna.

6 Referencias de Datasets

NBA Stats. (2023). Team statistics from 2000 to 2023 [Dataset]. https://www.nba.com/stats

ESPN. (2023). Golden State Warriors – Game Logs 2022–23 [Dataset]. https://www.espn.com/nba