El camino para ganar la NBA: Técnicas de predicción matemática

Marcos Matabuena Rodríguez
11 de Marzo de 2015

OBRA

DISTRIBUCIÓN DE LA CHARLA:

  1. Introducción y contextualización del problema
  2. Los distintos enfoques en las métricas en deportes de equipo
    • Adjustement Ranking
    • Entropía de Shannon y rotaciones en pista
    • Estadística espacial
  3. Prediciendo el número de partidos ganados en una temporada
  4. Monotorización individual y nuevas perspectivas

Introducción y contextualización del problema

Siglo XXI era del Big Data.

  • Supermercados Walmart
  • Hearst, Don Swanson (1999) descubrimiento de enfermedades raras con tecnicas de text-mining.

¿Hasta donde podremos llegar?

Una aplicación en el deporte

La atención mediática en los deportes minoritarios

Continuando el análisis anterior

¿ Los deportes minoritarias no deberian evolucionar y intentar seguir nuevas estrategias para conseguir mayor impacto ?

Las técnicas matemáticas actuales están desfasadas


OBRA
Efim Zelmanov, Medalla Fields 1994


  • Análisis de Datos Topológicos:
    • Homología Persistente
    • Integrales Geométricas y topológicas (Integral de Hadwiger)
  • Teoría de probabilidad y procesos estocasticos en espacios de Banach

¿Nos podemos fiar de la intuicción y de nuestra percepcion?


Serie de Fourier
OBRA

Curva de Von Koch

En las matemáticas no, por lo menos.

¿Los deportistas son conscientes de su propio estado ?

  • Privacion del Sueño
  • Ritmo de competición en el metabolismo anaerobico.


¿Y los entrenadores ?
¿Y los aficionados?
¿Y nosotros en nuesta propía vida diaria ?

Unos cuantos ejemplos


Controlando el SRM
OBRA

Perdiendo una medalla

El gran visionario de las métricas deportivas

OBRA
Bill James
The Bill James Baseball Abstracts 1985
Times 2006, entre los 100 mas influyentes

El gran ejemplo de aplicación

OBRA
Oakland Athletics baseball team

  • The Athletics finished first in the American League West with a record of 103-59.
  • A new era in baseball and other team sports.

Nuevos tiempos: MIT Sloan Sports Analytics Conference


  • Inicio 2007
  • Se celebra todos los años entre Febrero y Marzo
  • Actualmente se retransmite por la ESPN
  • Acudén casi todos los equipos profesionales USA


Muthu Alagappan
La gran revolución del 2012
Analisis de datos topologicos en la NBA

Los matemáticos, la gente necesaria en el deporte


Es imposible ser matemático sin tener alma de poeta.
El poeta debe ser capaz de ver lo que los demás no ven,
debe ver más profundamente que otras personas.
Y el matemático debe hacer lo mismo.
S. KOVALEVSKAYA

OBRA

Teorema de Cauchy-Kovalevskaya

Observaciones Iniciales

  • El baloncesto es un deporte de equipo
  • Juegan 5 deportista en cada equipo
  • Gana el equipo que haga más puntos
  • NBA, 1 partido, 12x4=48 min
  • 2 Conferencias: Este,Oeste
  • No juegan todos los equipos contra todos

Las métricas en deportes de equipo

Podemos englobarlas en dos filosofias bien distintas:

  • Bottom up Metric
  • Top Down Measures

Bottom up Metric I

Ejemplo de metricas ofensivas

  • EFG: \( \large{\frac{(TP)+0.5(T3P)}{TT}} \)
  • TFF: \( \large{\frac{PP}{PT}} \)
  • ORP: \( \large{\frac{RO}{RT}} \)
  • FTR: \( \large{\frac{FT}{TL}} \)

Notacion:

  • TP: Puntos Totales
  • T3P: Puntos obtenidos de 3 pts
  • TT: Total Tiros
  • PT: Posesiones Totales
  • PP: Pérdidads de Posesión
  • RT: Rebotes Totales
  • RO: Rebotes Ofensivivos
  • FT: Faltas Recibidas
  • TL: Tiros Libres realizados

Bottom up Metric II

Ejemplo de metricas defensivas
Se refieren en todo momento al equipo rival.

  • OEFG: \( \large{\frac{(TP)+0.5(T3P)}{TT}} \)
  • DTPP: \( \large{\frac{PP}{PT}} \)
  • DRP: \( \large{\frac{RO}{RT}} \)
  • OFTR: \( \large{\frac{FT}{TL}} \)

Notación:

  • TP: Puntos Totales
  • T3P: Puntos obtenidos de 3 pts
  • TT: Total Tiros
  • PT: Posesiones Totales
  • PP: Pérdidads de Posesión
  • RT: Rebotes Totales
  • RO: Rebotes Ofensivos
  • FT: Faltas Recibidas
  • TL: Tiros Libres realizados

Bottom up Metric III

Metricas Ofensivas Metricas Defensivas
Effective Field Goald Percentage (EFG) Opponent's Effective Field Goald Percentage (OEFG)
Turnovers Commitend per possesion (TPP Defensive Turnovers Commitend per possesion (DTPP)
Metricas Ofensivas Metricas Defensivas
Offensive Rebounding Percentaje (ORP) Defensive Rebounding Percentaje (DRP)
Free Throw Rate(FTR) Opponents Free Throw Rate(OFTR)

Se pueden definir tanto a nivel individual como del equipo en conjunto.

Bottom up Metric IV

Una medida de la eficiencia ofensiva.


\[ \Large{OE=\frac{TP+A}{TT-RO+PT}} \]

  • TP: Puntos Totales
  • A: Asistencias
  • TT: Tiros Totales
  • Rebotes Ofensivos
  • Perdidas Totales

Bottom up Metric V

Una medida ofensiva mas compleja


\[ \Large{OPS=F*OE*PTS} \] donde: \[ \Large{F=\frac{PTSE}{\sum(OE*PTS)}} \]

Tiene en cuenta la estructura del equipo con el factor F y los tiros libres.

Top Down Measures

  • Unicamente vamos a tratar el Adjusted-Plus Minus.
  • Es una metrica que trata de asignar a cada jugador su peso real en la pista teniendo en cuenta la estructra del equipo.
  • Tiene bastantes limitaciones, sin embargo el punto de partido para la construccones de nuevas tecnicas.

Adjustement-Plus Minus

Sean \( \small{X_{1},\dots,X_{M}} \) el valor que le proporcionamos a cada jugador del equipo A y sean \( \small{Y_{1},\dots,Y_{S}} \) el valor para cada jugador B.
Algoritmo:
1 Dividamos el tiempo total de juego, en N partes, de la misma duración.
2 En cada parte tenemos un resultado global, pongamos \( \small{R_{i}} \) \( \small{i\in{1,\dots,N}} \)
3 El problema consiste en minimizar: \[ \small{\sum_{i=1}^{N}}(\sum_{j=1}^{M}X_{j}-\sum_{k=1}^{S}Y_{k}-R_{i})^{2} \] para el conjunto de variables definida al inicio.

Adjustement-Plus Minus II

El problema anterior admite una formulación de la forma: \[ \small{Ax=b} \] donde x es el vector de incognitas,\( \small{x=A^{-1}b} \) y A es una matriz cuadrada muy grande y generalmente desde el punto de vista numérico muy mal condicionada y no invertible.

Nos encontramos de frente ante un problema de regularización de Tichinov \[ \small{||Ax-b||^{2}+\alpha^{2}||x||^{2}:} \]

\( \small{\overline{x}=(A^{T}A+\alpha^{2}I)^{-1}A^{t}b} \) con \( \small{\alpha>0} \)

Adjustement-Plus Minus III

  • La colinealidad es necesaria en la práctica
  • Explorar nuevas normas
  • Crear modelos dinámicos con más variables como el perfil del equipo contrario y el estado físico de los jugadores.
  • Muchos consideran que el modelo se debe ajustar con datos de varias temporadas pero desde el punto de visto de la fisiologia deportiva no tiene ningún sentido, por lo menos desde una perspectiva práctica.

Reflexión

¿Es suficiente?

La entropía de Shanon

Sea \( \small{X} \) una variable aleatoria discreta con un espacio muestral \( \small{\Omega} \) compuesto de n elementos. Definimos la entropia de Shannon asociado a la variable aleatoria \( \small{X} \) como: \[ \small-{\sum_{i=1}^{n}p_{i}logp_{i}} \]

es una medida que representa el grado de desorden de la variable aleatoria \( X \), por ejemplo si n=1 la entropia vale 0, es decir no hay desorden al estar toda la informacion concentrada en un solo punto.

La entropia de Shanon para cada jugador

Sea B un jugador de un equipo. Sea
N=\( \small{\{1,2,\dots,n\}} \) el conjunto de jugadores del equipo que juegan con B a lo largo de la temporada. Sea PT(B) el tiempo total que juega el jugador B en la temporada. Definimos:
\( \small{p(i)=\frac{PT(B,i)}{4PT(B)}} \) \( \small{\forall i\in N} \)

donde \( \small{PT(B,i)} \) es el tiempo que juega el jugador i con el jugador B.

Ahora definimos la variación de la entropía del jugador B:
\( \small{LE(B)=-\sum_{i}^{n}p(i)logp(i)} \)

Ilustración

Player Adjustement LE
Mario Chalmers 13.16 2.97
Lebron James 15.29 3.17
Amir Jonhson 14.04 3.66


Quantiles

0% 25% 50% 75% 100%
2.42 3.21 3.39 3.57 5.11

La entropía de Shanon para las alineaciones

Sea T un equipo de la NBA. Sean
M=\( \small{\{1,2,\dots,100\}} \) las 100 alineaciones mas comunes del equipo T.Si alguna alineacion es inferior a los 10 min , no se tiene en cuenta.
Definimos:
\( \small{TLE(T)=-\sum_{i=1}^{100}q(i)log(q(i))} \)

donde:
\( \small{q(j)} \) es el tiempo que esta la alineacion j en la pista.

La entropia de Shanon de las puntuaciones

Dado un equipo con N jugadores que consigen P puntos a lo largo de la temporada, podemos preguntarnos por la distribucción de las puntuaciones:

\( \small{h(PT)= -\sum_{i=1}^{N}p_{i}log p_{i}} \)

donde: \( \small{p_{i}=\frac{PT_{i}}{P}} \) siendo \( \small{PT_{I}} \) los puntos que hace el jugador i.

Analogamente podríamos hacer lo mismo por el tiempo en pista de cada jugador h(MIN)

Una métrica con la entropía de Shannon


\[ \Huge{PB=\frac{h(PT)}{h(MIN)}} \]

Temporada 2012-2013

Estadística espacial

¿Un buen o mal lanzador ? ¿Eres predecible?

Unas métricas sencillas

Dividamos una región regular R en 1284 cuadrados de igual tamaño y denotemos por ij a cada subregión.



Definimos Spread=\( \small{\sum_{ij\in R}FGA_{ij}} \)
donde \( \small{FGA_{ij}=1} \) si encesta alguna canasta desde esa zona y 0 en caso contrario.



Definimos Range=\( \small{\sum_{ij\in R}PPA_{ij}} \)
donde \( \small{PPA{ij}=1} \) si encesta alguna canasta desde esa zona y 0 en caso contrario.

Ejemplos

Pos Jugador Spread % Jugador Range %
1. Kobe Bryant 1,071 83.4% Steve Nash 406 31.6%
2. Lebron James 1,047 81.5% Ray Allen 386 30.1%
3. Vince Carter 1,005 78.3% Kobe Bryant 383 29.8%
4. Joe Johnson 992 77.3% Dirk Nowitzki 373 29.0%
5. Rudy Gay 983 76.6% Rashard Lewis 354 27.6%
6. Antawn Jamison 965 75.2% Joe Johnson 352 27.4%
7. Andre Igudola 962 74.9% Vince Carter 343 26.7%
8. Ray Allen 952 74.1% Paul Pierce 332 25.9%
9. Kevin Durant 949 73.9% Rudy Gay 332 25.9%
10. Danny Granger 948 73.8% Danny Granger 331 25.8%

Ejemplos



Datos conjuntos

Kobe Bryant

Ejemplos



Steve Nash

Kobe Bryant

Esto acaba de empezar

¿Cuántos partidos va a ganar un equipo?

El problema

  • Estábamos interesados en identificar patrones de juego que nos permitiesen determinar el exito de un equipo
  • Para ello nos planteamos el objetivo de predecir con la mayor exactitud el número de partidos que que iba ganar un equipo en la temporada regular.
  • Utilizemos los datos de la temporada 2006
  • Queriamos introducir alguna variable discreta para identificar otros aspectos influyentes no contemplados en la literatura y que aumentar el rendimiento de nuestro modelo.

Explorando los datos I

Conferencia Oeste

Explorando los datos II

Conferencia Este

Explorando los datos III

Funciones de densidad estimada variables

PCA


PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.3740 1.3190 1.1222 0.9586 0.9315 0.8099 0.7464 0.3367
Proportion of Variance 0.2360 0.2175 0.1574 0.1149 0.1085 0.0820 0.0696 0.0142
Cumulative Proportion 0.2360 0.4535 0.6109 0.7258 0.8342 0.9162 0.9858 1.0000

Dos Enfoques

Sea Y el número de partidos que gana el equipo y sean \( \normalsize{X_{1},\dots,X_{8}} \) las variables anteriores, el problema consiste en estimar los parametros \( \normalsize{\beta_{1},\dots,\beta_{8}} \) para un modelo de la siguiente forma:
\( Y= X_{1}\beta_{1}+\dots+X_{8}\beta_{8}+{N(0,\delta)} \)

  • Regresión Multiple
    Minimizar en \( \normalsize{||.||_{2}} \)
  • Regresión en Mediana
    Minimizar en \( \normalsize{||.||_{1}} \)

Resultados I

Conferencia Este

Resultados II

Conferencia Oeste

Comentarios finales

  • El coeficiente de correlación para la conferencia oeste es del 99% mientras que para la conferencia oeste es del 96%.
  • En el resto de modelos de la literatura no se superá el 90 %.
  • Con la introducción de una variable discreta se aumenta considerablemente la precisión, lo que muestra que existen diferencias de juegos entre ambas conferencias.
  • Los resulados van en la linea de otros estudios que dicen que hay que replantearse el sistema de enfrentamientos.

La necesidad de la monotorización individual

La opinión de los expertos

No es el campo de rugby sino en el laboratorio deportivo donde radica nuestro secreto. El secreto de nuestro éxito (si es que hay alguno) fue el programa científico en el que se bajo la preparación física que comenzamos a aplicar entre los jugadores de élite australianos de 1989.
Bob Dwyer , antiguo entregandor que gano la copa del mundo de Rugby en 1991
.

No siempre gana el mejor deportista ni el mejor preparado. Arthurd Lydiart

Un cambio de rumbo: Nuevas matemáticas y nuevos modelos

  • Cálculo variacional
  • Análisis espectral
  • Series de Tiempo
  • Cálculo Fraccional
  • Lógica Difusa

Predicciendo los cambios en la forma física (El modelo Banister)

Sea w(t) la carga física en el intante de tiempo t y sean g(t) los efectos positivos y h(t) los efectos negativos. Consideremos el siguiente sistema de evolución:
\( \small{\frac{\partial g(t)}{\partial t} + \frac{1}{\tau_{1}}g(t)=w(t)} \)
\( \small{\frac{\partial h(t)}{\partial t} + \frac{1}{\tau_{2}}h(t)=w(t)} \)
Utilizando el operador convolución obtenemos:
\( \small{g(t)=w(t)*e^\frac{-t}{\tau_{1}}=\int_{0}^{t} w(s)e^{-\frac{t-s}{\tau_{1}}}ds} \)
\( \small{h(t)=w(t)*e^\frac{-t}{\tau_{2}}=\int_{0}^{t} w(s)e^{-\frac{t-s}{\tau_{2}}}ds} \)

El modelo de Banister

Discretizando:
\( \small{g(n)=\sum_{i=1}^{n-1} w(i)e^{-\frac{n-i}{\tau_{1}}}} \)
\( \small{h(n)=\sum_{i=1}^{n-1} w(i)e^{-\frac{n-i}{\tau_{1}}}} \)

La forma fisica actual podemos modelizar:

\[ \small{p(n)=p(0)+k_{1}\sum_{i=1}^{n-1} w(i)e^{-\frac{n-i}{\tau_{1}}}+k_{2}\sum_{i=1}^{n-1} w(i)e^{-\frac{n-i}{\tau_{2}}}} \]

  • Los \( \small{w(i)} \) los determinamos mediante un test y p(0).
  • El problema es estimar las constantes \( \small{k_{1},k_{2},\tau_{1},\tau_{2}} \)

Un futuro Maravilloso






Gracias por Escucharme