Medidas descriptivas de la asociación lineal entre \(X\) e \(Y\)
A continuación se analizarán dos medidas descriptivas que se utilizan con frecuencia en la práctica para analizar el grado de relación lineal entre la variable regresora \(x\) y la variable respuesta \(y\). Estas medidas corresponden al coeficiente de determinación \(R^2\) y el coeficiente de correlación \(r\).
Coeficiente de determinación \(R^2\)
El coeficiente de determinación es una medida de la proporción de la variabilidad explicada por el modelo ajustado.
En apartados anteriores se ha estudiado la Suma de Cuadrados Total \(SST\) (Ecuación 1), la cual mide la variación de en los valores de la variable respuesta que idealmente serían explicados por el modelo.
\[\begin{align} SST = \sum_{i=1}^n (yi-\bar{y})^2 \end{align} \tag{1}\]
También se ha estudiado la Suma de Cuadrados del Error, \(SSE\) (Ecuación 2), que representa la variación no explicada.
\[\begin{align} SSE = \sum_{i=1}^n (yi-\hat{y})^2 \end{align} \tag{2}\]
Debido a que \(SST = SSR + SSE\), resulta claro establecer que si la \(SSE=0\) toda la variación queda explicada por el modelo. la cantidad que representa la variación explicada es \(SST-SSE\), por lo tanto se puede calcular el \(R^2\) como se muestra en la Ecuación 3.
\[\begin{align} R^2 = 1- \frac{SSE}{SST} = \frac{SSR}{SST} \end{align} \tag{3}\]
Si el ajuste del modelo es perfecto la \(SSE=0\) dado que \(\sum_{i=1}^n(yi-\hat{y})^2=0\). Estos es, todos los residuales \(e_i\) serían iguales a \(0\).
Dado que \(0 \leq SSE \leq SST ~\land~ 0 \leq SSR \leq SST\) entonces:
\[\begin{align} 0 \leq R^2 \leq 1 \end{align} \tag{4}\]
Limitaciones del coeficiente de determinación.
Ninguna medida por sí sola será adecuada para describir la utilidad de un modelo de regresión para diferentes aplicaciones. Aun así, el coeficiente de determinación se utiliza mucho. Por desgracia, está sujeto a algunos malentendidos. Consideremos ahora tres malentendidos comunes:
Es importante ser cauteloso con las conclusiones al calcular el coeficiente de determinación \(R^2\), al tener en cuenta que este solo mide el grado de relación lineal entre \(x\) e \(y\), algunos errores comunes son los siguientes:
Un \(R^2\) alto indica que pueden realizarse predicciones útiles. Lo anterior puede que no sea necesariamente cierto. Se puede tener un \(R^2\) alto y tener un intervalo de predicción al \((1-\alpha)%\) amplio. (Hacer ejercicio de TOluca Company).
Un \(R^2\) alto indica que la recta de regresión estimada tiene buen ajuste. Lo anterior no es necesariamente correcto, para relaciones no lineales entre \(x\) y \(y\) pueden existir \(R^2\) altos, sin embargo una línea recta no corresponde a un buen ajuste.
Un \(R^2\) cercano a cero indica que las variables \(x\) y \(y\) no están relacionadas Lo anterior no es necesariamente correcto, para relaciones no lineales entre \(x\) y \(y\) pueden existir \(R^2\) bajos, y tener una relación alta.
Coeficiente de correlación \(r\)
Una medida de relación lineal entre \(y\) y \(x\) cuando \(y\) y \(x\) son variables aleatorias el el Coeficiente de Correlación \(r\). El coeficiente de correlación se calcula como se muestra en Ecuación 5
\[\begin{align} r= \pm \sqrt{R^2} \end{align} \tag{5}\]
El signo \(+\) o \(-\) se asigna teniendo en cuenta la pendiente de la recta ajustada, positiva o negativa. El rango de \(r\) se muestra en la Ecuación 6
\[\begin{align} -1 \leq r \leq 1 \end{align} \tag{6}\]