Predicción de nuevas observaciones

Sea \(x_0\) el valor de variable de interés, es decir \[\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0\] es la estimación puntual del nuevo valor de la respuesta \(y_0\).

Desarrollamos un intervalo de predicción para la observación \(y_0\). Sea la variable aleatoria \(\Psi=y_0-\hat{y_0}\) que se distribuye normal con media cero y varianza \(Var(\Psi)=Var(y_0-\hat{y_0})=\sigma^2\left[1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{S_{xx}}\right]\), esto considerando que \(y_0\) es independiente de \(\hat{y_0}\)

Luego, un intervalo de confianza para \(y_0\) al \(100(1-\alpha)\%\) es \[\hat{y_0}-t_{\alpha/2,n-2}\sqrt{MS_{Res}\left(1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{S_{xx}}\right)}\leq y_0\leq\hat{y_0}+t_{\alpha/2,n-2}\sqrt{MS_{Res}\left(1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{S_{xx}}\right)}\] Dicho intervalo de confianza se puede generalizar para una cantidad \(m\) de observaciones. Sea \(\overline{y_0}\) la media de \(m\) futuras observaciones. Un estimador puntual de \(\overline{y_0}\) es \(\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0\). El intervalo de confianza al \(100(1-\alpha)\%\) en \(\overline{y_0}\) es \[\hat{y_0}-t_{\alpha/2,n-2}\sqrt{MS_{Res}\left(\frac{1}{m}+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{S_{xx}}\right)}\leq y_0\leq\hat{y_0}+t_{\alpha/2,n-2}\sqrt{MS_{Res}\left(\frac{1}{m}+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{S_{xx}}\right)}\]

Coeficiente de determinación

El valor \[R^2=\frac{SS_R}{SS_T}=1-\frac{SS_{Res}}{SS_T}\] se conocde como coeficiente de determinación. Dado que \(0\leq SS_{Res}\leq SS_T\), se sigue que \(0\leq R^2\leq 1\). Cuando el valor de \(R^2\) es más cercano a 1 implica que la variabilidad de \(y\) se explica por el modelo de regresión.

La magnitud de \(R^2\) depende del rango de variabilidad de la variable regresora. Generalmente, \(R^2\) aumentará a medida que aumenta la dispersión de las \(x\) y dismuirá a medida que disminuye la dispersión de las \(x\) siempre que la forma del modelo asumido sea correcta.

Mediante el método delta se puede demostrar que el valor esperado de \(R^2\) es aproximadamente \[\mathbb{E}(R^2)\approx\frac{\frac{\beta_1^2S_{xx}}{n-1}}{\frac{\beta_1^2S_{xx}}{n-1}+\sigma^2}\] En general, \(R^2\) no mide la maginitud de la pendiente de la linea de regresión. Un valor grande de \(R^2\) no implica una pendiente pronunciada. Además, aunque el valor de \(R^2\) sea alto, no implica necesariamente que el modelo de regresión sea un predictor preciso.

Consideraciones sobre el uso de la regresión

El análisis de regresión se utiliza ampliamente y con frecuencia se hace un uso incorrecto de ello. Hay varios abusos comunes que se deben mencionar:

  1. Los modelos de regresión están pensados como ecuaciones de interpolación sobre el rango de las variables de regresión utilizadas para ajustar el modelo. Debemos tener cuidado si extrapolamos fuera de este rango.

  2. El orden de los valores de \(x\) juega un papel importante en el ajuste por mínimos cuadrados debido a que la pendiente está más influenciada por dichos valores.

Por ejemplo, considere los datos de la Figura 2.8. La pendiente depende en gran medida de A y/o B. Los datos restantes darían una estimación muy diferente de la pendiente si se eliminaran A y B. Situaciones como esta a menudo se necesitan corregir realizando un analisis más exhaustivo considerando la posible eliminación de los datos inusuales, realizar la estimación de los parámetros del modelo con alguna técnica que esté menos influenciada por dichos puntos en comparación a los mínimos cuadrados o introducir más regresores para reestructurar el modelo. En la figura 2.9 se muestra una situación diferente en donde una de las 12 observaciones está más alejada. En este ejemplo, la pendiente en está determinada en gran medida por dicho punto extremo. Si se elimina dicho valor, la estimación de la pendiente posiblemente sea cero.

  1. Los valores atípicos u outliers son aquellas observaciones que se alejan considerablemente del resto de los datos. Estos valores pueden alterar seriamente el ajuste por mínimos cuadrados. El “outlier” puede ser un “valor incorrecto” que haya resultado de un registro de datos o algún otro error. Por otro lado, el dato puede no ser un mal valor y ser una pieza de evidencia muy útil al momento de realizar una invertigación.

  2. El hecho de que un análisis de regresión haya indicado una fuerte relación entre dos variables no implica que exista una relación causal entre ambas. La causalidad implica correlación necesaria y el análisis de regresión solo aborda cuestiones de correlación.

  3. En algunas aplicaciones de regresión, el valor de la variable regresora \(x\) necesaria para predecir \(y\) es desconocido.

Regresión a través del origen

Algunas situaciones de regresión parecen implicar que una línea recta que pasa por el origen debería ajustarse a los datos. Un modelo de regresión sin intercepto suele parecer adecuado para analizar datos de procesos químicos y otros procesos de fabricación. Por ejemplo, el rendimiento de un proceso químico es cero cuando la temperatura de funcionamiento del proceso es cero.

El modelo de no intercepto es \[y=\beta_1 x+\epsilon\]

Dadas \(n\) observaciones \((y_i,x_i)\), \(i=1,2,...,n\), la función de mínimos cuadrados es \[S(\beta_1)=\sum_{i=1}^n (y_i-\beta_1 x_i)^2\] La única ecuación normal es \[\hat{\beta_1}\sum_{i=1}^n x_i^2=\sum_{i=1}^n y_ix_i\] y la estimación de la pendiente es \[\hat{\beta_1}=\frac{\sum_{i=1}^n y_ix_i}{\sum_{i=1}^n x_i^2}\]

El estimador \(\hat{\beta_1}\) es insesgado para \(beta_1\) y el modelo de regresión ajustado es \[\hat{y}=\hat{\beta_1}x\]

El estimador de \(\sigma^2\) es \[\hat{\sigma}^2=MS_{Res}=\frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{n-1}=\frac{\sum_{i=1}^n y_i^2-\hat{\beta_1}\sum_{i=1}^n y_ix_i}{n-1}\] con \(n-1\) grados de libertad.

Suponiendo que los errores se distribuyen normal, podemos realizar test de hipótesis y construir intervalos de confianza para este modelo. El intervalo de confianza al \(100(1-\alpha)\%\) sobre \(\beta_1\) es \[\hat{\beta_1}-t_{\alpha/2,n-1}\sqrt{\frac{MS_{Res}}{\sum_{i=1}^n x_i^2}}\leq\beta_1\leq\hat{\beta_1}+t_{\alpha/2,n-1}\sqrt{\frac{MS_{Res}}{\sum_{i=1}^n x_i^2}}\] Un intervalo de confianza al \(100(1-\alpha)\%\) sobre \(\mathbb{E}(y|x_0)\), la respuesta media en \(x=x_0\) es \[\hat{\mu}_{y|x_0}-t_{\alpha/2,n-1}\sqrt{\frac{x_0^2MS_{Res}}{\sum_{i=1}^n x_i^2}}\leq\mathbb{E}(y|x_0)\leq\hat{\mu}_{y|x_0}+t_{\alpha/2,n-1}\sqrt{\frac{x_0^2MS_{Res}}{\sum_{i=1}^n x_i^2}}\] La longitud se este intervalo de confianza en \(x=0\) es cero ya que el modelo supone que se sabe, con certeza, que la media de \(y\) en \(x=0\) es cero.

Un intervalo de confianza al \(100(1-\alpha)\%\) sobre \(y_0\) es \[\hat{y_0}-t_{\alpha/2,n-1}\sqrt{MS_{Res}\left(1+\frac{x_0^2}{\sum_{i=1}^n x_i^2}\right)}\leq y_0\leq\hat{y_0}+t_{\alpha/2,n-1}\sqrt{MS_{Res}\left(1+\frac{x_0^2}{\sum_{i=1}^n x_i^2}\right)}\] En este caso, el intervalo tiene una longitud distinta de cero en \(x_0=0\) porque se debe considerar el error aleatorio en la observación futura.

Con frecuencia, la relación entre \(y\) y \(x\) es bastante diferente cerca del origen que en la región del espacio \(x\) que contiene los datos.

Si la hipotesis \(\beta_0=0\) no se puede rechazar en el modelo de intersección, es una indicación de que el ajuste puede ser más preciso utilizando el modelo de no intercepto.

En general, \(R^2\) no es un buen estadístico para comparar el modelo con intercepto y el sin intercepto. Para el modelo con intercepto tenemos \[R^2=\frac{\sum_{i=1}^n (\hat{y_i}-\overline{y})^2}{\sum_{i=1}^n (y_i-\overline{y})^2}\] En el caso de no intercepto, el analisis de la varianza se convierte en \[\sum_{i=1}^n y_i^2=\sum_{i=1}^n \hat{y_i}^2+\sum_{i=1}^n (y_i-\hat{y_i})^2\] de modo que, análogamente, el modelo de \(R^2\) para el modelo de no intercepto es \[R_0^2=\frac{\sum_{i=1}^n \hat{y_i}^2}{\sum_{i=1}^n y_i^2}\] Existen formas alternativas de definir \(R^2\) para el modelo de no intercepto. Una posibilidad es \[R_0^2=1-\frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{\sum_{i=1}^n (y_i-\overline{y})^2}\]