0.1 Preeliminares

0.1.1 Notación

  • Letras como por ejemplo \(X\), \(Y\) = generalmente usado para denotar variables observables.
  • Letras griegas (por ejemplo \(\mu\), \(\sigma\)) = generalmente usado para denotar variables desconocidas que estamos tratando de estimar
  • \(X_1, X_2, \ldots, X_n\) describe puntos de datos \(n\)
  • \(\bar X\), \(\bar Y\) = medias observadas para las variables aleatorias \(X\) y \(Y\).
  • \(\hat \beta_0\), \(\hat \beta_1\) = estimadores de los verdaderos valores de \(\beta_0\) and \(\beta_1\)

0.1.2 Media muestral

  • La media muestral Se defune como \[\bar X = \frac{1}{n}\sum_{i=1}^n X_i\]
  • Centrado de una variable aleatoria se define como

\[\tilde X_i = X_i - \bar X\] - lo que conduce a que la variable \(X\) tenga una media de cero \(\tilde X_i = 0\)

0.1.3 Varianza y desviación estándar muestral

  • Varianza Muestral se define como \[S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar X)^2 = \frac{1}{n-1} \left( \sum_{i=1}^n X_i^2 - n \bar X ^ 2 \right) \Leftarrow \mbox{forma abreviada para cálculo}\]

  • Desviación estándar muestral se define como \(S = \sqrt{S^2}\)
    • raiz de las distancias al cuadrado promedio entre una observación y su media
    • tiene las mismas unidades que los datos

0.1.4 Covarianza y correlación muestral

  • Sea \((X_i, Y_i)\) = parejas de datos
  • covarianza muestral se define como \[ Cov(X, Y) = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X) (Y_i - \bar Y) = \frac{1}{n-1}\left( \sum_{i=1}^n X_i Y_i - n \bar X \bar Y\right) \]
    • sus unidades son las unidades de \(X \times\) unidades de \(Y\). Ejemplo metros por kilogramo
  • correlación se define como \[Cor(X, Y) = \frac{Cov(X, Y)}{S_x S_y}\] dande \(S_x\) and \(S_y\) son las estimaciones de las desviaciones estándar de las observaciones de \(X\) y \(Y\) respectivamente.
    • el valor es la covarianza estandarizada en una cantidad sin unidades
    • \(Cor(X, Y) = Cor(Y, X)\)
    • \(-1 \leq Cor(X, Y) \leq 1\)
    • \(Cor(X,Y) = 1\) y \(Cor(X, Y) = -1\) sólo sucede cuando las observaciones de \(X\) or \(Y\) están relacionadas perfectamente y linealmente en una línea de pendiente positiva y negativa respectivamente

    • \(Cor(X, Y)\) mide la fuerza de la relación lineal entre \(X\) y \(Y\) la relación será más fuerte si la correlación entre \(X\) y \(Y\) tiende a uno o a menos uno, \(Cor(X,Y)\) tiende a -1 or 1
    • \(Cor(X, Y) = 0\) implica que no es relación lineal.

0.1.5 Normalización

  • La normalización de una variable está definida \[Z_i = \frac{X_i - \bar X}{s_x}\]. donde \(s_x\) es la desviación estándar de \(x\)

    • media = 0, desviación estándar = 1
    • distribución centrada en torno a 0 y los datos tienen como unidades en número de desviaciones estándar con respecto a la media original
      • ejemplo: \(Z_k = 2\) significa que el punto \(k\)-esimo es dos desviaciones estándar más grande que la media original
  • La normalización, al llevar todos los datos a desviaciones estándar respecto a su media original, hace que los datos que en principio no son omparables sean comparables.

0.2 Mínimos Cuadrados

Si deseamos pronosticar la estatura de un niño y no tenemos más información, lo mejor que podemos hacer es utilizar el promedio histórico para pronosticar. Pero necesitamos una medida de ajuste de nuestra estimación, el error cuadrático medio

\[{\displaystyle \operatorname {ECM} ={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}.}\]

Es decir, pronosticaremos la estatura del niño por la línea negra, este punto tiene la propiedad de minimizar el cuadrado de las distancias de los datos observados a él, es decir, es el que genera un menor error respecto a los datos recolectados.

En caso de usar otro valor distinto a la media como valor de pronóstico, vemos que la función de error, llamada el cuadrado medio del error crecerá

Esto puede demostrarse matecamicamente derivando la expresion respecto a \(\hat {Y_{i}}\)

$$ \begin{aligned} & = 0 \ -2{i=1}^n (Y_i - {}) & = 0 \ {i=1}^n Y_i & = _{i=1}^n {} \

{i=1}^n Y_i & = n{} \ & = {} \ {{Y{i}}}= {}\ \end{aligned} $$

0.2.1 Ajuste del modelo por mínimos cuadrados

  • Ajuste del modelo = \(Y = \beta_0 + \beta_1 X\) a través de los pares de puntos \((X_i, Y_i)\) donde \(Y_i\) como la variable dependiente
  • se estima el interceptó y la pendiente que mejor ajuste bajo el criterio de los mínimos cuadrados (\(X\) como variable independiente, \(Y\) variable dependiente) \(\rightarrow\) \[Y = \hat \beta_0 + \hat \beta_1 X\]

donde \[\hat \beta_1 = Cor(Y, X) \frac{Sd(Y)}{Sd(X)}\]

\[\hat \beta_0 = \bar Y - \hat \beta_1 \bar X\]

  • pendiente e intercepto:
    • pendiente: \(\hat \beta_1\) tiene como unidades \(Y / X\)
      • \(Cor(Y, X)\) = sin unidades
      • \(Sd(Y)\) = tiene unidades de \(Y\)
      • \(Sd(X)\) = tiene unidades de \(X\)
    • intercepto: \(\hat \beta_0\) tiene las unidades de \(Y\)
    • la línea pasa por el punto \((\bar X, \bar Y\))
      • esto Es evidente de la ecuación de \(\beta_0\) (reescribiendo la ecuación)
  • la recta con el mejor ajuste de acuerdo al criterio de mínimos cuadrados con \(X\) variable independiente y \(Y\) como variable dependiente tiene como pendiente, \(\hat \beta_1 = Cor(Y, X)\dfrac{ Sd(X)}{Sd(Y)}\).
  • la pendiente de la mejor recta = la pendiente de la mejor recta a través del origen de los datos centrados \((X_i - \bar X, Y_i - \bar Y)\)
  • pendiente de la mejor recta con los datos normalizados, \(\{ \frac{X_i - \bar X}{Sd(X)}, \frac{Y_i - \bar Y}{Sd(Y)}\}\) = \(Cor(Y, X)\)

Regresíon tiene mucho de correlación, pero es mucho más.

0.3 Análisis del modelo de mínimos cuadrados

Como mencionamos, en el caso de no tener variables independientes nuestro mejor pronóstico será utilizar la media para estimar las estaturas de los hijos. Pero, en el caso de tener una recta de regresión estimada por mínimos cuadrados, tendremos que la variabilidad de nuestra estimación, se podra descomponer en una parte que es explicada por el modelo y una parte que no.

Es decir de la suma total de los cuadrados de los errores de la estimación empleando la media dato observado, se podrá descomponer en una parte explicada por los cuadrados de las distancias de la estimación al modelo y otra no explicada por el modelo.

$$\begin{split}\begin{array}{lrcl} & (y_i - ) &=& (_i - ) + (y_i - _i) \ & (y_i - )^2 &=& (_i - )^2 + 2(_i - )(y_i - _i) + (y_i - _i)^2 \ & &=& + \ & &=& +

\end{array}\end{split}$$

0.3.1 suma de cuadrados en una regresión

<iframe src=“https://paternogbc.shinyapps.io/SS_regression/” style=“border: none; width: 1200px; height: 1000px”; scrolling=no>

0.3.2 Mini-Anova

Tipos de varianza Distancia Degrees of freedom SSQ Mean square
Regression \(\hat y_i−\bar y\) \(k\) (\(k=2\) hasta ahora \(\beta_0\) y \(\beta_1\)) \(RegSS\) \(RegSS/k\)
Error \(y_i−\hat y_i\) \(n−k\) \(RSS\) \(RSS/(n−k)\)
Total \(y_i − \bar y\) \(n\) \(TSS\) \(TSS/n\)

0.3.3 El error estándar

El término \(S_E^2 = \text{RSS}/(n-k)\) es una manera de medir el desempeño del modelo. EL valor \(S_E = \sqrt{\text{RSS}/(n-k)} = \sqrt{(e^Te)/(n-k)}\). Es llamado el error estándar. Realmente es solo la desviación estándar del término de error, corregida por los grados de libertad.

Ejemplo: Supongamos que tenemos un modelo para predecir el peso de unos pacientes ¿qué implica que este modelo tenga un error estándar de 3.4 kg?

Recuerde que bajo normalidad, a \(\pm\) una desviación estandar se encuentran dos terceras partes de los pronósticos. Del mismo modo, el 95 de las estimaciones tendran como error de prónostico \(\pm 2 * SE\). Es decir, permite cuantificar el error de pronóstico de \(y\).

0.3.4 Ejercicio

Simularemos datos de dos casos extremos.

  1. \(yi=e_i\), en decir, simularemos los datos de una normal estándar (media cero, y varianza 1)

A continuación calcularemos las sumas de cuadrados de la regresión, de los residuales y en consecuencia del total. Lo haremos por medio del comando anova.

## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value Pr(>F)
## x          1  0.017 0.01695  0.0208 0.8856
## Residuals 98 79.852 0.81482

La suma de cuadrados de la regresión por 0.017, ha de cuadrados de los residuales es 79.852, en consecuencia la suma de cuadrados del total será 79.869

Una medida sobre el desempeño del modelo es de la suma de cuadrados de las observaciones a su media, que tanto es capaz de esplicar el modelo respecto al total.

\[\dfrac{\text{RegSS}}{\text{TSS}}\] Que se conoce como \(R^2\) o medida de bondad de ajuste.

¿Que valor toma el \(R^2\), interprete?

¿interprete los parámetros \(\beta_0\) y \(\beta_1\) del modelo?

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.34005 -0.60584  0.01551  0.58514  2.29747 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)
## (Intercept)  0.1316657  0.1818975   0.724    0.471
## x           -0.0004511  0.0031271  -0.144    0.886
## 
## Residual standard error: 0.9027 on 98 degrees of freedom
## Multiple R-squared:  0.0002123,  Adjusted R-squared:  -0.00999 
## F-statistic: 0.02081 on 1 and 98 DF,  p-value: 0.8856
  1. Ahora simulemos un conjunto de datos de un modelo de una recta con una perturbación aleatoria \(y_i = \beta_0+\beta_1x_i+e_i\).

## Analysis of Variance Table
## 
## Response: y1
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x          1 752217  752217   19345 < 2.2e-16 ***
## Residuals 98   3811      39                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

¿Que valor toma el \(R^2\), interprete?

¿interprete los parámetros \(\beta_0\) y \(\beta_1\) del modelo?

0.4 Una medida de bondad de ajuste: Coeficiente de determinación \(R^2\):

El coeficiente de determinación mide la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir, cuán “bien” se ajusta la línea de regresión a los datos.

Definición: El coeficiente de determinación \(R^2\) se puede interpretar como el porcentaje de reducción en la variación total en el experimento obtenido al usar la recta de regresión \(y_i=b_0+b_1x_i+e_i\), en lugar de ignorar x y usar la media muestral \(\bar y\) para predecir la variable de respuesta \(y\) .

\[R^2 = \dfrac{\text{RegSS}}{\text{TSS}} = \dfrac{\sum_i{ \left(\hat{y}_i - \overline{\mathrm{y}}\right)^2}}{\sum_i{ \left(y_i - \overline{\mathrm{y}}\right)^2}}\]

  • \(R^2\) = porcentaje de la variabilidad total que se explica por el modelo de regresión

\[ \begin{aligned} R^2 & = \frac{\mbox{Variación explicada por la regresión}}{\mbox{variabilidad total}} = \frac{\sum_{i=1}^n (\hat y_i - \bar y)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \\ & = 1- \frac{\mbox{variación de los residuales}}{\mbox{variabilidad total}} = 1- \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y)^2}\\ \end{aligned}\]

  • \(0 \leq R^2 \leq 1\)
  • \(R^2\) = correlación de muestra al cuadrado
    • cor(outcome, predictor` = calcula la correlación entre predictor y resultado \(\rightarrow\) lo mismo que calcular \(R^2\).
  • El \(R^2\) puede ser un engañoso como medida de resumen del ajuste del modelo
    • Eliminar datos datos \(\rightarrow\) inflar \(R^2\).
    • Agregar variables al modelo de regresión \(\rightarrow\) siempre aumenta \(R^2\).
    • Los datos de anscombe demuestra la falacia de \(R^2\) pues:
      • Básicamente la misma media y varianza de X e Y
      • correlaciones idénticas (por lo tanto, el mismo \(R^2\))
      • misma relación de regresión lineal

0.5 Modelo de Regresión Normal Lineal - Modelos estadísticos de regresión Lineal

Encontrar una buena recta de regresión usando el método de mínimos cuadrados es realmente un procedimiento matemático. Sin embargo, queremos hacer estadística. Deseamos poder inferir desde nuestros datos a una población utilizando modelos estadísticos.

Hasta ahora hemos analizado las sumas de cuadrados sin tener en cuenta la distribución de los datos y en consecuencia no podemos hacer inferencia, ahora incorporaremos la estadística al modelo.

\[y_i = \beta_0+\beta_1x_i+e_i\]

Es decir, nos interesarán preguntas cómo ¿qué tan buen estimador es \(\hat \beta\) del poblacional?

\[y_i = \hatβ_0 + \hatβ_1x_i + \hat e_i\]

En este punto, los supuestos sobre la distribución de las variables recaerán sobre \(e_i\), este supuesto puede no resultar tan fuerte Pues en virtud del teorema del límite central podemos suponer que la combinación de variables no incluidas en el modelo resumidas \(e_i\) tenemos que la suma de estas variables independientes e identicamente distribuidas convergerán a una distribución normal.

Adicionalmente el teorema de límite central también permite suponer la convergencia normalidad Aunque el número de variables sea pequeño y no sean estrictamente independientes.

Bajo el supuesto de normalidad el término de perturbación serio fácilmente las propiedades de los estimadores de mínimos cuadrados ordinarios. Una propiedad de la distribución normal es que cualquier función lineal de variables normalmente distribuidas estará también normalmente distribuidas como analizaremos los estimadores de mínimos cuadrados de \(\beta_0\) y \(\beta_2\) son funciones lineales de \(e_i\) y en consecuencia también se distribuirán normalmente. Por lo cual tendremos forma de hacer pruebas de hipótesis sobre los estimadores de mínimos cuadrados ordinarios.

Si trabajamos con una muestra finita o pequeña, con datos de 100 o menos observaciones, la suposición de normalidad desempeña un papel relevante. No sólo contribuye a derivar las distribuciones de probabilidad exactas de los estimadores de mínimos cuadrados ordinarios, sino también para realizar las pruebas estadísticas \(t\), \(F\) y \(\chi^2\) para los modelos de regresión.

En el caso de contar con muestras grandes es posible relajar el supuesto de normalidad de los residuos al expuesto que se puede garantizar que los estadísticos \(t\) y \(F\) convergen a dichas distribuciones ( Christiaan Heij et al., Econometric Methods with Applications in Business and Economics , Oxford University Press, Oxford, 2004, p. 197)

0.5.1 Interpretación de los coeficientes

  • Para la recta de regresión \[Y_i = \beta_0 + \beta_1 X_i + \epsilon_{i}\] los estimadores de mínimos cuadrados son para \(\beta_0\) y \(\beta_1\)

\[\hat \beta_1 = Cor(Y, X)\frac{Sd(Y)}{Sd(X)} ,~~~~~~ \hat \beta_0 = \bar Y - \hat \beta_1 \bar X\] * \(\beta_0\) = valor esperado al resultado/respuesta cuando el predictor es 0. \[ E[Y | X = 0] = \beta_0 + \beta_1 \times 0 = \beta_0 \] - Nota: \(X=0\) puede no ser de interés en muchos posibles resultados de la variable independiente (Como por ejemplo presión en la sangre estatura) - Por lo cual se suele mover el la variable \(X\) para que el intercepto sea interpretable \[\begin{aligned} Y_i &= \beta_0 + \beta_1 X_i + \epsilon_i\\ &= \beta_0 + a \beta_1 + \beta_1 (X_i - a) + \epsilon_i \\ &= \tilde \beta_0 + \beta_1 (X_i - a) + \epsilon_i ~~~donde~ \ \tilde \beta_0 = \beta_0 + a \beta_1\\ \end{aligned} \] - Nota: Cambiando el valor de \(X\) cambia el intercepto, pero no la pendiente - frecuentemente, \(a\) es reemplazada por \(\bar X\) así que el interceptó se interpreca como la respuesta esperada en el valor promedio de \(X\).

  • \(\beta_1\) = valor esperado del cambio en la en el resultado/respuesta/dependiente por una unidad de cambio en el dredictor/independiente
    \[E[Y ~|~ X = x+1] - E[Y ~|~ X = x] = \beta_0 + \beta_1 (x + 1) - (\beta_0 + \beta_1 x ) = \beta_1\]

    • en ocasiones es útil cambiar las unidades de \(X\) \[ \begin{aligned} Y_i & = \beta_0 + \beta_1 X_i + \epsilon_i \\ & = \beta_0 + \frac{\beta_1}{a} (X_i a) + \epsilon_i \\ & = \beta_0 + \tilde \beta_1 (X_i a) + \epsilon_i \\ \end{aligned} \]
    • multiplicando \(X\) por un factor \(a\) el resultado de dividir la pendiente por el factor \(a\)
    • ejemplo:
      • \(X\) = altura en \(m\)
      • \(Y\) = pesó en \(kg\)
      • \(\beta_1\) tiene comunidades \(kg/m\)
      • convertir \(X\) a \(cm\) \(\Longrightarrow\) multiplicar \(X\) by \(100 \frac{cm}{m}\)
      • esto significa \(\beta_1\) tiene que ser dividido \(100 \frac{cm}{m}\) para tener las unidades correctas. \[X~m \times 100\frac{cm}{m} = (100~X) cm ~~~~~~\mbox{y}~~~~~~ \beta_1 \frac{kg}{m} \times \frac{1}{100}\frac{m}{cm} = \left(\frac{\beta_1}{100}\right)\frac{kg}{cm}\]
  • los intervalos de 95% de confianza para los coeficientes pueden ser construidos por los coeficientes en sí mismos y sus errores estándar (empleando la función sobre un objeto del tipo lm summary(lm))
    • En consecuencia,es posible utilizar los resultados de los intervalos para evaluar la significancia de los parámetros estimados

0.6 Uso de los coeficientes de regresión para pronóstico

  • valores observados de la variable independiente, \(X_1, X_2, \ldots , X_n\), la predicción de la variable dependiente/resultado/salida es la siguiente \[\hat \mu_i = \hat Y_i = \hat \beta_0 + \hat \beta_1 X\] donde \(\mu_i\) describe un punto en la línea de regresión

0.6.1 Ejemplo

  • empleando el conjunto de datos diamond del paquete UsingR.
    • precio de los diamantes en dólares de Singapur, peso de los diamantes en carats (medida estándar de peso de los diamantes equivalente a, 0.2g)
  • lm(price ~ I(carat - mean(carat)), data=diamond) = regresión centrada por la media
    • Nota: operaciones aritméticas deben ser encapsuladas en I() para funcionar dentro de los parámetros de un modelo
  • predict(fitModel, newdata=data.frame(carat=c(0, 1, 2))) = retorna el valor predicho para un modelo dado (lineal en este caso) para los puntos provistos por newdata.
    • Si newdata no está especificado (el argumento es omitido), entonces la función predict retornará los valores pronosticados para todos los valores de la variable independiente (variable x, carat en este caso)
      • Nota: newdata debe ser un Data frame, y los valores que se desean predecir (de la variable x , carat en este caso) deben ser especificados, O R no sabrá que hacer con los valores provistos
  • ejemplo

## (Intercept)       carat 
##   -259.6259   3721.0249
##            (Intercept) I(carat - mean(carat)) 
##               500.0833              3721.0249
##   (Intercept) I(carat * 10) 
##     -259.6259      372.1025
## [1]  335.7381  745.0508 1005.5225
##         1         2         3 
##  335.7381  745.0508 1005.5225
  • Interpretación
    • se espera un incremento de 3721.02 dólares de Singapur en el precio de los diamantes por cada incremento de un carat en la masa del diamante
    • O se espera un incremento de 372.1 dólares de Singapur en el precio de los diamantes por cada incremento en 1/10 carat en la masa del diamante
  • Predicción
    • para 0.16, 0.27, y 0.34 carats, pronosticamos un precio de 335.74, 745.05, 1005.52 dólares de Singapur.

0.7 Residuales

Los residuales representan variaciones que nuestro modelo no puede explicar. Los residuales son diferentes de los errores. Los errores son las variaciones, no explicables por el modelo poblacional, los residuales son su equivalente del modelo muestra.

Los errores verdaderos no son observables así como los coeficientes verdaderos tampoco lo son, mientras que los residuales son los errores observables como los coeficientes estimados. En cierto sentido los residuales son estimaciones de los errores.

  • Definimos los residuales, \(e_i\) = como la diferencia entre los valores predichos y los valores observados de la variable respuesta \[e_i = Y_i - \hat Y_i\]
    • o la distancia vertical entre los valores observados y la recta de regresión
    • Recordemos que el criterio de mínimos cuadrados minimiza \(\sum_{i=1}^n e_i^2\)
  • \(e_i\) puede ser interpretada como el error de estimación de la regresión, \(\epsilon_i\)
  • \(e_i\) también puede ser interpretada como (\(Y\)) con la asociación lineal del prediktor (\(X\)) removida
    • o, “\(Y\) Ajustado por \(X\)
  • \(E[e_i] = 0\) \(\rightarrow\) Esto se debe a que la media de los residuales Espera que se sea 0 ( asumiendo distribución normal)
    • el supuesto de normalidad también implica que los errores NO están correlacionados con los predictores
    • mean(fitModel$residuals) = retorna la media de los residuales \(\rightarrow\) qué debe ser igual a 0
    • cov(fit$residuals, predictors) = retorna la covarianza de los residuales con los predictores \(\rightarrow\) que también debe ser igual a 0
  • Para modelos de regresion estandar
    • residuales positivos = sobre la línea
    • residuales negavitos = debajo
  • las graficas de los residuales pueden resaltar problemas del modelo.
  • resid(fitModel) o fitModel$residuals = extrae los residuales del modelo ajustado (lm es este caso) \(\rightarrow\) lista de los valores de los residuales para cada valor de X
  • summary(fitModel)$r.squared = returna \(R^2\) para el modelo de regresión

0.7.0.1 ejemplo precio de diamantes

a continuación analizamos los residuales del modelo de precio de diamantens diamantes explicado por carat (masa)

0.7.0.2 ejemplo de patrones no lineales

  • los patrones no lineales entre se pueden revelar más fácilmente a través de gráficos residuales
## Loading required package: grid

0.7.0.3 ejemplo heterocedasticidad

  • heterocedasticidad = un modelo heterocedastico no tiene varianza constante Y esta es función de \(X\)

0.8 Inferencia en regresión

La inferencia es el proceso de sacar conclusiones sobre una población usando una muestra. En inferencia estadística, debemos dar cuenta de la incertidumbre en nuestras estimaciones. Las pruebas de hipótesis y los intervalos de confianza son algunas de las formas más comunes de presentar la inferencia estadística.

  • estadísticos usados para pruebas de hipótesis e intervalos de confianza tienen los siguientes atributos \[\frac{\hat \theta - \theta}{\hat \sigma_{\hat \theta}} \sim N(0,1)\]

    • Este estadístico sigue una distribución t de estudend (si la varianza poblacional es reemplazada por la muestral) y estara normalmente distribuida si la muestra está constituida por componentes independientes e identicamente distribuidas (como es el caso de \(\epsilon_i\), pues tiene media cero e igual varianza dado \(X_i\))
    • este estadístico puede ser usado para realizar pruebas de hipótesis del tipo \(H_0 : \theta = \theta_0\) vs. \(H_a : \theta >, <, \neq \theta_0\).
    • intervalos de confianza para \(\theta\) = \(\hat \theta \pm Q_{1-\alpha/2} \hat \sigma_{\hat \theta}\), donde \(Q_{1-\alpha/2}\) = es el cuantil al nivel \(\alpha/2\) de confianza de una distribución normal para muestras grandes o de una distribución t para muestras pequeñas con \(n - 1\) grados de libertad.

0.8.1 intervalos de confianza y pruebas de hipotesis para sobre los coeficientes

No veremos como se derivan estas fórmulas

  • la varianza y desviación estándar de \(\beta_1\)

\[ \sigma_{\hat \beta_1}^2 = Var(\hat \beta_1) = \frac{\sigma^2 }{ \sum_{i=1}^n (X_i - \bar X)^2 }\\ \Rightarrow \sigma_{\hat \beta_1} = \frac{\sigma}{ \sqrt {\sum_{i=1}^n (X_i - \bar X)^2}} \]

Donde: \(Var(Y_i) = \sigma^2\)

la varianza del \(\beta_1\) se incrementará a la par que la varianza de Y, es decir que la varianza alrededor de la recta de regresión; y se reducirá en la medida que aumenta la varianza de las \(X\), en nuestra variable independiente.

Si la variabilidad de las X es baja, causará que las estimaciones de minimos cuadrados sean poco estables a, por ejemplo un atípico.

el caso contrario muestra como el incremento de la varianza de las x hace que se estabilice las varianzas de la pendiente

  • la varianza y desviación estándar de \(\beta_0\)

\[\sigma_{\hat \beta_0}^2 = Var(\hat \beta_0) = \left(\frac{1}{n} + \frac{\bar X^2}{\sum_{i=1}^n (X_i - \bar X)^2 }\right)\sigma^2 \\ \Rightarrow \sigma_{\hat \beta_0} = \sigma \sqrt{\frac{1}{n} + \frac{\bar X^2}{\sum_{i=1}^n (X_i - \bar X)^2 }}\]

  • \(\sigma\) es desconocida pero se estima de la siguiente manera \[\hat \sigma^2 = \frac{1}{n-2}\sum_{i=1}^n e_i^2\]
  • bajo errores independientes e idénticamente distribuidos normales ( asumidos en la recta de regresión bajo el término \(\epsilon_0\)), los estadísticos sobre \(\hat \beta_0\) y \(\hat \beta_1\) calculados como \[\frac{\hat \beta_j - \beta_j}{\hat \sigma_{\hat \beta_j}} ~~~para ~j = 0, 1\]
    • se distribuyen \(t\) con \(n-2\) grados de libertad para \(n\) pequepo y normalmente para \(n\) grande * summary(fitModel)$coefficients = retorna la tabla de coeficientes estimados, errores estándar, valores t y p valores de los coeficientes \(\beta_0\) and \(\beta_1\)
  • Nota: la variabilidad de la pendiente \(Var(\hat \beta_1)\), es máxima cuando las variables independientes están distribuidas en dos clusters que están alejados uno del otro

- es una buena práctica para la estimación de las relaciones lineales  contar con puntos que cubran todo el rango de variación de las variables independientes, esto incrementa el denominador $\sum_{i=1}^n (X_i - \bar X)^2$, lo que a su vez reduce la varianza de los coeficientes estimados
- esto reduce la varianza de la pendiente y puede ser más confiable la estimación de la relación lineal
0.8.1.0.1 Ejemplo de calculo de los coeficientes, errores estándar, valores críticos y p-valores de un modelo*
##              Estimate Std. Error   t value      P(>|t|)
## (Intercept) -259.6259   17.31886 -14.99094 2.523271e-19
## x           3721.0249   81.78588  45.49715 6.751260e-40
##              Estimate Std. Error   t value     Pr(>|t|)
## (Intercept) -259.6259   17.31886 -14.99094 2.523271e-19
## x           3721.0249   81.78588  45.49715 6.751260e-40
## [1] -294.4870 -224.7649
## [1] 355.6398 388.5651
  • Interpretación: con un 95% de confianza, estimamos que un incremento de 0.1 en carat tamaño del diamante entre 355.6 y 388.6 incrementa el precio en dólares de Singapur.

0.8.2 intervalo de predicción

Podremos construir intervalos de confianza nuestros predicciones para evaluar la incertidumbre alrededor de las mismas. Podemos calcular el pronóstico, \(\hat y_0\), del punto \(x_0\)con la formula \[\hat y_0 = \hat \beta_0 + \hat \beta_1 x_0\] pero como buenos estadísticos, necesitamos incorporar la incertidumbre en nuestros pronósticos

  • podemos construir dos intervalos de pronóstico
    1. intervalo para la recta en \(x_0\) \[ \begin{aligned} \mbox{intervalo}: & \hat y_0 \pm t_{n-2, 1-\alpha/2} \times SE_{line} \\ \mbox{donde } & \hat y_0 = \hat \beta_0 + \hat \beta_1 x_0 \\ \mbox{y } & SE_{line} = \hat \sigma\sqrt{\frac{1}{n} + \frac{(x_0 - \bar X)^2}{\sum_{i=1}^n (X_i - \bar X)^2}}\\ \end{aligned}\]
      • El intervalo tiene un ancho variable
      • si el intervalo es estrecho tenemos una alta confianza sobre la recta de regresión
      • cuando \(n\) aumenta el intervalo se hace más ajustado
      • El intervalo será el menor cuando \(x_0\) sea igual a \(\bar X\)
      • El denominador \(\sum_{i=1}^n(X_i-\bar X)^2\) implica que a mayor variabilidad de \(X\), menor es la incertidumbre del pronóstico.
        • Nota: sí conocemos los verdaderos valores de \(\beta_0\) y \(\beta_1\), este intervalo tendrá ancho de 0
    2. intervalo de confianza para el valor pronosticado, \(\hat y_0\), en \(x_0\) \[ \begin{aligned} \mbox{intervalo}: & \hat y_0 \pm t_{n-2, 1-\alpha/2} \times SE_{\hat y_0} \\ \mbox{donde } & \hat y_0 = \hat \beta_0 + \hat \beta_1 x_0 \\ \mbox{y } & SE_{\hat y_0} = \hat \sigma\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar X)^2}{\sum_{i=1}^n (X_i - \bar X)^2}}\\ \end{aligned}\]
    • El intervalo tiene un ancho variable
      • el \(1\) adicional en la formula de \(SE_{\hat y_0}\) representa la variabilidad inherente en los datos
        • no importa qué tan buena línea de regresión nosotros obtengamos ello no implica la que nos deshagamos de la variabilidad de los datos.
        • Nota: Incluso si conocemos los verdaderos valores de \(\beta_0\) y \(\beta_1\), el intervalo aún tendría ancho* debido a la variabilidad de los datos *
  • predict(fitModel, data, interval = ("confidence")) = retorna una matriz de tres columnas para fit (valor pronosticado por la recta de regresión), lwr (Límite inferior del intervalo), y upr (límite superior del intervalo)
    • interval = ("confidence") = retorna el intervalo de la recta
    • interval = ("prediction") = retorna el intervalo de la predicción
    • data = debe ser un Data frame con los valores que deseamos pronosticar
  • example (ggplot2)

0.9 Regresión Lineal Múltiple

0.9.1 \(R^2\) ajustado

De la definición del coeficiente de determinación se desprende una limitación del coeficiente de determinación. \[ \begin{aligned} R^2 & = \frac{\mbox{Variación explicada por la regresión}}{\mbox{variabilidad total}} = \frac{\sum_{i=1}^n (\hat y_i - \bar y)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \\ & = 1- \frac{\mbox{variación de los residuales}}{\mbox{variabilidad total}} = 1- \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y)^2}\\ \end{aligned}\]

\[ R^2= 1- \frac{\mbox{variación de los residuales}}{\mbox{variabilidad total}} =1- \dfrac{RSS}{TSS}=1- \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y)^2}\]

De la expresión anterior, se nota que el denominanor es una cantidad fija y que el numerador \(\sum_{i=1}^n (y_i - \hat y_i)^2\) si se agrega una variable adicional al modelo la variabilidad que explica solo puede aumentar o en el peor de los casos mantenerse constante, es decir que agregar variables.

Por lo cual, se realiza un ajuste que penalice el número de variables incluidas en el modelo en el cálculo del \(R^2\)

\[R^2_{adj} =1- \dfrac{\dfrac{RSS}{n-k}}{\dfrac{TSS}{n-1}}\]

Donde \(k\) es el número de parámetros del modelo.

https://www.mendeley.com/viewer/?fileId=64cb1760-5a8d-d997-0e56-f68315dacf82&documentId=548a1141-8663-33db-bbc8-d5a73cf83ce0

557

0.9.2 Prueba F

0.10 Interpretación de la salida del Softvare

La mayoría de los paquetes estadísticos tienen una salida estandarizada la cual permite interpretar las estimaciones de los parámetros, sus intervalos de confianza y tener una idea del rendimiento del modelo.

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.92127 -0.45577 -0.04136  0.70941  1.83882 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   3.0001     1.1247   2.667  0.02573 * 
## x             0.5001     0.1179   4.241  0.00217 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.237 on 9 degrees of freedom
## Multiple R-squared:  0.6665, Adjusted R-squared:  0.6295 
## F-statistic: 17.99 on 1 and 9 DF,  p-value: 0.00217
  • el intercepto \(\hat \beta_0\) = 3.0001.
  • la pendiente \(\hat \beta_1\) = 0.5001.
  • el error estándar del modelo, \(\hat \sigma^_{resid}\) = SE = 1.237, empleando n−k=11−2=9 grados de libertad. \[\hat \sigma^2 = \frac{1}{n-2}\sum_{i=1}^n e_i^2\]

    • Recuerde que los residuales, \(e_i\), se definen como \[e_i = Y_i - \hat Y_i = Y_i - \sum_{k=1}^p X_{ik} \hat \beta_j\]
    • El estimador insesgado de la warianza de los residuales se define como \[\hat \sigma^2_{resid} = \frac{\sum_{i=1}^n e_i^2}{n-p}\] donde el denominador es \(n-p\) para que \(E[\hat \sigma^2] = \sigma^2\). \(p\) es el número de variables, en este caso 2.
  • usando el error estándar se calcula el error estándar del intercepto \(\sigma_{\hat \beta_0}\) = \(SE(\hat \beta_0)\)=1.1247.
  • donde le gustan más las mujeres se calcula el error estándar de la pendiente = \(\sigma_{\hat \beta_1}\) = \(SE(\hat \beta_1)\)=0.1179.
  • el valor de la distribución \(t\) calculado denotado como t-value para el término \(\beta_0\) es 2.667 este valor se compara contra el valor \(t\) crítico y es usada para calcular el valor \(p\).
  • el valor t para \(\beta_1\) es 4.241 (aplicar comentario anterior)
  • los dos valores de probabilidad, Pr(>|t|), para \(\hat \beta_0\) y \(\hat \beta_1\) debe resultar de familiar es el valor p de una prueba de hipótesis de que cada vez es diferente de cero, igual que antes entre más pequeño sea el valor p tenemos más confianza de que el intervalo contenga al verdadero valor del parámetro. recuerde que el valor-p mide qué tan qué tanto apoya la muestra la hipótesis nula, un valor pequeño significará poca concordancia entre la hipótesis nula y la muestra.
  • es posible construir el intervalo de confianza para de \(\hat \beta_0\) y \(\hat \beta_1\) usando los errores estándar y multiplicando por el correspondiente valor \(t\) Por ejemplo, si se desea calcular los límites del intervalo de confianza del 99%, entonces necesitamos calcular el percentil 99 la distribución \(t\) usando \(n-k\) grados de libertad , en este caso esto se puede hacer con ´qt((1-0.99)/2, df=9)´, el cual es ±3.25. Entonces, el intervalo de confianza del 99% para la pendiente será \([0.5−3.25×0.1179;0.5+3.25×0.1179]=[0.12;0.88]\).
  • el valor del \(R^2=0.6665\).
  • el valor del \(R^2\) ajustado \(R^2=0.6295\).
  • podemos calcular los residuales: \(e_i=y_i−\hat y_i=y_i−b_0−b_1x_i\). Esperamos que la media de los residuales esté alrededor de 0, y el resto de estadísticas nos dicen que tanto varían los residuales alrededor de este 0.

0.12 Referencias

Gujarati, D. N., & Porter, D. C. (2011). Econometria Básica-5. Amgh Editora.