Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 6 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.

1 Preliminares

La relación más sencilla entre dos variables \(x\) y \(y\) es una relación lineal de la forma: \[y = \delta + \beta x\]

El código para escribir la expresión anterior es:

$$y = \delta + \beta x$$

\(x\) se llama variable independiente (predictora o explicativa).
Para \(x\) fija, \(y\) se llama variable dependiente o de respuesta.
Los parámetros del modelo son la pendiente \(\beta\) y el intercepto \(\delta\) (punto de corte con el eje \(Y\)), entre otros.
En las figuras de abajo, se muestran algunas situaciones que se pueden presentar dependiendo del valor de la pendiente.

a) Cuando la pendiente es positiva, la relación entre $x$ y $y$ es creciente. Es decir, a medida que $x$ aumenta, entonces, $y$ también aumenta.  

b) Cuando la pendiente es negativa, la relación entre $x$ y $y$ es decreciente. Es decir, a medida que $x$ aumenta, entonces, $y$ disminuye. 

c) Cuando la pendiente es cero, $y$ es constante y la recta es paralela al eje $X$.

Por lo general, las observaciones se efectuarán para diversos valores \(x_1, \ldots, x_n\) de la variable independiente \(x\). Representaremos con \(Y_i\) y \(y_i\) la variable aleatoria y el valor asociado con \(x_i\). Entonces, la información disponible está formada por las \(n\) parejas \((x_i,y_i)\), \(i=1,\ldots, n\) (como se muestra, a manera de ejemplo, en la figura de abajo, para un cojunto de datos con \(n=6\) observaciones).

Un primer paso en el análisis de regresión simple es trazar un diagrama de dispersión de los datos. En ese diagrama, cada pareja \((x_i,y_i)\) es un punto ubicado en un sistema coordenado bidimensional (como se muestra a manera de ejemplo en la figura de abajo).

2 El modelo

Supongamos que estamos interesados en conocer la relación entre una variable dependiente \(Y\) y una independiente \(X\). Si la variable aleatoria toma los valores \(x_i\), entonces, la ecuación de la recta (verdadera o poblacional) de regresión expresa los correspondientes valores \(Y_i\) como

\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]

donde \(\delta\) y \(\beta\) son constantes y \(\epsilon_i\), llamado término de error, es una variable aleatoria con media 0. Este modelo se llama modelo de regresión lineal simple.

El código para escribir la expresión anterior es:

$$Y_i \;= \; \delta + \beta x_i + \epsilon_i$$

3 Supuestos básicos

Denotemos la recta verdadera de regresión por \[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]

y asumamos que se dispone de \(n\) pares de observaciones. Suelen realizarse los siguientes supuestos:

Cada \(x_i\) es un número fijo (asignado, por ejemplo, por un investigador), o es la realización de una variable aleatoria \(X_i\) independiente del término error \(\epsilon_i\). En el último caso, la inferencia se realiza condicionado al valor observado \(x_i\).
Los términos de error \(\epsilon_i\) son variables aleatorias con media 0, es decir,

\[E(\epsilon_i)=0, \quad \text{para todo} \quad i=1, \ldots, n.\]

Las variables aleatorias \(\epsilon_i\) tienen todas las mismas varianzas \(\sigma^2\), es decir,

\[V(\epsilon_i)=\sigma^2, \quad \text{para todo} \quad i=1, \ldots, n.\]

Las variables aleatorias \(\epsilon_i\) no se hallan correlacionadas, luego,

\[E(\epsilon_i\epsilon_j)=0, \quad \text{para todo} \quad i,j=1, \ldots, n \quad \text{con}\quad i\ne j.\] En el resto de este capítulo, asumiremos que se verifican estos supuestos.

4 Esperanza y varianza

Denotemos la recta verdadera de regresión por

\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]

Si se cumplen los supuestos en el modelo de regresión, entonces, para un valor fijo \(x_i\) de \(X\), la esperanza y varianza condicionales de \(Y_i\) dado que \(X=x_i\) vienen dadas, respectivamente, por

\[E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2.\]

El código para escribir la expresión anterior es:

$$E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2$$

5 Estimación

El método para estimar los parámetros del modelo es el de mínimos cuadrados, que consiste en encontrar los valores “estimados” \(\widehat{\beta}\) y \(\widehat{\delta}\) de los parámetros \(\beta\) y \(\delta\), respectivamente, tales que el error total cuadrático sea minimal. Es decir, tal que:

\[\sum\limits_{i=1}^n \epsilon_i^2 \; = \; \sum\limits_{i=1}^n (y_i -\delta -\beta x_i)^2 \; = \; \text{mínimo}\] En la sección 6.1.4. de la referencia [1] (ver abajo) se puede ver una descripción detallada del método.

El código para escribir la expresión anterior es:

$$\sum\limits_{i=1}^n \epsilon_i^2 \; = \; \sum\limits_{i=1}^n (y_i -\delta -\beta x_i)^2 \; = \;  \text{mínimo}$$

Suma de \(xy\) (Geogebra utiliza la notación nCov):

\[\mbox{nCov}\;= \; S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n}\]

El código para escribir la expresión anterior es:

$$\mbox{nCov}\;= \; S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n}$$

Suma de \(xx\) (Geogebra utiliza la notación nVarX):

\[\mbox{nVarX} \;= \; S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n}\]

El código para escribir la expresión anterior es:

$$\mbox{nVarX} \;= \; S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n}$$

Estimación de mínimo cuadrados de la pendiente: \[\widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}\]

El código para escribir la expresión anterior es:

$$\widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}$$

Estimación de mínimo cuadrados del intercepto: \[\widehat{\delta} \;= \; \overline{y} - \widehat{\beta} \overline{x}.\]

El código para escribir la expresión anterior es:

$$\widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}$$

6 Sumas de cuadrados

Los siguientes resultados corresponden al llamado Teorema de descomposición de la sumas de cuadrados:

Suma de cuadrados total, suma de \(yy\) (Geogebra utiliza la notación nVarY):

\[\mbox{nVarY}\;= \; S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}\]

El código para escribir la expresión anterior es:

$$\mbox{nVarY}\;= \; S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}$$

Suma de cuadrados de la regresión:

\[SSR \;= \;\widehat{\beta} S_{xy}\]

El código para escribir la expresión anterior es:

$$SSR \;= \;\widehat{\beta} S_{xy}$$

Suma de cuadrados residual o del error (Geogebra utiliza la notación SECs):

\[ \mbox{SECs} \;= \; SSE \;= \;S_{yy} - SSR\]

El código para escribir la expresión anterior es:

$$ \mbox{SECs} \;= \; SSE \;= \;S_{yy} - SSR$$

7 Varianzas

Varianza estimada del error \(\epsilon\):

\[S_\epsilon^2 \;= \;\frac{SSE}{n-2}\]

El código para escribir la expresión anterior es:

$$S_\epsilon^2 \;= \;\frac{SSE}{n-2}$$

Varianza estimada de \(\widehat{\beta}\):

\[S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}\]

El código para escribir la expresión anterior es:

$$S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}$$

Varianza estimada de \(\widehat{\delta}\):

\[S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}\]

El código para escribir la expresión anterior es:

$$S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}$$

8 Errores estándares

Recuerde que el error estándar es la desviación del estadístico. Es decir, la raiz cuadrada de la varianza del estadístico.

Error estándar estimado del error \(\epsilon\):

\[S_{\widehat{\epsilon}} =\sqrt{S^2_{\widehat{\epsilon}}}\]

El código para escribir la expresión anterior es:

$$S_{\widehat{\epsilon}} =\sqrt{S^2_{\widehat{\epsilon}}}$$

Error estándar estimado de \(\widehat{\beta}\):

\[S_{\widehat{\beta}} =\sqrt{S^2_{\widehat{\beta}}}\]

El código para escribir la expresión anterior es:

$$S_{\widehat{\beta}} =\sqrt{S^2_{\widehat{\beta}}}$$

Error estándar estimado de \(\widehat{\delta}\):

\[S_{\widehat{\delta}} = \sqrt{S^2_{\widehat{\delta}}}\]

El código para escribir la expresión anterior es:

$$S_{\widehat{\delta}} = \sqrt{S^2_{\widehat{\delta}}}$$

9 Intervalos de confianza

En los resultados que se presentan a continuación, \(t_{\alpha/2}\) es el valor de una variable aleatoria que deja un área de \(\alpha/2\) a la derecha de la distribución \(t\) de Student con \(n-2\) grados de libertad.

Un intervalo de confianza del \((1-\alpha)100\%\) para el intersecto \(\delta\) se obtiene mediante: \[\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \; < \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}\]

El código para escribir la expresión anterior es:

$$\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \;
    <  \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}$$

Un intervalo de confianza del \((1-\alpha)100\%\) para la pendiente \(\beta\) se obtiene mediante: \[\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; < \; \beta\; < \; \widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}\]

El código para escribir la expresión anterior es:

$$\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; <  \; \beta\; < \;
\widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}$$

10 Cómo hacerlo en R

En R se usa la función “lm()” para crear un modelo de regresión lineal de la forma:

modelo <- lm(y~x, data=datos)

A continuación, se explican los dos argumentos más usados y que se muestran anteriormente:

“formula”: el cual describe el modelo. Es importante resaltar que este argumento sigue un formato específico. Para una regresión lineal simple, deber ser escrita como: Y~X, donde Y es la variable dependiente (o predicha) y X es la variable independiente (o predictora) .
“data”: el cual contiene el conjunto de datos.

Con la función

summary(modelo)

generamos más información estadística que podríamos necesitar de una regresión lineal. En particular, podemos ver las estimaciones de la pendiente y al intercepto, los cuales también se pueden ver con la opción:

modelo$coefficients

Los intervalos de confianza para la pendiente y el intercepto se pueden ver con la opción

confint(modelo)[2,]

En general, las líneas de comando básicas que se utilizarán en este documento son:

modelo <- lm(y~x, data=datos)
summary(modelo)
modelo$coefficients
confint(modelo)[2,]

11 Ejemplo 1: Enunciado

Los siguientes datos representan los incrementos \(x\) en gastos de publicidad (en porcentajes) y los incrementos \(y\) en las ventas (en millones de pesos) de 9 centros comerciales en comparación con los del año pasado.

Supóngase que las ventas (\(y\)) dependen linealmente de los porcentajes de incrementos (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]

Supongamos que se cumplen los supuestos del modelo de regresión y que el error \(\epsilon\) está normalmente distribuida con media 0 y desviación \(\sigma=20\).

a) Construya un data frame con estos datos
b) Halle el tamaño muestral n y las medias de cada variable. 
c) Estime por mínimos cuadrados los parámetros de la regresión lineal. Interprete cada uno de ellos. 
d) Escriba la ecuación verdadera de regresión.
e) Estime el incremento promedio en las ventas cuando el incremento en gastos de publicidad sea del 13%.
f) Haga un diagrama de dispersión para los datos y dibuje en él la línea de regresión.
g) Calcule la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos  cuando el incremento en gastos de publicidad sea del 10%.
h) Halle los valores de las sumas de cuadrados total (Syy), de la regresión (SSR) y residual (SSE).
i) Halle las varianzas estimadas del error, de la pendiente y del intercepto.
j) Halle los errores estándares (desviaciones estándares) del error, de la pendiente y del intercepto.
k) Construya un intervalo de confianza del 95% para el intercepto poblacional y, con ayuda del intervalo encontrado, verifique si puede concluir  que la linea de regresión pasa por el origen (es decir, si el intercepto poblacional es diferente de cero).
l) Construya ese mismo intervalo con la función "lm" y compare con (k).
m) Construya un intervalo de confianza del 95% para la pendiente poblacional y, con ayuda del intervalo encontrado, verifique si puede concluir si los datos satisfacen el modelo de regresión lineal (es decir, si la pendiente es diferente de cero).
n) Construya ese mismo intervalo con la función "lm" y compare con (m).

12 Ejemplo 1: Solución

12.0.1 Solución parte (a)

Para construir el data frame, primero se crean dos vectores con los datos correspondientes a \(x\) y a \(y\). Luego, se unen con la función “data.frame”.

x <- c(1, 4, 5, 9, 11, 13, 23, 23, 28)
y <- c(64, 71, 54, 81, 76, 93, 77, 95, 109)
datos <- data.frame(x,y)
datos

##    x   y
## 1  1  64
## 2  4  71
## 3  5  54
## 4  9  81
## 5 11  76
## 6 13  93
## 7 23  77
## 8 23  95
## 9 28 109

12.0.2 Solución parte (b)

Tenemos que \(n=9\), \(\overline{x}=13\) y \(\overline{y}=80\).

n <- length(x)
xbarra <- mean(x)
ybarra <- mean(y)

12.0.3 Solución parte (c)

12.0.3.1 Cálculo de \(S_{xy}\) y de \(S_{xx}\)

Para hallar las estimaciones de los prámetros, primero debemos calcular las sumas de \(xy\) y de \(xx\): \[S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n} \;=\; 1040; \qquad \qquad S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n} \; =\; 734\]

El código para escribir la expresión anterior es:

$$S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n} \;=\; 1040;  \qquad \qquad S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n} \; =\; 734$$

En R:

Sxy <- sum(x*y)- sum(x)*sum(y)/n
Sxx <- sum(x^2)- (sum(x))^2/n

12.0.3.2 Cálculo de \(\widehat{\beta}\) y de \(\widehat{\delta}\)

Con los resultados anteriores encontramos que \[ \widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}\; = \;1.417; \qquad \qquad\widehat{\delta}\;= \; \overline{y} - \widehat{\beta} \overline{x}\; =\; 61.58\]

El código para escribir la expresión anterior es:

$$ \widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}\; = \;1.417;  \qquad \qquad\widehat{\delta}\;= \; \overline{y} - \widehat{\beta} \overline{x}\; =\; 61.58$$

En R:

beta <- Sxy/Sxx
delta <- ybarra - beta*xbarra

12.0.3.3 Cálculo de \(\widehat{\beta}\) y de \(\widehat{\delta}\) con la función “lm”

En R, los parámetros se calculan así:

modelo <- lm(y ~ x, data = datos)
modelo$coefficients

## (Intercept)           x 
##   61.580381    1.416894

Con la función “summary” obtenemos una salida en donde los valores de las estimaciones se pueden visualizar en la primera columna (llamada “Estimate”) de la lista llamada “Coefficients” (ver recuadro rojo en la figura de abajo):

summary(modelo)

12.0.3.4 Interpretación de \(\widehat{\beta}\)

Tenemos que \(\widehat{\beta}=1.417 >0\). Observe que hay una relación creciente entre las variables \(x\) (incremento porcentual de los gastos de publicidad) y \(y\) (incremento en las ventas). Es decir, cuando \(x\) aumenta, entonces, \(y\) también aumenta. Por lo tanto, la pendiente se puede interpretar así:

Por cada punto porcentual (o sea, por cada 1%) que incremente el gasto en publicidad (variable \(x\)), entonces, el incremento en las ventas será (se dice que “aumentará” porque \(\widehat{\beta}>0\)) de 1417000 pesos: \[ (1.417)(1) = 1.417\]

12.0.3.5 Interpretación de \(\widehat{\delta}\)

Tenemos que \(\widehat{\delta}= 61.58\). Entonces, el intercepto se puede interpretar así:

Cuando no hay incremento en los gastos de publicidad (en comparación con el año pasado), se espera que, este año, las ventas se incrementen en 6158000 pesos.

12.0.4 Solución parte (d)

La ecuación verdadera de regresión viene dada por \[E(Y/X=x) \;=\; \hat{\delta} \;+\; \hat{\beta} x \;=\; 61.58 \;+\; 1.417 x\]

El código para escribir la expresión anterior es:

$$E(Y/X=x) \;=\; \hat{\delta} \;+\; \hat{\beta} x \;=\; 61.58 \;+\; 1.417 x$$

También se puede escribir así:

\[y \;=\; 61.58 \;+\; 1.417 x\]

12.0.5 Solución parte (e)

Una estimación puntual de \(E(Y/X=13)\) es \[E(Y/X=13) \;= \; 61.58 + (1.417)(13) \;= \; 80\]

El código para escribir la expresión anterior es:

$$E(Y/X=13) \;= \; 61.58 + (1.417)(13) \;= \; 80$$

En R:

delta + beta*13

## [1] 80

El código para escribir la expresión anterior es:

$$E(Y/X=13) \;= \; 61.58 + (1.417)(13) \;= \; 80$$

Es decir, cuando el incremento en gastos de publicidad sea del 13%, entonces, se espera que el incremento promedio en las ventas sea de 80 millones de pesos.

12.0.6 Solución parte (f)

En la figura de abajo se encuentra el diagrama de dispersión y la línea de regresión para los datos dados.

plot(x, y, main="Diagrama de dispersión",    xlab="Incremento en gastos de publicidad (%)", ylab="Incremento en ventas (millones de pesos)", pch=19)
abline(modelo, col="red")

Con plot() se dibuja el diagrama de dispersión y con abline() se dibuja la correspondiente recta de regresión, estimada en el inciso (d).

12.0.7 Solución parte (g)

El supuesto de normalidad de los errores implica que la variable \(Y\) también es normal. Además, por la sección anterior, para \(X=10\), \(Y\) tiene media, varianza y desviación

\[E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad V(Y/x=10) \;= \; 20^2 \;= \; 400 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]

respectivamente.

El código para escribir la expresión anterior es:

$$E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad  V(Y/x=10) \;= \; 20^2 \;= \; 400  \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$

Por consiguiente,

\[\begin{eqnarray*} P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\ &=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188 \end{eqnarray*}\]

El código para escribir la expresión anterior es:

\begin{eqnarray*}
P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\
&=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188
\end{eqnarray*}

En R:

mu <- 75.75
sigma <-  20
x1 <- 65
x2 <- 100
z1 <- (x1 -mu)/sigma
z2 <- (x2 -mu)/sigma
probabilidad_g <- pnorm(z2) -pnorm(z1) 
probabilidad_g

## [1] 0.5918783

En conclusión, la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10% es de 0.59188.

12.0.8 Solución parte (h)

Tenemos que los valores de las sumas de cuadrados total, de la regresión y residual, respectivamente, son:

\[S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}\;=\; 2274; \qquad SSR \;= \;\widehat{\beta} S_{xy}\;=\; 1473.569; \qquad SSE \;= \;S_{yy} - SSR\; = \; 800.4305\]

El código para escribir la expresión anterior es:

$$S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}\;=\; 2274; \qquad SSR \;= \;\widehat{\beta} S_{xy}\;=\; 1473.569; \qquad SSE \;= \;S_{yy} - SSR\; = \; 800.4305$$

En R:

Syy <- sum(y^2)- (sum(y))^2/n
SSR <- beta*Sxy
SSE <- Syy -SSR

12.0.9 Solución parte (i)

Las varianzas estimadas del error \(\epsilon\), de \(\widehat{\beta}\) y de \(\widehat{\delta}\) son, respectivamente: \[S_\epsilon^2 \;= \;\frac{SSE}{n-2}\;= \;114.35; \qquad S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}\;= \; 0.156; \qquad S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}\;= \;39.03\]

El código para escribir la expresión anterior es:

$$S_\epsilon^2 \;= \;\frac{SSE}{n-2}\;= \;114.35; \qquad S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}\;= \; 0.156; \qquad S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}\;= \;39.03$$

En R:

Verror <- SSE/(n-2)
Vbeta <- Verror/Sxx
Vdelta <- Verror * sum(x^2)/(n*Sxx)

12.0.10 Solución parte (j)

Los errores estándares del error \(\epsilon\), de \(\widehat{\beta}\) y de \(\widehat{\delta}\) son, respectivamente:

\[S_\epsilon \;= \;\sqrt{S_\epsilon^2}\;= \;10.6933; \qquad S_{\widehat{\beta}} =\sqrt{S_\beta^2}\;= \; 0.39469; \qquad S_{\widehat{\delta}} = \sqrt{S_\delta^2}\;= \;6.24765\]

El código para escribir la expresión anterior es:

$$S_\epsilon \;= \;\sqrt{S_\epsilon^2}\;= \;10.6933;  \qquad S_{\widehat{\beta}} =\sqrt{S_\beta^2}\;= \; 0.39469;  \qquad S_{\widehat{\delta}} = \sqrt{S_\delta^2}\;= \;6.24765$$

En R:

ES_error <- sqrt(Verror)
ES_beta <- sqrt(Vbeta)
ES_delta <- sqrt(Vdelta)

Con la función “summary” obtenemos una salida en donde se pueden visualizar los valores de las estimaciones correspondientes (ver recuadro rojo en la figura de abajo):

\(S_\beta\) y \(S_\delta\), en la segunda columna (llamada “Std. Error”) de la lista llamada “Coefficients”.
\(S_\epsilon\), al principio de la tercera fila de abajo hacia arriba (donde dice “Residual standard error”).

summary(modelo)

12.0.11 Solución parte (k)

La expresión para hallar el intervalo para el intercepto es:

\[\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \; < \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}\]

El código para escribir la expresión anterior es:

$$\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \;
    <  \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}$$

El error estándar (es decir, la desviación estándar del estadístico) es:

ES <- ES_delta  # Error estándar

El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha/2}\) es:

alfa <- 0.05
glib <- n-2
Critico <- qt(1-(alfa/2), glib)

Es decir, \(t_{\alpha/2}=\) 2.36462. El error de estimación (o margen de error) es

Margen <- Critico*ES

Los límites del intervalo son:

estimacion <- delta
izquierdo <- estimacion - Margen
derecho <- estimacion + Margen
cbind(izquierdo, derecho)

##      izquierdo  derecho
## [1,]  46.80703 76.35373

El intervalo también se puede obtener así:

Intervalo <- estimacion + c(-Margen, Margen)
Intervalo

## [1] 46.80703 76.35373

Es decir, \[46.80 \; < \; \delta \; < \; 76.35 \]

El código para escribir la expresión anterior es:

$$46.80 \; < \; \delta \; < \; 76.35 $$

Con una confianza del 95% podemos afirmar que el intercepto poblacional se encuentra entre 46.80 y 76.35. Como el cero no se encuentra en el intervalo, entonces, \(\delta\ne 0\). Por lo tanto, concluímos que la recta poblacional no pasa por el origen.

12.0.12 Solución parte (l)

Con la función “lm” se obtienen los mismo resultados obtenidos en (k).

modelo <- lm(y ~ x, data = datos)
confint(modelo)[1,]

##    2.5 %   97.5 % 
## 46.80703 76.35373

12.0.13 Solución parte (m)

La expresión para hallar el intervalo para el intercepto es:

\[\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; < \; \beta\; < \; \widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}\]

El código para escribir la expresión anterior es:

$$\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; <  \; \beta\; < \;
\widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}$$

El error estándar (es decir, la desviación estándar del estadístico) es:

ES <- ES_beta  # Error estándar

El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha/2}\) es:

alfa <- 0.05
glib <- n-2
Critico <- qt(1-(alfa/2), glib)

Es decir, \(t_{\alpha/2}=\) 2.36462. El error de estimación (o margen de error) es

Margen <- Critico*ES

Los límites del intervalo son:

estimacion <- beta
izquierdo <- estimacion - Margen
derecho <- estimacion + Margen
cbind(izquierdo, derecho)

##      izquierdo  derecho
## [1,] 0.4835816 2.350206

El intervalo también se puede obtener así:

Intervalo <- estimacion + c(-Margen, Margen)
Intervalo

## [1] 0.4835816 2.3502059

Es decir, \[0.484 \; < \; \beta \; < \; 2.35 \]

El código para escribir la expresión anterior es:

 $$0.484 \; < \; \beta \; < \; 2.35 $$

Con una confianza del 95% podemos afirmar que la pendiente poblacional se encuentra entre 0.484 y 2.35. Como el cero no se encuentra en el intervalo, entonces, \(\beta\ne 0\). Es más, \(\beta>0\). Por lo tanto, concluímos que sí hay una relación lineal (y creciente) entre \(x\) y \(y\).

12.0.14 Solución parte (n)

Con la función “lm” se obtienen los mismo resultados obtenidos en (m).

modelo <- lm(y ~ x, data = datos)
confint(modelo)[2,]

##     2.5 %    97.5 % 
## 0.4835816 2.3502059

13 Ejercicios

Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo. Interprete los resultados hallados.

13.0.1 Ejercicio 1

En los últimos 25 años, una cadena de tiendas de descuento en ropa para dama ha aumentado su porcentaje de mercado con el incremento en el número de tiendas. Nunca empleó su enfoque sistemático en la selección del lugar. Esta se basó, en esencia, en los que se consideró un gran sitio o una buena renta. Este añoo, con un plan estratégico para abrir varias tiendas nuevas, se pidió al director de proyectos especiales y planeación que desarrollara un enfoque para predecir las ventas anuales en todas las tiendas nuevas. Suponga que se decidió examinar la relación entre el tamaño (en metros cuadrados) de una tienda y sus ventas anuales con la selección de una muestra de 6 tiendas. Los resultados para estas 6 tiendas se resumen en la tabla de abajo.

Suponga que las ventas (\(y\)) dependen linealmente de los tamaños (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]

También suponga que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 8. Realize todos los incisos propuestos en el Ejemplo 1, pero cambiando los incisos (e) y (g) por los que se proponen abajo (los demás incisos permanecerán iguales):

 e1) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda es de 550 metros cuadrados.
 e2) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda se encuentra entre 450 y 800 metros cuadrados.
 e3) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda es mayor que 730 metros cuadrados.
 e4) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda es menos de 630 metros cuadrados.
 g1) Calcule la probabilidad de que la venta anual es menor o igual que 60 millones de pesos si el tamaño de la tienda fue de 300 metros cuadrados. 
 g2) Calcule la probabilidad de que la venta anual es mayor que 55 millones de pesos si el tamaño de la tienda fue de 400 metros cuadrados. 
 g3) Calcule la probabilidad de que la venta anual está entre 35 y 76 millones de pesos si el tamaño de la tienda fue de 200 metros cuadrados. 
 g4) Calcule la probabilidad de que la venta anual es a lo más 85 millones de pesos si el tamaño de la tienda fue de 500 metros cuadrados.

13.0.2 Ejercicio 2

El dataframe “datosCompleto” que se indica abajo contiene los resultados de una encuesta realizada a 400 estudiantes universitarios.

Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:

library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes

Opción B (web, desde Google Drive):

url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)

Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:

Opción C (local, con archivo en Rdata):

load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes

Opción D (local, con archivo en excel):

datosCompleto <- read.delim('clipboard')

Dentro de “datosCompleto”, considere solo las variables “Definitiva” (\(y\), definitiva de las calificaciones de los estudiantes) y “P2” (\(x\), calificaciones del segundo parcial). Suponga que \(y\) depende linealmente de \(x\) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]

También suponga que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 0.2. Realize todos los incisos propuestos en el Ejemplo 1, pero cambiando los incisos (a), (e) y (g) por los que se proponen abajo (los demás incisos permanecerán iguales):

a) Defina los correspondientes objetos $x$ y $y$. 
e1) Estime la calificación definitiva cuando la calificación del segundo parcial es de 4.0.
e2) Estime la calificación definitiva cuando la calificación del segundo parcial se encuentra entre 3.5 y 4.2.
e3) Estime la calificación definitiva cuando la calificación del segundo parcial es mayor que 3.8.
e4) Estime la calificación definitiva cuando la calificación del segundo parcial es menor que 4.5.
g1) Calcule la probabilidad de que la calificación definitiva es menor o igual que 4.6 si la calificación del segundo parcial fue de 4.3. 
g2) Calcule la probabilidad de que la calificación definitiva es mayor que 3.0 si la calificación del segundo parcial fue de 3.1. 
g3) Calcule la probabilidad de que la calificación definitiva está entre 2.9 y 3.5  si la calificación del segundo parcial fue de 1.0. 
g4) Calcule la probabilidad de que la calificación definitiva es a lo más 4.6 si la calificación del segundo parcial fue de 2.0.

13.0.3 Ejercicio 3

Repita el ejercicio 2, considerando solamente el data frame “datos1a100”, que contiene las primeras 100 observaciones del dataframe “datosCompleto”. Verifique su tamaño, variables y estructura.

13.0.4 Ejercicio 4

Considere el dataframe “datosCompleto” descrito en el ejercicio 2. Dentro de “datosCompleto”, considere solo las variables “Definitiva” (\(y\), definitiva de las calificaciones de los estudiantes) y “P3” (\(x\), calificaciones del tercer parcial). Suponga que \(y\) depende linealmente de \(x\) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]

a) Defina los correspondientes objetos $x$ y $y$. 
e1) Estime la calificación definitiva cuando la calificación del tercer parcial es de 5.0.
e2) Estime la calificación definitiva cuando la calificación del tercer parcial se encuentra entre 2.5 y 3.2.
e3) Estime la calificación definitiva cuando la calificación del tercer parcial por lo menos 2.8.
e4) Estime la calificación definitiva cuando la calificación del tercer parcial es a lo más 3.5.
g1) Calcule la probabilidad de que la calificación definitiva es mayor que 3.6 si la calificación del tercer parcial fue de 4.0. 
g2) Calcule la probabilidad de que la calificación definitiva es menor que 4.0 si la calificación del tercer parcial fue de 3.0. 
g3) Calcule la probabilidad de que la calificación definitiva está entre 3.9 y 4.5  si la calificación del tercer parcial fue de 2.0. 
g4) Calcule la probabilidad de que la calificación definitiva es a lo más 3.6 si la calificación del tercer parcial fue de 3.0.

13.0.5 Ejercicio 5

Repita el ejercicio 4, considerando solamente el data frame “datos1a100”, que contiene las primeras 100 observaciones del dataframe “datosCompleto”. Verifique su tamaño, variables y estructura.

13.0.6 Ejercicios 6 a 9

Repita el ejercicio 2, pero definiendo los objetos \(x\) (“P2”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datosCompleto”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
Repita el ejercicio 3, pero definiendo los objetos \(x\) (“P2”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datos1a100”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
Repita el ejercicio 4, pero definiendo los objetos \(x\) (“P3”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datosCompleto”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
Repita el ejercicio 5, pero definiendo los objetos \(x\) (“P3”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datos1a100”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.

13.0.7 Ejercicio 10

En un determinado artículo se presenta una regresión del índice de absorción del suelo (\(y\)) sobre la cantidad de mineral de hierro que puede extraerse (\(x\)). La ecuación de la recta de regresión estimada fue \(y=3.678 + 0.144x\), basada en \(n=23\) observaciones.

 a) Interprete la pendiente estimada 0.144 y el intercepto estimado.
 b) Calcule un estimado puntual del índice promedio real de absorción cuando la cantidad de mineral de hierro que puede extraerse es 50.
 c) El valor de la suma total de cuadrados fue SSE=117.6228. Calcule un estimado de la desviación estándar del error en el modelo de regresión lineal simple.
 d) El valor de la suma de $xx$ fue de Sxx =13.250. Calcule un estimado del error estándar de la pendiente estimada en el modelo de regresión lineal simple.
 e) Construya un intervalo del 95% de confianza para la pendiente poblacional e interprete los resultados obtenidos.

13.0.8 Ejercicio 11

Los siguientes estadísticos de resumen se obtuvieron de un estudio que utilizó el análisis de regresión para investigar la relación entre la potencia eléctrica \(y\) consumida al mes por una planta química y la temperatura ambiente promedio \(x\) (en grados Fahrenheit):

\[\sum\limits_{i=1}^{15} x_i=1425, \qquad \sum\limits_{i=1}^{15} y_i=10.68, \qquad \sum\limits_{i=1}^{15} x^2_i=139037.25, \qquad \sum\limits_{i=1}^{15} x_i y_i=987.645\]

Para el inciso (d), se sugiere tener en cuenta la expresión: \[^\circ F=(9/5)^\circ C + 32\]

a) Calcule la ecuación de la recta de regresión estimada y trace dicha recta.
b) ¿Cuál es la estimación de cambio esperado en la potencia eléctrica cuando la temperatura ambiente aumenta 1 grado Fahrenheit?
c) Si se supone que una temperatura superficial de 200 grados Fahrenheit se encuentra entre los valores posibles, ¿utilizaría la recta estimada del inciso (a) para pronosticar la potencia eléctrica según esta temperatura? ¿Por qué sí o por qué no?
d) Suponga que la temperatura se midió en grados centígrados en lugar de grados Fahrenheit. ¿Cuál sería la recta de regresión estimada? Conteste el inciso (b) para un aumento de 1 grado centígrado. Sugerencia: sustituya "x anterior" en términos  de la "x nueva", teniendo en cuenta la fórmula sugerida al final del enunciado. 
e) Calcule el error estándar de la pendiente. 
f) Calcule un intervalo del 95% de confianza para la pendiente poblacional, y determine si el cambio esperado en la potencia eléctrica asociada  se establece con un aumento de temperatura de 1 grado Fahrenheit.

13.0.9 Ejercicio 12

Muchas sustancias químicas se disuelven en agua con tasas distintas, que varían según la temperatura del agua misma. En un artículo se estudia este fenómeno y se reportan los resultados de un análisis de regresión basado en 15 observaciones, donde \(x\) es la temperatura del agua (en grados centígrados) y \(y\) es el porcentaje (%) de sustancias disueltas. Las cantidades calculadas son: \[\sum x_i=402; \qquad \sum x^2_i=11098; \qquad \hat{S}_{\epsilon}; \qquad \widehat{\beta}=1.7035\]

Calcule un intervalo del 99% de confianza para \(\beta\), es decir, para el aumento esperado en porcentaje de sustancias disueltas al presentarse un aumento de temperatura de 1 grado centígrado. Verifique si es posible que \(\beta=1\), lo cual expresa que el aumento esperado en el porcentaje de sustancias disueltas es 1 cuando la temperatura del agua aumenta en 1 grado centígrado. Verfique si \(\beta\) podría tomar el valor de 1 o si es mayor que 1. Explique.

14 Enlaces y materiales de ayuda

LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org

Regresión lineal simple: Intervalos de confianza

Dr. rer. nat. Humberto LLinás Solano

08/02/21

1 Preliminares

2 El modelo

3 Supuestos básicos

4 Esperanza y varianza

5 Estimación

6 Sumas de cuadrados

7 Varianzas

8 Errores estándares

9 Intervalos de confianza

10 Cómo hacerlo en R

11 Ejemplo 1: Enunciado

12 Ejemplo 1: Solución

12.0.1 Solución parte (a)

12.0.2 Solución parte (b)

12.0.3 Solución parte (c)

12.0.3.1 Cálculo de \(S_{xy}\) y de \(S_{xx}\)

12.0.3.2 Cálculo de \(\widehat{\beta}\) y de \(\widehat{\delta}\)

12.0.3.3 Cálculo de \(\widehat{\beta}\) y de \(\widehat{\delta}\) con la función “lm”

12.0.3.4 Interpretación de \(\widehat{\beta}\)

12.0.3.5 Interpretación de \(\widehat{\delta}\)

12.0.4 Solución parte (d)

12.0.5 Solución parte (e)

12.0.6 Solución parte (f)

12.0.7 Solución parte (g)

12.0.8 Solución parte (h)

12.0.9 Solución parte (i)

12.0.10 Solución parte (j)

12.0.11 Solución parte (k)

12.0.12 Solución parte (l)

12.0.13 Solución parte (m)

12.0.14 Solución parte (n)

13 Ejercicios

13.0.1 Ejercicio 1

13.0.2 Ejercicio 2

13.0.3 Ejercicio 3

13.0.4 Ejercicio 4

13.0.5 Ejercicio 5

13.0.6 Ejercicios 6 a 9

13.0.7 Ejercicio 10

13.0.8 Ejercicio 11

13.0.9 Ejercicio 12

14 Enlaces y materiales de ayuda