Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 6 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.
El código para escribir la expresión anterior es:
$$y = \delta + \beta x$$
\(x\) se llama variable independiente (predictora o explicativa).
Para \(x\) fija, \(y\) se llama variable dependiente o de respuesta.
Los parámetros del modelo son la pendiente \(\beta\) y el intercepto \(\delta\) (punto de corte con el eje \(Y\)), entre otros.
En las figuras de abajo, se muestran algunas situaciones que se pueden presentar dependiendo del valor de la pendiente.
a) Cuando la pendiente es positiva, la relación entre $x$ y $y$ es creciente. Es decir, a medida que $x$ aumenta, entonces, $y$ también aumenta.
b) Cuando la pendiente es negativa, la relación entre $x$ y $y$ es decreciente. Es decir, a medida que $x$ aumenta, entonces, $y$ disminuye.
c) Cuando la pendiente es cero, $y$ es constante y la recta es paralela al eje $X$.
Supongamos que estamos interesados en conocer la relación entre una variable dependiente \(Y\) y una independiente \(X\). Si la variable aleatoria toma los valores \(x_i\), entonces, la ecuación de la recta (verdadera o poblacional) de regresión expresa los correspondientes valores \(Y_i\) como
\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]
donde \(\delta\) y \(\beta\) son constantes y \(\epsilon_i\), llamado término de error, es una variable aleatoria con media 0. Este modelo se llama modelo de regresión lineal simple.
El código para escribir la expresión anterior es:
$$Y_i \;= \; \delta + \beta x_i + \epsilon_i$$
Denotemos la recta verdadera de regresión por \[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]
y asumamos que se dispone de \(n\) pares de observaciones. Suelen realizarse los siguientes supuestos:
Cada \(x_i\) es un número fijo (asignado, por ejemplo, por un investigador), o es la realización de una variable aleatoria \(X_i\) independiente del término error \(\epsilon_i\). En el último caso, la inferencia se realiza condicionado al valor observado \(x_i\).
Los términos de error \(\epsilon_i\) son variables aleatorias con media 0, es decir,
\[E(\epsilon_i)=0, \quad \text{para todo} \quad i=1, \ldots, n.\]
\[V(\epsilon_i)=\sigma^2, \quad \text{para todo} \quad i=1, \ldots, n.\]
\[E(\epsilon_i\epsilon_j)=0, \quad \text{para todo} \quad i,j=1, \ldots, n \quad \text{con}\quad i\ne j.\] En el resto de este capítulo, asumiremos que se verifican estos supuestos.
Denotemos la recta verdadera de regresión por
\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]
Si se cumplen los supuestos en el modelo de regresión, entonces, para un valor fijo \(x_i\) de \(X\), la esperanza y varianza condicionales de \(Y_i\) dado que \(X=x_i\) vienen dadas, respectivamente, por
\[E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2.\]
El código para escribir la expresión anterior es:
$$E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2$$
\[\sum\limits_{i=1}^n \epsilon_i^2 \; = \; \sum\limits_{i=1}^n (y_i -\delta -\beta x_i)^2 \; = \; \text{mínimo}\] En la sección 6.1.4. de la referencia [1] (ver abajo) se puede ver una descripción detallada del método.
El código para escribir la expresión anterior es:
$$\sum\limits_{i=1}^n \epsilon_i^2 \; = \; \sum\limits_{i=1}^n (y_i -\delta -\beta x_i)^2 \; = \; \text{mínimo}$$
\[\mbox{nCov}\;= \; S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n}\]
El código para escribir la expresión anterior es:
$$\mbox{nCov}\;= \; S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n}$$
\[\mbox{nVarX} \;= \; S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n}\]
El código para escribir la expresión anterior es:
$$\mbox{nVarX} \;= \; S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n}$$
El código para escribir la expresión anterior es:
$$\widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}$$
El código para escribir la expresión anterior es:
$$\widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}$$
Los siguientes resultados corresponden al llamado Teorema de descomposición de la sumas de cuadrados:
\[\mbox{nVarY}\;= \; S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}\]
El código para escribir la expresión anterior es:
$$\mbox{nVarY}\;= \; S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}$$
\[SSR \;= \;\widehat{\beta} S_{xy}\]
El código para escribir la expresión anterior es:
$$SSR \;= \;\widehat{\beta} S_{xy}$$
\[ \mbox{SECs} \;= \; SSE \;= \;S_{yy} - SSR\]
El código para escribir la expresión anterior es:
$$ \mbox{SECs} \;= \; SSE \;= \;S_{yy} - SSR$$
\[S_\epsilon^2 \;= \;\frac{SSE}{n-2}\]
El código para escribir la expresión anterior es:
$$S_\epsilon^2 \;= \;\frac{SSE}{n-2}$$
\[S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}\]
El código para escribir la expresión anterior es:
$$S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}$$
\[S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}\]
El código para escribir la expresión anterior es:
$$S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}$$
Recuerde que el error estándar es la desviación del estadístico. Es decir, la raiz cuadrada de la varianza del estadístico.
\[S_{\widehat{\epsilon}} =\sqrt{S^2_{\widehat{\epsilon}}}\]
El código para escribir la expresión anterior es:
$$S_{\widehat{\epsilon}} =\sqrt{S^2_{\widehat{\epsilon}}}$$
\[S_{\widehat{\beta}} =\sqrt{S^2_{\widehat{\beta}}}\]
El código para escribir la expresión anterior es:
$$S_{\widehat{\beta}} =\sqrt{S^2_{\widehat{\beta}}}$$
\[S_{\widehat{\delta}} = \sqrt{S^2_{\widehat{\delta}}}\]
El código para escribir la expresión anterior es:
$$S_{\widehat{\delta}} = \sqrt{S^2_{\widehat{\delta}}}$$
En los resultados que se presentan a continuación, \(t_{\alpha/2}\) es el valor de una variable aleatoria que deja un área de \(\alpha/2\) a la derecha de la distribución \(t\) de Student con \(n-2\) grados de libertad.
El código para escribir la expresión anterior es:
$$\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \;
< \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}$$
El código para escribir la expresión anterior es:
$$\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; < \; \beta\; < \;
\widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}$$
El código para escribir la expresión anterior es:
a) $H_1: \beta < \beta_0$ (prueba de una cola a la izquierda)
b) $H_1: \beta > \beta_0$ (prueba de una cola a la derecha)
c) $H_1: \beta \ne \beta_0$ (prueba bilateral o de dos colas)
\[t=\frac{\widehat{\beta} - \beta_0}{S_{\widehat{\beta}}}\]
El código para escribir la expresión anterior es:
$$t=\frac{\widehat{\beta} - \beta_0}{S_{\widehat{\beta}}}$$
La distribución a considerar es la \(t\) de Student con \(n-2\) grados de libertad.
La región crítica dependerá de tres casos, como se ilustra en la tabla 6.1:
\[\text{$P$-valor} \;= \; \begin{cases} P(t\leq x), & \text{para una prueba de una cola a la izquierda}, \\ & \\ P(t\geq x), & \text{para una prueba de una cola a la derecha}, \\ &\\ 2\,P(t\geq |x|),& \text{para una prueba de dos colas}. \end{cases} \]
Aquí \(x\) es el llamado valor de prueba, el cual es un posible valor de \(t\).
El código para escribir la expresión anterior es:
$$\text{$P$-valor} \;= \;
\begin{cases}
P(t\leq x), & \text{para una prueba de una cola a la izquierda}, \\
& \\
P(t\geq x), & \text{para una prueba de una cola a la derecha}, \\
&\\
2\,P(t\geq |x|),& \text{para una prueba de dos colas}.
\end{cases} $$
Recordemos la regla de decisión (al nivel \(\alpha\)) mediante el \(P\)-valor:
Se rechaza \(H_0\) cuando: \[P\mbox{-valor} \; \leq \; \alpha\]
No se rechaza \(H_0\) cuando: \[P\mbox{-valor} \; > \; \alpha\]
El código para escribir la expresión anterior es:
(a) Se rechaza $H_0$ cuando:
$$P\mbox{-valor} \; \leq \; \alpha$$
(b) No se rechaza $H_0$ cuando:
$$P\mbox{-valor} \; > \; \alpha$$
El código para escribir la expresión anterior es:
$$ H_0: \beta \leq 0 \qquad \text{versus} \qquad H_1: \beta > 0$$
\[F\;= \; \frac{SSR}{S^2_{\epsilon}}\]
El código para escribir la expresión anterior es:
$$F\;= \; \frac{SSR}{S^2_{\epsilon}}$$
La distribución a considerar es la \(F\) de Fisher con \(v_1=1\) (grados de libertad del numerador) y \(v_2=n-2\) (grados de libertad del denominador).
En la tabla 6.2 resumimos la regla de decisión (mediante el método de la región crítica):
\[\text{P-valor} \;=\; P(F > x)\]
con \(v_1=1\) y \(V_2=n-2\) grados de libertad. Aquí \(x\) es el valor de prueba y corresponde a un posible valor de \(F\).
El código para escribir la expresión anterior es:
$$\text{P-valor} \;=\; P(F > x)$$
El código para escribir la expresión anterior es:
a) $H_1: \delta < \delta_0$ (prueba de una cola a la izquierda)
b) $H_1: \delta > \delta_0$ (prueba de una cola a la derecha)
c) $H_1: \delta \ne \delta_0$ (prueba bilateral o de dos colas)
\[t=\frac{\widehat{\delta} - \delta_0}{S_{\widehat{\delta}}}\]
El código para escribir la expresión anterior es:
$$t=\frac{\widehat{\delta} - \delta_0}{S_{\widehat{\delta}}}$$
La distribución a considerar es la \(t\) de Student con \(n-2\) grados de libertad.
La región crítica dependerá de tres casos, como se ilustra en la tabla 6.3:
El \(P\)-valor se calcula de la misma manera como se mencionó en la sección 10 (punto 5).
La regla de decisión (al nivel \(\alpha\)) mediante el \(P\)-valor es exactamente la misma que se señaló en la sección 10 (punto 6).
En R se usa la función “lm()” para crear un modelo de regresión lineal de la forma:
modelo <- lm(y~x, data=datos)
A continuación, se explican los dos argumentos más usados y que se muestran anteriormente:
“formula”: el cual describe el modelo. Es importante resaltar que este argumento sigue un formato específico. Para una regresión lineal simple, deber ser escrita como: Y~X, donde Y es la variable dependiente (o predicha) y X es la variable independiente (o predictora) .
“data”: el cual contiene el conjunto de datos.
Con la función
summary(modelo)
generamos más información estadística que podríamos necesitar de una regresión lineal. En particular, podemos ver:
modelo$coefficients.
En general, las líneas de comando básicas que se utilizarán en este documento son:
modelo <- lm(y~x, data= datos)
summary(modelo)
modelo$coefficients
confint(modelo)[2,]
Los siguientes datos representan los incrementos \(x\) en gastos de publicidad (en porcentajes) y los incrementos \(y\) en las ventas (en millones de pesos) de 9 centros comerciales en comparación con los del año pasado.
Supóngase que las ventas (\(y\)) dependen linealmente de los porcentajes de incrementos (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]
Supongamos que se cumplen los supuestos del modelo de regresión y que el error \(\epsilon\) está normalmente distribuida con media 0 y desviación \(\sigma=20\).
a) Construya un data frame con estos datos
b) Halle el tamaño muestral n y las medias de cada variable.
c) Estime por mínimos cuadrados los parámetros de la regresión lineal. Interprete cada uno de ellos.
d) Escriba la ecuación verdadera de regresión.
e) Estime el incremento promedio en las ventas cuando el incremento en gastos de publicidad sea del 13%.
f) Haga un diagrama de dispersión para los datos y dibuje en él la línea de regresión.
g) Calcule la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10%.
h) Halle los valores de las sumas de cuadrados total (Syy), de la regresión (SSR) y residual (SSE).
i) Halle las varianzas estimadas del error, de la pendiente y del intercepto.
j) Halle los errores estándares (desviaciones estándares) del error, de la pendiente y del intercepto.
k) Construya un intervalo de confianza del 95% para el intercepto poblacional y, con ayuda del intervalo encontrado, verifique si puede concluir que la linea de regresión pasa por el origen (es decir, si el intercepto poblacional es diferente de cero).
l) Construya ese mismo intervalo con la función "lm" y compare con (k).
m) Construya un intervalo de confianza del 95% para la pendiente poblacional y, con ayuda del intervalo encontrado, verifique si puede concluir si los datos satisfacen el modelo de regresión lineal (es decir, si la pendiente es diferente de cero).
n) Construya ese mismo intervalo con la función "lm" y compare con (m).
o) Use la prueba t y el método de la región crítica con un nivel de significancia de 0.05 para determinar si el modelo lineal es apropiado para los datos (es decir, si la pendiente poblacional es diferente de cero).
p) Use la prueba t y el método del P-valor para determinar si el modelo lineal es apropiado para los datos (es decir, si la pendiente poblacional es diferente de cero). Compare los resultados con los obtenidos en (o)
q) Verifique las pruebas realizadas en los incisos (o) y (p) con la función "lm" y compare los resultados correspondientes.
r) Use la prueba F y el método de la región crítica con un nivel de significancia de 0.05 para determinar si los datos satisfacen el modelo de regresión lineal (es decir, si la pendiente poblacional es diferente de cero).
s) Use la prueba F y el método del P-valor para determinar si los datos satisfacen el modelo de regresión lineal (es decir, si la pendiente poblacional es diferente de cero).
t) Verifique las pruebas realizadas en los incisos (r) y (s) con la función "lm" y compare los resultados correspondientes.
u) Use el método de la región crítica con un nivel de significancia de 0.05 para determinar si la línea de regresión pasa por el origen (es decir, si el intercepto poblacional es igual a cero).
v) Use el método del P-valor para determinar si la línea de regresión pasa por el origen (es decir, si el intercepto poblacional es igual a cero).
w) Verifique las pruebas realizadas en los incisos (u) y (v) con la función "lm" y compare los resultados correspondientes.
Para construir el data frame, primero se crean dos vectores con los datos correspondientes a \(x\) y a \(y\). Luego, se unen con la función “data.frame”.
x <- c(1, 4, 5, 9, 11, 13, 23, 23, 28)
y <- c(64, 71, 54, 81, 76, 93, 77, 95, 109)
datos <- data.frame(x,y)
datos
## x y
## 1 1 64
## 2 4 71
## 3 5 54
## 4 9 81
## 5 11 76
## 6 13 93
## 7 23 77
## 8 23 95
## 9 28 109
Tenemos que \(n=9\), \(\overline{x}=13\) y \(\overline{y}=80\).
n <- length(x)
xbarra <- mean(x)
ybarra <- mean(y)
Para hallar las estimaciones de los prámetros, primero debemos calcular las sumas de \(xy\) y de \(xx\): \[S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n} \;=\; 1040; \qquad \qquad S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n} \; =\; 734\]
El código para escribir la expresión anterior es:
$$S_{xy} \;=\; \sum x_iy_i - \frac{(\sum x_i)(\sum y_i)}{n} \;=\; 1040; \qquad \qquad S_{xx} \;=\; \sum x_i^2 - \frac{(\sum x_i)^2}{n} \; =\; 734$$
En R:
Sxy <- sum(x*y)- sum(x)*sum(y)/n
Sxx <- sum(x^2)- (sum(x))^2/n
Con los resultados anteriores encontramos que \[ \widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}\; = \;1.417; \qquad \qquad\widehat{\delta}\;= \; \overline{y} - \widehat{\beta} \overline{x}\; =\; 61.58\]
El código para escribir la expresión anterior es:
$$ \widehat{\beta} \; = \; \frac{S_{xy}}{S_{xx}}\; = \;1.417; \qquad \qquad\widehat{\delta}\;= \; \overline{y} - \widehat{\beta} \overline{x}\; =\; 61.58$$
En R:
beta <- Sxy/Sxx
delta <- ybarra - beta*xbarra
En R, los parámetros se calculan así:
modelo <- lm(y ~ x, data = datos)
modelo$coefficients
## (Intercept) x
## 61.580381 1.416894
Con la función “summary” obtenemos una salida en donde los valores de las estimaciones se pueden visualizar en la primera columna (llamada “Estimate”) de la lista llamada “Coefficients” (ver recuadro rojo en la figura de abajo):
summary(modelo)
Tenemos que \(\widehat{\beta}=1.417 >0\). Observe que hay una relación creciente entre las variables \(x\) (incremento porcentual de los gastos de publicidad) y \(y\) (incremento en las ventas). Es decir, cuando \(x\) aumenta, entonces, \(y\) también aumenta. Por lo tanto, la pendiente se puede interpretar así:
Tenemos que \(\widehat{\delta}= 61.58\). Entonces, el intercepto se puede interpretar así:
La ecuación verdadera de regresión viene dada por \[E(Y/X=x) \;=\; \hat{\delta} \;+\; \hat{\beta} x \;=\; 61.58 \;+\; 1.417 x\]
El código para escribir la expresión anterior es:
$$E(Y/X=x) \;=\; \hat{\delta} \;+\; \hat{\beta} x \;=\; 61.58 \;+\; 1.417 x$$
También se puede escribir así:
\[y \;=\; 61.58 \;+\; 1.417 x\]
Una estimación puntual de \(E(Y/X=13)\) es \[E(Y/X=13) \;= \; 61.58 + (1.417)(13) \;= \; 80\]
El código para escribir la expresión anterior es:
$$E(Y/X=13) \;= \; 61.58 + (1.417)(13) \;= \; 80$$
En R:
delta + beta*13
## [1] 80
El código para escribir la expresión anterior es:
$$E(Y/X=13) \;= \; 61.58 + (1.417)(13) \;= \; 80$$
Es decir, cuando el incremento en gastos de publicidad sea del 13%, entonces, se espera que el incremento promedio en las ventas sea de 80 millones de pesos.
En la figura de abajo se encuentra el diagrama de dispersión y la línea de regresión para los datos dados.
plot(x, y, main="Diagrama de dispersión", xlab="Incremento en gastos de publicidad (%)", ylab="Incremento en ventas (millones de pesos)", pch=19)
abline(modelo, col="red")
Con plot() se dibuja el diagrama de dispersión y con abline() se dibuja la correspondiente recta de regresión, estimada en el inciso (d).
El supuesto de normalidad de los errores implica que la variable \(Y\) también es normal. Además, por la sección anterior, para \(X=10\), \(Y\) tiene media, varianza y desviación
\[E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad V(Y/x=10) \;= \; 20^2 \;= \; 400 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]
respectivamente.
El código para escribir la expresión anterior es:
$$E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad V(Y/x=10) \;= \; 20^2 \;= \; 400 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$
Por consiguiente,
\[\begin{eqnarray*} P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\ &=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188 \end{eqnarray*}\]
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\
&=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188
\end{eqnarray*}
En R:
mu <- 75.75
sigma <- 20
x1 <- 65
x2 <- 100
z1 <- (x1 -mu)/sigma
z2 <- (x2 -mu)/sigma
probabilidad_g <- pnorm(z2) -pnorm(z1)
probabilidad_g
## [1] 0.5918783
En conclusión, la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10% es de 0.59188.
Tenemos que los valores de las sumas de cuadrados total, de la regresión y residual, respectivamente, son:
\[S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}\;=\; 2274; \qquad SSR \;= \;\widehat{\beta} S_{xy}\;=\; 1473.569; \qquad SSE \;= \;S_{yy} - SSR\; = \; 800.4305\]
El código para escribir la expresión anterior es:
$$S_{yy} \;=\; \sum y_i^2 - \frac{(\sum y_i)^2}{n}\;=\; 2274; \qquad SSR \;= \;\widehat{\beta} S_{xy}\;=\; 1473.569; \qquad SSE \;= \;S_{yy} - SSR\; = \; 800.4305$$
En R:
Syy <- sum(y^2)- (sum(y))^2/n
SSR <- beta*Sxy
SSE <- Syy -SSR
Las varianzas estimadas del error \(\epsilon\), de \(\widehat{\beta}\) y de \(\widehat{\delta}\) son, respectivamente: \[S_\epsilon^2 \;= \;\frac{SSE}{n-2}\;= \;114.35; \qquad S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}\;= \; 0.156; \qquad S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}\;= \;39.03\]
El código para escribir la expresión anterior es:
$$S_\epsilon^2 \;= \;\frac{SSE}{n-2}\;= \;114.35; \qquad S^2_{\widehat{\beta}} =\frac{S^2_{\epsilon}}{S_{xx}}\;= \; 0.156; \qquad S^2_{\widehat{\delta}} = \frac{S^2_{\epsilon}\; \sum x_i^2}{n\,S_{xx}}\;= \;39.03$$
En R:
Verror <- SSE/(n-2)
Vbeta <- Verror/Sxx
Vdelta <- Verror * sum(x^2)/(n*Sxx)
Los errores estándares del error \(\epsilon\), de \(\widehat{\beta}\) y de \(\widehat{\delta}\) son, respectivamente:
\[S_\epsilon \;= \;\sqrt{S_\epsilon^2}\;= \;10.6933; \qquad S_{\widehat{\beta}} =\sqrt{S_\beta^2}\;= \; 0.39469; \qquad S_{\widehat{\delta}} = \sqrt{S_\delta^2}\;= \;6.24765\]
El código para escribir la expresión anterior es:
$$S_\epsilon \;= \;\sqrt{S_\epsilon^2}\;= \;10.6933; \qquad S_{\widehat{\beta}} =\sqrt{S_\beta^2}\;= \; 0.39469; \qquad S_{\widehat{\delta}} = \sqrt{S_\delta^2}\;= \;6.24765$$
En R:
ES_error <- sqrt(Verror)
ES_beta <- sqrt(Vbeta)
ES_delta <- sqrt(Vdelta)
Con la función “summary” obtenemos una salida en donde se pueden visualizar los valores de las estimaciones correspondientes (ver recuadro rojo en la figura de abajo):
\(S_\beta\) y \(S_\delta\), en la segunda columna (llamada “Std. Error”) de la lista llamada “Coefficients”.
\(S_\epsilon\), al principio de la tercera fila de abajo hacia arriba (donde dice “Residual standard error”).
summary(modelo)
La expresión para hallar el intervalo para el intercepto es:
\[\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \; < \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}\]
El código para escribir la expresión anterior es:
$$\widehat{\delta} - t_{\alpha/2} \,S_{\widehat{\delta}} \;
< \; \delta\; < \; \widehat{\delta} + t_{\alpha/2} \,S_{\widehat{\delta}}$$
El error estándar (es decir, la desviación estándar del estadístico) es:
ES <- ES_delta # Error estándar
El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha/2}\) es:
alfa <- 0.05
glib <- n-2
Critico <- qt(1-(alfa/2), glib)
Es decir, \(t_{\alpha/2}=\) 2.36462. El error de estimación (o margen de error) es
Margen <- Critico*ES
Los límites del intervalo son:
estimacion <- delta
izquierdo <- estimacion - Margen
derecho <- estimacion + Margen
cbind(izquierdo, derecho)
## izquierdo derecho
## [1,] 46.80703 76.35373
El intervalo también se puede obtener así:
Intervalo <- estimacion + c(-Margen, Margen)
Intervalo
## [1] 46.80703 76.35373
Es decir, \[46.80 \; < \; \delta \; < \; 76.35 \]
El código para escribir la expresión anterior es:
$$46.80 \; < \; \delta \; < \; 76.35 $$
Con una confianza del 95% podemos afirmar que el intercepto poblacional se encuentra entre 46.80 y 76.35. Como el cero no se encuentra en el intervalo, entonces, \(\delta\ne 0\). Por lo tanto, concluímos que la recta poblacional no pasa por el origen.
Con la función “lm” se obtienen los mismo resultados obtenidos en (k).
modelo <- lm(y ~ x, data = datos)
confint(modelo)[1,]
## 2.5 % 97.5 %
## 46.80703 76.35373
La expresión para hallar el intervalo para el intercepto es:
\[\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; < \; \beta\; < \; \widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}\]
El código para escribir la expresión anterior es:
$$\widehat{\beta} - t_{\alpha/2} \,S_{\widehat{\beta}} \; < \; \beta\; < \;
\widehat{\beta} + t_{\alpha/2} \,S_{\widehat{\beta}}$$
El error estándar (es decir, la desviación estándar del estadístico) es:
ES <- ES_beta # Error estándar
El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha/2}\) es:
alfa <- 0.05
glib <- n-2
Critico <- qt(1-(alfa/2), glib)
Es decir, \(t_{\alpha/2}=\) 2.36462. El error de estimación (o margen de error) es
Margen <- Critico*ES
Los límites del intervalo son:
estimacion <- beta
izquierdo <- estimacion - Margen
derecho <- estimacion + Margen
cbind(izquierdo, derecho)
## izquierdo derecho
## [1,] 0.4835816 2.350206
El intervalo también se puede obtener así:
Intervalo <- estimacion + c(-Margen, Margen)
Intervalo
## [1] 0.4835816 2.3502059
Es decir, \[0.484 \; < \; \beta \; < \; 2.35 \]
El código para escribir la expresión anterior es:
$$0.484 \; < \; \beta \; < \; 2.35 $$
Con una confianza del 95% podemos afirmar que la pendiente poblacional se encuentra entre 0.484 y 2.35. Como el cero no se encuentra en el intervalo, entonces, \(\beta\ne 0\). Es más, \(\beta>0\). Por lo tanto, concluímos que sí hay una relación lineal (y creciente) entre \(x\) y \(y\).
Con la función “lm” se obtienen los mismo resultados obtenidos en (m).
modelo <- lm(y ~ x, data = datos)
confint(modelo)[2,]
## 2.5 % 97.5 %
## 0.4835816 2.3502059
Queremos probar las hipótesis:
\[ H_0: \beta= 0 \qquad \text{versus} \qquad H_1: \beta \ne 0\]
En este caso, \(\beta_0=0\) y tenemos una prueba de dos colas.
El código para escribir la expresión anterior es:
$$ H_0: \beta= 0 \qquad \text{versus} \qquad H_1: \beta \ne 0$$
Se sabe que el estadístico de prueba tiene la forma \[t=\frac{\widehat{\beta} - \beta_0}{S_{\widehat{\beta}}}\]
El código para escribir la expresión anterior es:
$$t=\frac{\widehat{\beta} - \beta_0}{S_{\widehat{\beta}}}$$
Sabiendo que \(\widehat{\beta}=1.417\), \(\beta_0=0\) (ver valor numérico en las hipótesis) y el error estándar de \(\widehat{\beta}\) es \(S_{\widehat{\beta}}=0.3947\), entonces, el valor de prueba es \(t=3.5898\):
\[t\; =\; \frac{1.417 \;-\; 0}{0.3947} \; = \; 3.5898\]
El código para escribir la expresión anterior es:
$$t\; =\; \frac{1.417 \;-\; 0}{0.3947} \; = \; 3.5898$$
beta_gorro <- beta
beta_0 <- 0 # Ver valor numérico en las hipótesis
S_beta <- sqrt(Vbeta) # Error estándar (desviación estándar del estadístico)
t <- (beta_gorro - beta_0)/S_beta #L) Valor de prueba
t
## [1] 3.589819
El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha/2}\) es:
alfa <- 0.05
glib <- n-2 # M) Grados de libertad
Critico <- qt(1-(alfa/2), glib) #N) Valor crítico
Critico
## [1] 2.364624
Es decir, \(t_{\alpha/2}=\) 2.36462. Se observa que el valor de prueba \(t=\) 3.58982 cae en la región crítica. Es decir, no se cumple: \[ -t_{\alpha/2} \; < \; t \; < \; t_{\alpha/2}\]
El código para escribir la expresión anterior es:
$$ -t_{\alpha/2} \; < \; t \; < \; t_{\alpha/2}$$
En R se verifica así (el símbolo “|” indica el conectivo lógico “o”):
t< -Critico | t> Critico #N) Región crítica
## [1] TRUE
O sea, se rechaza \(H_0: \beta=0\) al nivel del 5%. Por consiguiente, con una confianza del 95%, concluímos que el modelo lineal es apropiado para los datos (ya que la pendiente poblacional es diferente de cero).
Tenemos una prueba de dos colas. Por lo tanto, la fórmula que se aplicará es la que se indica abajo:
\[\text{$P$-valor} \;= \; \begin{cases} & \text{para una prueba de una cola a la izquierda}, \\ & \\ & \text{para una prueba de una cola a la derecha}, \\ &\\ 2 P(t\geq |x|), & \text{para una prueba de dos colas}. \end{cases} \]
El código para escribir la expresión anterior es:
$$\text{$P$-valor} \;= \;
\begin{cases}
& \text{para una prueba de una cola a la izquierda}, \\
& \\
& \text{para una prueba de una cola a la derecha}, \\
&\\
2 P(t\geq |x|), & \text{para una prueba de dos colas}.
\end{cases} $$
Con \(x=\) 3.58982 (el valor de prueba), el \(P\)-valor es:
\[\text{P-valor} \; = \; 2\, P(t \geq |3.5898|) \;= \; 0.00886\]
El código para escribir la expresión anterior es:
$$\text{P-valor} \; = \; 2\, P(t \geq |3.5898|) \;= \; 0.00886$$
Pvalor <- 2*pt(t,df=glib,lower.tail=FALSE)
Pvalor
## [1] 0.00885928
Recordemos la regla de decisión:
Se rechaza \(H_0\) cuando \(P\mbox{-valor} \leq \alpha\).
No se rechaza \(H_0\) cuando \(P\mbox{-valor}> \alpha\).
El código para escribir la expresión anterior es:
(a) Se rechaza $H_0$ cuando $P\mbox{-valor} \leq \alpha$.
(b) No se rechaza $H_0$ cuando $P\mbox{-valor}> \alpha$.
Como el \(P\)-valor es menor que 0.05, por la regla de decisión, se rechaza \(H_0: \beta=0\) al nivel del 5%. Por consiguiente, con una confianza del 95%, concluímos que el modelo lineal es apropiado para los datos (ya que la pendiente poblacional es diferente de cero).
Con la función “summary” obtenemos una salida en donde se pueden visualizar las pruebas de hipótesis correspondientes a la pendiente (ver recuadro rojo en la figura de abajo):
summary(modelo)
Se observan los mismos resultados obtenidos en los incisos (o) y (p).
Queremos probar las hipótesis: \[ H_0: \beta \leq 0 \qquad \text{versus} \qquad H_1: \beta > 0\]
En este caso, \(\beta_0=0\) y tenemos una prueba de una cola a la derecha.
El código para escribir la expresión anterior es:
$$ H_0: \beta \leq 0 \qquad \text{versus} \qquad H_1: \beta > 0$$
Se sabe que el estadístico de prueba tiene la forma
\[F\;= \; \frac{SSR}{S^2_{\epsilon}}\]
El código para escribir la expresión anterior es:
$$F\;= \; \frac{SSR}{S^2_{\epsilon}}$$
Sabiendo que la suma de cuadrados de la regresión es \(SSR=1473.569\) y la varianza estimada del error es \(S^2_{\epsilon}= 114.3472\), entonces, el valor de prueba es \(F=12.8868\):
\[F\;= \; \frac{1473.569}{114.3472}\;= \; 12.8868\]
El código para escribir la expresión anterior es:
$$F\;= \; \frac{1473.569}{114.3472}\;= \; 12.8868$$
En R:
Numerador <- SSR
Denominador <- Verror
f <- Numerador/Denominador #L) Valor de prueba
f
## [1] 12.8868
El valor crítico (o valor cuantil de la distribución \(F\) de Fisher) \(F_{\alpha}\) es:
alfa <- 0.05
glib_num <- 1 #M) Grados de libertad numerador
glib_den <- n-2 #N) Grados de libertad denominador
Critico <- qf(1-(alfa), glib_num, glib_den) #N) Valor crítico
Critico
## [1] 5.591448
Es decir, \(F_{\alpha}=\) 5.59145. Se observa que el valor de prueba \(t=\) 3.58982 cae en la región crítica. Es decir, se cumple: \[ F \; >\; F_{\alpha}\]
El código para escribir la expresión anterior es:
$$ F \; >\; F_{\alpha}$$
En R se verifica así:
f> Critico #N) Región crítica
## [1] TRUE
O sea, se rechaza \(H_0: \beta=0\) al nivel del 5%. Por consiguiente, con una confianza del 95%, podemos afirmar que los datos satisfacen el modelo de regresión lineal (ya que la pendiente poblacional es diferente de cero).
Tenemos una prueba de una cola a la derecha. Por lo tanto, la fórmula que se aplicará es la que se indica abajo:
\[\text{$P$-valor} \;= \; \begin{cases} & \text{para una prueba de una cola a la izquierda}, \\ & \\ P(F\geq x), & \text{para una prueba de una cola a la derecha}, \\ &\\ & \text{para una prueba de dos colas}. \end{cases} \]
El código para escribir la expresión anterior es:
$$\text{$P$-valor} \;= \;
\begin{cases}
& \text{para una prueba de una cola a la izquierda}, \\
& \\
P(F\geq x), & \text{para una prueba de una cola a la derecha}, \\
&\\
& \text{para una prueba de dos colas}.
\end{cases} $$
Con \(x=\) 12.8868 (el valor de prueba), el \(P\)-valor es:
\[\text{P-valor} \; = \; P(F \geq 12.89) \;= \; 0.00886\]
El código para escribir la expresión anterior es:
$$\text{P-valor} \; = \; P(F \geq 12.89) \;= \; 0.00886$$
Pvalor <- pf(f,df1=glib_num, df2=glib_den, lower.tail=FALSE)
Pvalor
## [1] 0.00885928
Recordemos la regla de decisión:
Se rechaza \(H_0\) cuando \(P\mbox{-valor} \leq \alpha\).
No se rechaza \(H_0\) cuando \(P\mbox{-valor}> \alpha\).
El código para escribir la expresión anterior es:
(a) Se rechaza $H_0$ cuando $P\mbox{-valor} \leq \alpha$.
(b) No se rechaza $H_0$ cuando $P\mbox{-valor}> \alpha$.
Como el \(P\)-valor es menor que 0.05, por la regla de decisión, se rechaza \(H_0: \beta=0\) al nivel del 5%. Por consiguiente, con una confianza del 95%, podemos afirmar que los datos satisfacen el modelo de regresión lineal (ya que la pendiente poblacional es diferente de cero).
Con la función “summary” obtenemos una salida en donde se pueden visualizar las pruebas de hipótesis correspondientes a la pendiente (ver recuadro rojo en la figura de abajo):
summary(modelo)
Se observan los mismos resultados obtenidos en los incisos (r) y (s).
Queremos probar las hipótesis:
\[ H_0: \delta= 0 \qquad \text{versus} \qquad H_1: \delta \ne 0\]
El código para escribir la expresión anterior es:
$$ H_0: \delta= 0 \qquad \text{versus} \qquad H_1: \delta \ne 0$$
En este caso, \(\delta_0=0\) y tenemos una prueba de dos colas.
Se sabe que el estadístico de prueba tiene la forma \[t=\frac{\widehat{\delta} - \delta_0}{S_{\widehat{\delta}}}\]
El código para escribir la expresión anterior es:
$$t=\frac{\widehat{\delta} - \delta_0}{S_{\widehat{\delta}}}$$
Sabiendo que \(\widehat{\delta}=61.58\), \(\delta_0=0\) (ver valor numérico en las hipótesis) y el error estándar de \(\widehat{\delta}\) es \(S_{\widehat{\delta}}=6.2477\), entonces, el valor de prueba es \(t=9.857\):
\[t\; =\; \frac{61.58 \;-\; 0}{6.2477} \; = \; 9.857\]
El código para escribir la expresión anterior es:
$$t\; =\; \frac{61.58 \;-\; 0}{6.2477} \; = \; 9.857$$
delta_gorro <- delta
delta_0 <- 0 # Ver valor numérico en las hipótesis
S_delta <- sqrt(Vdelta) # Error estándar (desviación estándar del estadístico)
t <- (delta_gorro - delta_0)/S_delta #L) Valor de prueba
t
## [1] 9.856565
El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha/2}\) es:
alfa <- 0.05
glib <- n-2 # M) Grados de libertad
Critico <- qt(1-(alfa/2), glib) #N) Valor crítico
Critico
## [1] 2.364624
Es decir, \(t_{\alpha/2}=\) 2.36462. Se observa que el valor de prueba \(t=\) 9.85656 cae en la región crítica. Es decir, no se cumple: \[ -t_{\alpha/2} \; < \; t \; < \; t_{\alpha/2}\]
El código para escribir la expresión anterior es:
$$ -t_{\alpha/2} \; < \; < t \; < \; t_{\alpha/2}$$
En R se verifica así (el símbolo “|” indica el conectivo lógico “o”):
t< -Critico | t> Critico #N) Región crítica
## [1] TRUE
O sea, se rechaza \(H_0: \delta=0\) al nivel del 5%. Por consiguiente, con una confianza del 95%, podemos afirmar que la línea de regresión no pasa por el origen (ya que el intercepto poblacional es diferente de cero).
Tenemos una prueba de dos colas. Por lo tanto, la fórmula que se aplicará es la que se indica abajo:
\[\text{$P$-valor} \;= \; \begin{cases} & \text{para una prueba de una cola a la izquierda}, \\ & \\ & \text{para una prueba de una cola a la derecha}, \\ &\\ 2 P(t\geq |x|), & \text{para una prueba de dos colas}. \end{cases} \]
El código para escribir la expresión anterior es:
$$\text{$P$-valor} \;= \;
\begin{cases}
& \text{para una prueba de una cola a la izquierda}, \\
& \\
& \text{para una prueba de una cola a la derecha}, \\
&\\
2 P(t\geq |x|), & \text{para una prueba de dos colas}.
\end{cases} $$
Con \(x=\) 9.85656 (el valor de prueba), el \(P\)-valor es:
\[\text{P-valor} \; = \; 2\, P(t \geq |9.857|) \;\approx \;2.35 \times 10^{-5} \; =\; 0.0000235\]
El código para escribir la expresión anterior es:
$$\text{P-valor} \; = \; 2\, P(t \geq |9.857|) \;\approx \;2.35 \times 10^{-5} \; =\; 0.0000235$$
Pvalor <- 2*pt(t,df=glib,lower.tail=FALSE)
Pvalor
## [1] 2.353014e-05
Recordemos la regla de decisión:
Se rechaza \(H_0\) cuando \(P\mbox{-valor} \leq \alpha\).
No se rechaza \(H_0\) cuando \(P\mbox{-valor}> \alpha\).
El código para escribir la expresión anterior es:
(a) Se rechaza $H_0$ cuando $P\mbox{-valor} \leq \alpha$.
(b) No se rechaza $H_0$ cuando $P\mbox{-valor}> \alpha$.
Como el \(P\)-valor es menor que 0.05, por la regla de decisión, se rechaza \(H_0: \delta=0\) al nivel del 5%. Por consiguiente, con una confianza del 95%, podemos afirmar que la línea de regresión no pasa por el origen (ya que el intercepto poblacional es diferente de cero).
Con la función “summary” obtenemos una salida en donde se pueden visualizar las pruebas de hipótesis correspondientes a la pendiente (ver recuadro rojo en la figura de abajo):
summary(modelo)
Se observan los mismos resultados obtenidos en los incisos (u) y (v).
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo. Interprete los resultados hallados.
En los últimos 25 años, una cadena de tiendas de descuento en ropa para dama ha aumentado su porcentaje de mercado con el incremento en el número de tiendas. Nunca empleó su enfoque sistemático en la selección del lugar. Esta se basó, en esencia, en los que se consideró un gran sitio o una buena renta. Este añoo, con un plan estratégico para abrir varias tiendas nuevas, se pidió al director de proyectos especiales y planeación que desarrollara un enfoque para predecir las ventas anuales en todas las tiendas nuevas. Suponga que se decidió examinar la relación entre el tamaño (en metros cuadrados) de una tienda y sus ventas anuales con la selección de una muestra de 6 tiendas. Los resultados para estas 6 tiendas se resumen en la tabla de abajo.
Suponga que las ventas (\(y\)) dependen linealmente de los tamaños (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]
También suponga que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 8. Realize todos los incisos propuestos en el Ejemplo 1, pero cambiando los incisos (e) y (g) por los que se proponen abajo (los demás incisos permanecerán iguales):
e1) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda es de 550 metros cuadrados.
e2) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda se encuentra entre 450 y 800 metros cuadrados.
e3) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda es mayor que 730 metros cuadrados.
e4) Estime las ventas anuales (en millones de pesos) cuando el tamaño de la tienda es menos de 630 metros cuadrados.
g1) Calcule la probabilidad de que la venta anual es menor o igual que 60 millones de pesos si el tamaño de la tienda fue de 300 metros cuadrados.
g2) Calcule la probabilidad de que la venta anual es mayor que 55 millones de pesos si el tamaño de la tienda fue de 400 metros cuadrados.
g3) Calcule la probabilidad de que la venta anual está entre 35 y 76 millones de pesos si el tamaño de la tienda fue de 200 metros cuadrados.
g4) Calcule la probabilidad de que la venta anual es a lo más 85 millones de pesos si el tamaño de la tienda fue de 500 metros cuadrados.
El dataframe “datosCompleto” que se indica abajo contiene los resultados de una encuesta realizada a 400 estudiantes universitarios.
Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Opción B (web, desde Google Drive):
url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)
Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:
Opción C (local, con archivo en Rdata):
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
Opción D (local, con archivo en excel):
datosCompleto <- read.delim('clipboard')
Dentro de “datosCompleto”, considere solo las variables “Definitiva” (\(y\), definitiva de las calificaciones de los estudiantes) y “P2” (\(x\), calificaciones del segundo parcial). Suponga que \(y\) depende linealmente de \(x\) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]
También suponga que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 0.2. Realize todos los incisos propuestos en el Ejemplo 1, pero cambiando los incisos (a), (e) y (g) por los que se proponen abajo (los demás incisos permanecerán iguales):
a) Defina los correspondientes objetos $x$ y $y$.
e1) Estime la calificación definitiva cuando la calificación del segundo parcial es de 4.0.
e2) Estime la calificación definitiva cuando la calificación del segundo parcial se encuentra entre 3.5 y 4.2.
e3) Estime la calificación definitiva cuando la calificación del segundo parcial es mayor que 3.8.
e4) Estime la calificación definitiva cuando la calificación del segundo parcial es menor que 4.5.
g1) Calcule la probabilidad de que la calificación definitiva es menor o igual que 4.6 si la calificación del segundo parcial fue de 4.3.
g2) Calcule la probabilidad de que la calificación definitiva es mayor que 3.0 si la calificación del segundo parcial fue de 3.1.
g3) Calcule la probabilidad de que la calificación definitiva está entre 2.9 y 3.5 si la calificación del segundo parcial fue de 1.0.
g4) Calcule la probabilidad de que la calificación definitiva es a lo más 4.6 si la calificación del segundo parcial fue de 2.0.
Repita el ejercicio 2, considerando solamente el data frame “datos1a100”, que contiene las primeras 100 observaciones del dataframe “datosCompleto”. Verifique su tamaño, variables y estructura.
Considere el dataframe “datosCompleto” descrito en el ejercicio 2. Dentro de “datosCompleto”, considere solo las variables “Definitiva” (\(y\), definitiva de las calificaciones de los estudiantes) y “P3” (\(x\), calificaciones del tercer parcial). Suponga que \(y\) depende linealmente de \(x\) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]
También suponga que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 0.2. Realize todos los incisos propuestos en el Ejemplo 1, pero cambiando los incisos (a), (e) y (g) por los que se proponen abajo (los demás incisos permanecerán iguales):
a) Defina los correspondientes objetos $x$ y $y$.
e1) Estime la calificación definitiva cuando la calificación del tercer parcial es de 5.0.
e2) Estime la calificación definitiva cuando la calificación del tercer parcial se encuentra entre 2.5 y 3.2.
e3) Estime la calificación definitiva cuando la calificación del tercer parcial por lo menos 2.8.
e4) Estime la calificación definitiva cuando la calificación del tercer parcial es a lo más 3.5.
g1) Calcule la probabilidad de que la calificación definitiva es mayor que 3.6 si la calificación del tercer parcial fue de 4.0.
g2) Calcule la probabilidad de que la calificación definitiva es menor que 4.0 si la calificación del tercer parcial fue de 3.0.
g3) Calcule la probabilidad de que la calificación definitiva está entre 3.9 y 4.5 si la calificación del tercer parcial fue de 2.0.
g4) Calcule la probabilidad de que la calificación definitiva es a lo más 3.6 si la calificación del tercer parcial fue de 3.0.
Repita el ejercicio 4, considerando solamente el data frame “datos1a100”, que contiene las primeras 100 observaciones del dataframe “datosCompleto”. Verifique su tamaño, variables y estructura.
Repita el ejercicio 2, pero definiendo los objetos \(x\) (“P2”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datosCompleto”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
Repita el ejercicio 3, pero definiendo los objetos \(x\) (“P2”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datos1a100”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
Repita el ejercicio 4, pero definiendo los objetos \(x\) (“P3”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datosCompleto”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
Repita el ejercicio 5, pero definiendo los objetos \(x\) (“P3”) y \(y\) (“Definitiva”) dentro del grupo de las mujeres. Es decir, dentro de “datos1a100”, defina el dataframe “Mujeres” y resuelva el ejercicio indicado.
En un determinado artículo se presenta una regresión del índice de absorción del suelo (\(y\)) sobre la cantidad de mineral de hierro que puede extraerse (\(x\)). La ecuación de la recta de regresión estimada fue \(y=3.678 + 0.144x\), basada en \(n=23\) observaciones.
a) Interprete la pendiente estimada 0.144 y el intercepto estimado.
b) Calcule un estimado puntual del índice promedio real de absorción cuando la cantidad de mineral de hierro que puede extraerse es 50.
c) El valor de la suma total de cuadrados fue SSE=117.6228. Calcule un estimado de desviación estándar del error en el modelo de regresión lineal simple.
d) El valor de la suma de $xx$ fue de Sxx =13.250. Calcule un estimado del error estándar de la pendiente estimada en el modelo de regresión lineal simple.
e) Construya un intervalo del 95% de confianza para la pendiente poblacional e interprete los resultados obtenidos.
f) Con un nivel de significancia del 5%, contraste hipótesis para verificar si hay una relación lineal entre el índice de absorción del suelo y la cantidad de mineral de hierro que puede extraerse. En caso afirmativo, ¿es esta relación creciente o decreciente?
Los siguientes estadísticos de resumen se obtuvieron de un estudio que utilizó el análisis de regresión para investigar la relación entre la potencia eléctrica \(y\) consumida al mes por una planta química y la temperatura ambiente promedio \(x\) (en grados Fahrenheit):
\[\sum\limits_{i=1}^{15} x_i=1425, \qquad \sum\limits_{i=1}^{15} y_i=10.68, \qquad \sum\limits_{i=1}^{15} x^2_i=139037.25, \qquad \sum\limits_{i=1}^{15} x_i y_i=987.645\]
Para el inciso (d), se sugiere tener en cuenta la expresión: \[^\circ F=(9/5)^\circ C + 32\]
a) Calcule la ecuación de la recta de regresión estimada y trace dicha recta.
b) ¿Cuál es la estimación de cambio esperado en la potencia eléctrica cuando la temperatura ambiente aumenta 1 grado Fahrenheit?
c) Si se supone que una temperatura superficial de 200 grados Fahrenheit se encuentra entre los valores posibles, ¿utilizaría la recta estimada del inciso (a) para pronosticar la potencia eléctrica según esta temperatura? ¿Por qué sí o por qué no?
d) Suponga que la temperatura se midió en grados centígrados en lugar de grados Fahrenheit. ¿Cuál sería la recta de regresión estimada? Conteste el inciso (b) para un aumento de 1 grado centígrado. Sugerencia: sustituya "x anterior" en términos de la "x nueva", teniendo en cuenta la fórmula sugerida al final del enunciado.
e) Calcule el error estándar de la pendiente.
f) Calcule un intervalo del 95% de confianza para la pendiente poblacional, y determine si el cambio esperado en la potencia eléctrica asociada se establece con un aumento de temperatura de 1 grado Fahrenheit.
g) Con un nivel de significancia del 5%, contraste hipótesis para verificar si hay una relación lineal entre la potencia eléctrica consumida al mes por una planta química y la temperatura ambiente promedio. En caso afirmativo, ¿es esta relación creciente o decreciente?
Muchas sustancias químicas se disuelven en agua con tasas distintas, que varían según la temperatura del agua misma. En un artículo se estudia este fenómeno y se reportan los resultados de un análisis de regresión basado en 15 observaciones, donde \(x\) es la temperatura del agua (en grados centígrados) y \(y\) es el porcentaje (%) de sustancias disueltas. Las cantidades calculadas son: \[\sum x_i=402; \qquad \sum x^2_i=11098; \qquad \hat{S}_{\epsilon}=3.73; \qquad \widehat{\beta}=1.7035\] Se plantean las hipótesis \(H_0:\beta=1\), lo cual expresa que el aumento esperado en el porcentaje de sustancias disueltas es 1 cuando la temperatura del agua aumenta en 1 grado centígrado, contra la alternativa \(H_0:\beta\ne 1\).
a) Al nivel de significancia de 0,01, constraste las hipótesis anteriores.
b) Calcule un intervalo del 99% de confianza para la pendiente poblacional, es decir, para el aumento esperado en porcentaje de sustancias disueltas al presentarse un aumento de temperatura de 1 grado centígrado. Verfique si esa pendiente podría tomar el valor de 1 o si es mayor que 1. Explique.
LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org