Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 6 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.
El código para escribir la expresión anterior es:
$$y = \delta + \beta x$$
\(x\) se llama variable independiente (predictora o explicativa).
Para \(x\) fija, \(y\) se llama variable dependiente o de respuesta.
Los parámetros del modelo son la pendiente \(\beta\) y el intercepto \(\delta\) (punto de corte con el eje \(Y\)), entre otros.
En las figuras de abajo, se muestran algunas situaciones que se pueden presentar dependiendo del valor de la pendiente.
a) Cuando la pendiente es positiva, la relación entre $x$ y $y$ es creciente. Es decir, a medida que $x$ aumenta, entonces, $y$ también aumenta.
b) Cuando la pendiente es negativa, la relación entre $x$ y $y$ es decreciente. Es decir, a medida que $x$ aumenta, entonces, $y$ disminuye.
c) Cuando la pendiente es cero, $y$ es constante y la recta es paralela al eje $X$.
Supongamos que estamos interesados en conocer la relación entre una variable dependiente \(Y\) y una independiente \(X\). Si la variable aleatoria toma los valores \(x_i\), entonces, la ecuación de la recta (verdadera o poblacional) de regresión expresa los correspondientes valores \(Y_i\) como
\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]
donde \(\delta\) y \(\beta\) son constantes y \(\epsilon_i\), llamado término de error, es una variable aleatoria con media 0. Este modelo se llama modelo de regresión lineal simple.
El código para escribir la expresión anterior es:
$$Y_i \;= \; \delta + \beta x_i + \epsilon_i$$
Denotemos la recta verdadera de regresión por \[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]
y asumamos que se dispone de \(n\) pares de observaciones. Suelen realizarse los siguientes supuestos:
Cada \(x_i\) es un número fijo (asignado, por ejemplo, por un investigador), o es la realización de una variable aleatoria \(X_i\) independiente del término error \(\epsilon_i\). En el último caso, la inferencia se realiza condicionado al valor observado \(x_i\).
Los términos de error \(\epsilon_i\) son variables aleatorias con media 0, es decir,
\[E(\epsilon_i)=0, \quad \text{para todo} \quad i=1, \ldots, n.\]
\[V(\epsilon_i)=\sigma^2, \quad \text{para todo} \quad i=1, \ldots, n.\]
\[E(\epsilon_i\epsilon_j)=0, \quad \text{para todo} \quad i,j=1, \ldots, n \quad \text{con}\quad i\ne j.\] En el resto de este capítulo, asumiremos que se verifican estos supuestos.
Denotemos la recta verdadera de regresión por
\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]
Si se cumplen los supuestos en el modelo de regresión, entonces, para un valor fijo \(x_i\) de \(X\), la esperanza y varianza condicionales de \(Y_i\) dado que \(X=x_i\) vienen dadas, respectivamente, por
\[E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2.\]
El código para escribir la expresión anterior es:
$$E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2$$
Suponga que la relación entre la profundidad del océano \(X\) y la temperatura del agua \(Y\) está descrito por el modelo de regresión lineal simple con la verdadera recta de regresión
\[Y\; =\; 65\; -\; 1.2x \;+\; \epsilon\]
y supongamos que se cumplen los supuestos del modelo de regresión y que el error \(\epsilon\) está normalmente distribuida con media 0 y desviación \(\sigma=8\).
a) Halle la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 24.
b) Halle la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 25.
c) Suponga que Y_{25} representa una observación sobre la temperatura cuando X=25 y que Y_{24} simboliza una observación independiente con X=24. Halle la media, varianza y desviación de Y_{25}-Y_{24}.
d) Utilice los resultados del inciso (c) para hallar la probabilidad de que Y_{25} exceda Y_{24}.
Nos piden calcular \(P(Y>50 / X=24)\). El supuesto de normalidad de los errores implica que la variable \(Y\) también es normal. Además, por la sección anterior, para \(X=20\), \(Y\) tiene media, varianza y desviación
\[E(Y/X=20) = 65 - (1,2)(24)=36.2, \qquad V(Y/X=24) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]
respectivamente.
El código para escribir la expresión anterior es:
$$E(Y/X=20) = 65 - (1,2)(24)=36.2, \qquad V(Y/X=24) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$
Por consiguiente,
\[P(Y>50 / X=24) \;= \; P\left(Z>\frac{50-36.2}{8}\right)\;= \; P(Z>1.725) \;= \; 0.04226 \]
El código para escribir la expresión anterior es:
$$P(Y>50 / X=24) \;= \; P\left(Z>\frac{50-36.2}{8}\right)\;= \; P(Z>1.725) \;= \; 0.04226 $$
En R se utiliza la función “pnorm()” para calcular esta probabilidad:
pnorm(50, mean=36.2, sd=8, lower.tail = FALSE)
## [1] 0.04226374
pnorm(1.725, lower.tail = FALSE)
## [1] 0.04226374
Por consiguiente, la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 24, es de 0.04226.
Nos piden calcular \(P(Y>50 / X=25)\). Análogo a la parte (a) para \(X=25\), \(Y\) tiene media, varianza y desviación
\[E(Y/X=25) = 65 - (1,2)(25)=35, \qquad V(Y/X=25) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]
respectivamente.
El código para escribir la expresión anterior es:
$$E(Y/X=25) = 65 - (1,2)(25)=35, \qquad V(Y/X=25) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$
Por lo tanto, obtenemos
\[P(Y>50 / X=25) \;= \; P\left(Z>\frac{50-35}{8}\right)\;= \; P(Z>1.875)\;= \; 0.0304 \]
El código para escribir la expresión anterior es:
$$P(Y>50 / X=25) \;= \; P\left(Z>\frac{50-35}{8}\right)\;= \; P(Z>1.875)\;= \; 0.0304 $$
En R se utiliza la función “pnorm()” para calcular esta probabilidad:
pnorm(50, mean=35, sd=8, lower.tail = FALSE)
## [1] 0.03039636
pnorm(1.875, lower.tail = FALSE)
## [1] 0.03039636
Por consiguiente, la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 25, es de 0.0304.
Sea \(Y_{25}\) y \(Y_{24}\) las observaciones de \(Y\) cuando \(x=24\) y \(x=25\), respectivamente. El supuesto de normalidad de los errores implica nuevamente que la variable \(Y_{25}-Y_{24}\) sea también normal. Ahora, por los incisos anteriores, podemos hallar la media, varianza y desviación de \(Y_{25}-Y_{24}\). La media es \[E(Y_{25}-Y_{24}) \;=\; E(Y_{25})- E(Y_{24}) \;= \; 35 - 36.2 \; = \;-1.2\]
El código para escribir la expresión anterior es:
$$E(Y_{25}-Y_{24}) \;=\; E(Y_{25})- E(Y_{24}) \;= \; 35 - 36.2 \; = \;-1.2$$
Teniendo en cuenta la independencia de las variables \(Y_{25}\) y \(Y_{24}\), la varianza es:
\[V(Y_{25}-Y_{24}) \;=\; V(Y_{25})+ V(Y_{24}) \;= \; 64 + 64 \; = \;128,\]
El código para escribir la expresión anterior es:
$$V(Y_{25}-Y_{24}) \;=\; V(Y_{25})+ V(Y_{24}) \;= \; 64 + 64 \; = \;128$$
La desviación es la raiz cuadrada de la varianza: \[\sigma \; =\; \sqrt{128} \; = \; 11.3137\]
El código para escribir la expresión anterior es:
$$\sigma \; =\; \sqrt{128} \; = \; 11.3137$$
Sea \(Y_{25}\) y \(Y_{24}\) las observaciones de \(Y\) cuando \(x=24\) y \(x=25\), respectivamente. Nos piden calcular \(P(Y_{25}>Y_{24})\). Teniendo en cuenta la distribución normal, tenemos
\[P(Y_{25}>Y_{24}) \;= \; P(Y_{25}-Y_{24} >0)\;= \; P\left(Z>\frac{0-(-1.2)}{11.3137}\right)\;= \; P(Z>0.10607) \;= \; 0.4577\]
El código para escribir la expresión anterior es:
$$P(Y_{25}>Y_{24}) \;= \; P(Y_{25}-Y_{24} >0)\;= \; P\left(Z>\frac{0-(-1.2)}{11.3137}\right)\;= \; P(Z>0.10607) \;= \; 0.4577$$
En R se utiliza la función “pnorm()” para calcular esta probabilidad:
pnorm(0, mean=-1.2, sd=sqrt(128), lower.tail = FALSE)
## [1] 0.457765
pnorm(0.10607, lower.tail = FALSE)
## [1] 0.4577634
Con base en el resultado anterior, podemos concluir lo siguiente: aun cuando esperemos que \(Y\) disminuya al aumentar \(X\) en una unidad, no es probable que la \(Y\) observada en \(X=x+1\) sea más grande que la \(Y\) observada en \(X=x\).
Los siguientes datos representan los incrementos \(x\) en gastos de publicidad (en porcentajes) y los incrementos \(y\) en las ventas (en millones de pesos) de 9 centros comerciales en comparación con los del año pasado.
Supóngase que las ventas (\(y\)) dependen linealmente de los incrementos porcentuales (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]
Supongamos que se cumplen los supuestos del modelo de regresión y que el error \(\epsilon\) está normalmente distribuida con media 0 y desviación \(\sigma=20\). Calcule la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10%.
El supuesto de normalidad de los errores implica que la variable \(Y\) también es normal. Además, por la sección anterior, para \(X=10\), \(Y\) tiene media, varianza y desviación
\[E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad V(Y/x=10) \;= \; 20^2 \;= \; 400 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]
respectivamente.
El código para escribir la expresión anterior es:
$$E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad V(Y/x=10) \;= \; 20^2 \;= \; 400 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$
Por consiguiente,
\[\begin{eqnarray*} P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\ &=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188 \end{eqnarray*}\]
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\
&=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188
\end{eqnarray*}
En R:
mu <- 75.75
sigma <- 20
x1 <- 65
x2 <- 100
z1 <- (x1 -mu)/sigma
z2 <- (x2 -mu)/sigma
probabilidad_g <- pnorm(z2) -pnorm(z1)
probabilidad_g
## [1] 0.5918783
En conclusión, la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10% es de 0.59188.
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo. Interprete los resultados hallados.
Supóngase que las ventas (\(y\)) dependen linealmente de los tamaños (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]
Suponiendo que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 8. Realizar los siguientes incisos.
Un estudio consideró la regresión del desgaste de una llanta de carro (\(y\)) y su relación con la carga (\(x\)). Suponga que la ecuación de la verdadera recta de regresión es \(y=1800 +1.3x\) y que la desviación estándar de la variable aleatoria \(\epsilon\), que representa el error, es 350.
La tasa de conversión \(y\) de cierta materia prima a un producto depende de la temperatura de reacción \(x\) (en grados centígrados). Suponga que para valores de \(x\) entre 5 y 20, las dos variables están relacionadas con el modelo de regresión lineal simple con la recta verdadera de regresión \(y=-0.12+ 0.095x\).
Suponga que el costo aproximado de un frasco de detergente está relacionado con el volumen del frasco por la ecuación \(y=4.000+10x\). Representemos con \(Y\) una observación sobre costo de un frasco de detergente. Si las variables volumen y costo están relacionadas según el modelo de regresión lineal simple, ¿podrían obtenerse las probabilidades de abajo? Explique.
\[P(Y>5500, \; \text{cuando}\; x=100)=0.05 \quad \text{y}\quad P(Y>6500,\; \text{cuando} \; x=200)=0.10\]
LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org