Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 6 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.

1 Preliminares

  1. La relación más sencilla entre dos variables \(x\) y \(y\) es una relación lineal de la forma: \[y = \delta + \beta x\]
El código para escribir la expresión anterior es:

$$y = \delta + \beta x$$
  1. \(x\) se llama variable independiente (predictora o explicativa).

  2. Para \(x\) fija, \(y\) se llama variable dependiente o de respuesta.

  3. Los parámetros del modelo son la pendiente \(\beta\) y el intercepto \(\delta\) (punto de corte con el eje \(Y\)), entre otros.

  4. En las figuras de abajo, se muestran algunas situaciones que se pueden presentar dependiendo del valor de la pendiente.

a) Cuando la pendiente es positiva, la relación entre $x$ y $y$ es creciente. Es decir, a medida que $x$ aumenta, entonces, $y$ también aumenta.  

b) Cuando la pendiente es negativa, la relación entre $x$ y $y$ es decreciente. Es decir, a medida que $x$ aumenta, entonces, $y$ disminuye. 

c) Cuando la pendiente es cero, $y$ es constante y la recta es paralela al eje $X$.
  1. Por lo general, las observaciones se efectuarán para diversos valores \(x_1, \ldots, x_n\) de la variable independiente \(x\). Representaremos con \(Y_i\) y \(y_i\) la variable aleatoria y el valor asociado con \(x_i\). Entonces, la información disponible está formada por las \(n\) parejas \((x_i,y_i)\), \(i=1,\ldots, n\) (como se muestra, a manera de ejemplo, en la figura de abajo, para un cojunto de datos con \(n=6\) observaciones).

  1. Un primer paso en el análisis de regresión simple es trazar un diagrama de dispersión de los datos. En ese diagrama, cada pareja \((x_i,y_i)\) es un punto ubicado en un sistema coordenado bidimensional (como se muestra a manera de ejemplo en la figura de abajo).

2 El modelo

Supongamos que estamos interesados en conocer la relación entre una variable dependiente \(Y\) y una independiente \(X\). Si la variable aleatoria toma los valores \(x_i\), entonces, la ecuación de la recta (verdadera o poblacional) de regresión expresa los correspondientes valores \(Y_i\) como

\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]

donde \(\delta\) y \(\beta\) son constantes y \(\epsilon_i\), llamado término de error, es una variable aleatoria con media 0. Este modelo se llama modelo de regresión lineal simple.

El código para escribir la expresión anterior es:

$$Y_i \;= \; \delta + \beta x_i + \epsilon_i$$

3 Supuestos básicos

Denotemos la recta verdadera de regresión por \[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]

y asumamos que se dispone de \(n\) pares de observaciones. Suelen realizarse los siguientes supuestos:

  1. Cada \(x_i\) es un número fijo (asignado, por ejemplo, por un investigador), o es la realización de una variable aleatoria \(X_i\) independiente del término error \(\epsilon_i\). En el último caso, la inferencia se realiza condicionado al valor observado \(x_i\).

  2. Los términos de error \(\epsilon_i\) son variables aleatorias con media 0, es decir,

\[E(\epsilon_i)=0, \quad \text{para todo} \quad i=1, \ldots, n.\]

  1. Las variables aleatorias \(\epsilon_i\) tienen todas las mismas varianzas \(\sigma^2\), es decir,

\[V(\epsilon_i)=\sigma^2, \quad \text{para todo} \quad i=1, \ldots, n.\]

  1. Las variables aleatorias \(\epsilon_i\) no se hallan correlacionadas, luego,

\[E(\epsilon_i\epsilon_j)=0, \quad \text{para todo} \quad i,j=1, \ldots, n \quad \text{con}\quad i\ne j.\] En el resto de este capítulo, asumiremos que se verifican estos supuestos.

4 Esperanza y varianza

Denotemos la recta verdadera de regresión por

\[Y_i \;= \; \delta + \beta x_i + \epsilon_i\]

Si se cumplen los supuestos en el modelo de regresión, entonces, para un valor fijo \(x_i\) de \(X\), la esperanza y varianza condicionales de \(Y_i\) dado que \(X=x_i\) vienen dadas, respectivamente, por

\[E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2.\]

El código para escribir la expresión anterior es:

$$E(Y_i/X=x_i) = \delta + \beta x_i \qquad \text{y} \qquad V(Y_i/X=x_i) = \sigma^2$$

5 Ejemplo 1: Enunciado

Suponga que la relación entre la profundidad del océano \(X\) y la temperatura del agua \(Y\) está descrito por el modelo de regresión lineal simple con la verdadera recta de regresión

\[Y\; =\; 65\; -\; 1.2x \;+\; \epsilon\]

y supongamos que se cumplen los supuestos del modelo de regresión y que el error \(\epsilon\) está normalmente distribuida con media 0 y desviación \(\sigma=8\).

a) Halle la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 24.
b) Halle la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 25.
c) Suponga que Y_{25} representa una observación sobre la temperatura cuando X=25 y que Y_{24} simboliza una observación independiente con X=24. Halle la media, varianza y desviación de Y_{25}-Y_{24}. 
d) Utilice los resultados del inciso (c) para hallar la probabilidad de que Y_{25} exceda Y_{24}.

6 Ejemplo 1: Solución

6.0.1 Solución parte (a)

Nos piden calcular \(P(Y>50 / X=24)\). El supuesto de normalidad de los errores implica que la variable \(Y\) también es normal. Además, por la sección anterior, para \(X=20\), \(Y\) tiene media, varianza y desviación

\[E(Y/X=20) = 65 - (1,2)(24)=36.2, \qquad V(Y/X=24) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]

respectivamente.

El código para escribir la expresión anterior es:

$$E(Y/X=20) = 65 - (1,2)(24)=36.2, \qquad  V(Y/X=24) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$

Por consiguiente,

\[P(Y>50 / X=24) \;= \; P\left(Z>\frac{50-36.2}{8}\right)\;= \; P(Z>1.725) \;= \; 0.04226 \]

El código para escribir la expresión anterior es:

$$P(Y>50 / X=24) \;= \; P\left(Z>\frac{50-36.2}{8}\right)\;= \; P(Z>1.725) \;= \; 0.04226 $$

En R se utiliza la función “pnorm()” para calcular esta probabilidad:

pnorm(50, mean=36.2, sd=8, lower.tail = FALSE)
## [1] 0.04226374
pnorm(1.725, lower.tail = FALSE)
## [1] 0.04226374

Por consiguiente, la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 24, es de 0.04226.

6.0.2 Solución parte (b)

Nos piden calcular \(P(Y>50 / X=25)\). Análogo a la parte (a) para \(X=25\), \(Y\) tiene media, varianza y desviación

\[E(Y/X=25) = 65 - (1,2)(25)=35, \qquad V(Y/X=25) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]

respectivamente.

El código para escribir la expresión anterior es:

$$E(Y/X=25) = 65 - (1,2)(25)=35,  \qquad V(Y/X=25) = 8^2 = 64 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$

Por lo tanto, obtenemos

\[P(Y>50 / X=25) \;= \; P\left(Z>\frac{50-35}{8}\right)\;= \; P(Z>1.875)\;= \; 0.0304 \]

El código para escribir la expresión anterior es:

$$P(Y>50 / X=25) \;= \; P\left(Z>\frac{50-35}{8}\right)\;= \; P(Z>1.875)\;= \; 0.0304 $$

En R se utiliza la función “pnorm()” para calcular esta probabilidad:

pnorm(50, mean=35, sd=8, lower.tail = FALSE)
## [1] 0.03039636
pnorm(1.875, lower.tail = FALSE)
## [1] 0.03039636

Por consiguiente, la probabilidad de que la temperatura del agua sea mayor que 50, cuando la profundidad del océano es de 25, es de 0.0304.

6.0.3 Solución parte (c)

Sea \(Y_{25}\) y \(Y_{24}\) las observaciones de \(Y\) cuando \(x=24\) y \(x=25\), respectivamente. El supuesto de normalidad de los errores implica nuevamente que la variable \(Y_{25}-Y_{24}\) sea también normal. Ahora, por los incisos anteriores, podemos hallar la media, varianza y desviación de \(Y_{25}-Y_{24}\). La media es \[E(Y_{25}-Y_{24}) \;=\; E(Y_{25})- E(Y_{24}) \;= \; 35 - 36.2 \; = \;-1.2\]

El código para escribir la expresión anterior es:

$$E(Y_{25}-Y_{24}) \;=\; E(Y_{25})- E(Y_{24}) \;= \; 35 - 36.2 \; = \;-1.2$$

Teniendo en cuenta la independencia de las variables \(Y_{25}\) y \(Y_{24}\), la varianza es:

\[V(Y_{25}-Y_{24}) \;=\; V(Y_{25})+ V(Y_{24}) \;= \; 64 + 64 \; = \;128,\]

El código para escribir la expresión anterior es:

$$V(Y_{25}-Y_{24}) \;=\; V(Y_{25})+ V(Y_{24}) \;= \; 64 + 64 \; = \;128$$

La desviación es la raiz cuadrada de la varianza: \[\sigma \; =\; \sqrt{128} \; = \; 11.3137\]

El código para escribir la expresión anterior es:

$$\sigma \; =\; \sqrt{128} \; = \; 11.3137$$

6.0.4 Solución parte (d)

Sea \(Y_{25}\) y \(Y_{24}\) las observaciones de \(Y\) cuando \(x=24\) y \(x=25\), respectivamente. Nos piden calcular \(P(Y_{25}>Y_{24})\). Teniendo en cuenta la distribución normal, tenemos

\[P(Y_{25}>Y_{24}) \;= \; P(Y_{25}-Y_{24} >0)\;= \; P\left(Z>\frac{0-(-1.2)}{11.3137}\right)\;= \; P(Z>0.10607) \;= \; 0.4577\]

El código para escribir la expresión anterior es:

$$P(Y_{25}>Y_{24}) \;= \; P(Y_{25}-Y_{24} >0)\;= \; P\left(Z>\frac{0-(-1.2)}{11.3137}\right)\;= \; P(Z>0.10607) \;= \; 0.4577$$

En R se utiliza la función “pnorm()” para calcular esta probabilidad:

pnorm(0, mean=-1.2, sd=sqrt(128), lower.tail = FALSE)
## [1] 0.457765
pnorm(0.10607, lower.tail = FALSE)
## [1] 0.4577634

Con base en el resultado anterior, podemos concluir lo siguiente: aun cuando esperemos que \(Y\) disminuya al aumentar \(X\) en una unidad, no es probable que la \(Y\) observada en \(X=x+1\) sea más grande que la \(Y\) observada en \(X=x\).

7 Ejemplo 2: Enunciado

Los siguientes datos representan los incrementos \(x\) en gastos de publicidad (en porcentajes) y los incrementos \(y\) en las ventas (en millones de pesos) de 9 centros comerciales en comparación con los del año pasado.

Supóngase que las ventas (\(y\)) dependen linealmente de los incrementos porcentuales (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]

Supongamos que se cumplen los supuestos del modelo de regresión y que el error \(\epsilon\) está normalmente distribuida con media 0 y desviación \(\sigma=20\). Calcule la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10%.

8 Ejemplo 2: Solución

El supuesto de normalidad de los errores implica que la variable \(Y\) también es normal. Además, por la sección anterior, para \(X=10\), \(Y\) tiene media, varianza y desviación

\[E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad V(Y/x=10) \;= \; 20^2 \;= \; 400 \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,\]

respectivamente.

El código para escribir la expresión anterior es:

$$E(Y/x=10) \;= \; 61.58 + (1.417)(10)\;= \;75.75, \qquad  V(Y/x=10) \;= \; 20^2 \;= \; 400  \qquad \text{y} \qquad \sigma \;=\; \sqrt{400}\;=\; 20,$$

Por consiguiente,

\[\begin{eqnarray*} P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\ &=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188 \end{eqnarray*}\]

El código para escribir la expresión anterior es:

\begin{eqnarray*}
P(65 < Y < 100 \,/\, x= 10) &=& P\Big(\frac{65 - 75.75}{20} < Z <\frac{100-75.75}{20}\Big) \\
&=& P(Z < 1.2125) - P(Z < -0.5375) \; = \; 0.88734 - 0.29546 \; = \; 0.59188
\end{eqnarray*}

En R:

mu <- 75.75
sigma <-  20
x1 <- 65
x2 <- 100
z1 <- (x1 -mu)/sigma
z2 <- (x2 -mu)/sigma
probabilidad_g <- pnorm(z2) -pnorm(z1) 
probabilidad_g
## [1] 0.5918783

En conclusión, la probabilidad de que el incremento promedio en las ventas esté entre 65 y 100 millones de pesos cuando el incremento en gastos de publicidad sea del 10% es de 0.59188.

9 Ejercicios

Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo. Interprete los resultados hallados.

  1. En los últimos 25 años, una cadena de tiendas de descuento en ropa para dama ha aumentado su porcentaje de mercado con el incremento en el número de tiendas. Nunca empleó su enfoque sistemático en la selección del lugar. Esta se basó, en esencia, en los que se consideró un gran sitio o una buena renta. Este añoo, con un plan estratégico para abrir varias tiendas nuevas, se pidió al director de proyectos especiales y planeación que desarrollara un enfoque para predecir las ventas anuales en todas las tiendas nuevas. Suponga que se decidió examinar la relación entre el tamaño (en metros cuadrados) de una tienda y sus ventas anuales con la selección de una muestra de 6 tiendas. Los resultados para estas 6 tiendas se resumen en la tabla de abajo.

Supóngase que las ventas (\(y\)) dependen linealmente de los tamaños (\(x\)) a través de un modelo de regresión lineal simple, de la forma: \[Y\; =\; \delta\; +\; \beta x \;+\; \epsilon\]

Suponiendo que se verifican los supuestos básicos para el modelo de regresión lineal (y el de normalidad) y que la desviación del error aleatorio del modelo es 8. Realizar los siguientes incisos.

  1. Calcule la probabilidad de que la venta anual es menor o igual que 60 millones de pesos si el tamaño de la tienda fue de 300 metros cuadrados.
  2. Calcule la probabilidad de que la venta anual es mayor que 55 millones de pesos si el tamaño de la tienda fue de 400 metros cuadrados.
  3. Calcule la probabilidad de que la venta anual está entre 35 y 76 millones de pesos si el tamaño de la tienda fue de 200 metros cuadrados.
  4. Calcule la probabilidad de que la venta anual es a lo más 85 millones de pesos si el tamaño de la tienda fue de 500 metros cuadrados.
  1. Un estudio consideró la regresión del desgaste de una llanta de carro (\(y\)) y su relación con la carga (\(x\)). Suponga que la ecuación de la verdadera recta de regresión es \(y=1800 +1.3x\) y que la desviación estándar de la variable aleatoria \(\epsilon\), que representa el error, es 350.

    1. ¿Cuál es el valor esperado del desgaste cuando la carga es 2500?
    2. ¿Cuánto podemos esperar que cambie el desgaste cuando la carga aumenta en 1? ¿Cuando aumenta en 100? ¿Cuando disminuye en 100?
    3. ¿Cuál es la probabilidad de que el valor observado del desgaste exceda a 5000 cuando el valor de la carga es 2000?
    4. Reconsidere el inciso (c), pero con 2500 en lugar de 2.000.
    5. Considere realizar dos observaciones independientes en el desgaste, la primera para una carga de 2000 y la segunda para 2500. ¿Cuál es la probabilidad de que la segunda observación exceda a la primera en más de 1000?
    6. Represente con \(Y_1\) y \(Y_2\) las observaciones en el desgaste cuando \(x=x_1\) y \(x=x_2\), respectivamente. ¿En cuánto tendría que exceder \(x_2\) a \(x_1\) para que \(P(Y_2>Y_1)=0.95\)?
  2. La tasa de conversión \(y\) de cierta materia prima a un producto depende de la temperatura de reacción \(x\) (en grados centígrados). Suponga que para valores de \(x\) entre 5 y 20, las dos variables están relacionadas con el modelo de regresión lineal simple con la recta verdadera de regresión \(y=-0.12+ 0.095x\).

    1. ¿Cuál es el cambio esperado en la tasa de conversión asociado con un aumento de 1 grado centígrado en la temperatura de reacción? Explique.
    2. ¿Qué cambio en la tasa de conversión se puede esperar cuando la temperatura disminuye en 5 grados centígrados?
    3. ¿Cuál es la tasa de conversión esperada para una temperatura de 10 grados centígrados?
    4. Suponga que la desviación estándar de la variable aleatoria \(\epsilon\), que representa el error, es 0.025 y considere una temperatura de 10 grados centígrados. ¿Cuál es la probabilidad de que el valor observado de la tasa de conversión exceda 0.835? ¿Y de que la tasa de conversión observado exceda 0.840?
    5. ¿Cuál es la probabilidad de que una observación en la tasa de conversión, cuando la temperatura sea de 10 grados centígrados, exceda una observación en la tasa de conversión realizada cuando la temperatura sea de 11 grados centígrados?
  3. Suponga que el costo aproximado de un frasco de detergente está relacionado con el volumen del frasco por la ecuación \(y=4.000+10x\). Representemos con \(Y\) una observación sobre costo de un frasco de detergente. Si las variables volumen y costo están relacionadas según el modelo de regresión lineal simple, ¿podrían obtenerse las probabilidades de abajo? Explique.

\[P(Y>5500, \; \text{cuando}\; x=100)=0.05 \quad \text{y}\quad P(Y>6500,\; \text{cuando} \; x=200)=0.10\]

  1. Suponga que la resistencia \(y\) al esfuerzo cortante de un suelo está relacionada con la profundidad \(x\) (en centímetros) donde tiene lugar la relación, todo esto según el modelo de regresión lineal simple con ecuación \(y=5-0.01x\) y \(\sigma=0.075\).
    1. ¿Cuál es el cambio esperado en resistencia para un aumento de 1 centímetro en profundidad? ¿Y para un aumento de 10 centímetros?
    2. ¿Cuál es la resistencia esperada cuando la profundidad sea de 200 centímetros? ¿Y cuando sea de 250 centímetros?
    3. Suponga que se toman 5 observaciones independientes de resistencias, cada una para una profundidad de 250 centímetros. ¿Cuál es la probabilidad de que las 5 resistencias estén entre 2.4 y 2.6?
    4. ¿Cuál es la probabilidad de que dos resistencias independientes, observadas para una profundidad de 1 centímetro, sean tales que la resistencia de la profundidad más alta exceda la resistencia de la profundidad más baja?

10 Enlaces y materiales de ayuda

  1. LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.

  2. Geogebra: https://www.geogebra.org