Última actualización: 30/03/2023

9. Estimación e intervalos de confianza

Ejercicio 9.1

Se toma una muestra de 49 observaciones de una población normal con una desviación estándar de 10. La media de la muestra es de 55. Determine el intervalo de confianza de 99% de la media poblacional.

Solución

> n <- 49
> xbar <- 55
> sigma <- 10
> # IC = 0.99
> (z <- qnorm(1-0.01/2))
> [1] 2.575829
> xbar - z * sigma / sqrt(n)
> [1] 51.32024
> xbar + z * sigma / sqrt(n)
> [1] 58.67976

Alternativamente,

> library(BSDA)
> x <- rep(55, 49)
> z.test(x = x, sigma.x = 10, conf.level = 0.99, 
+        alternative = "two.sided")
> 
>   One-sample z-Test
> 
> data:  x
> z = 38.5, p-value < 2.2e-16
> alternative hypothesis: true mean is not equal to 0
> 99 percent confidence interval:
>  51.32024 58.67976
> sample estimates:
> mean of x 
>        55

11. Pruebas de hipótesis de dos muestras

Ejercicio 41

Una de las preguntas más apremiantes en la industria de la música es: ¿Las tiendas de pago en internet son competitivas frente a los servicios gratuitos para bajar música proporcionados por los portales de usuarios para usuarios (P2P)? Los datos recopilados durante los últimos 12 meses revelaron que, en promedio, 1.65 millones de hogares usaban iTunes, de Apple, con una desviación estándar de 0.56 millones unidades familiares. Durante los mismos 12 meses, un promedio de 2.2 millones de familias usaban WinMx (un servicio de descarga P2P gratuito) con una desviación estándar de la muestra de 0.30 millones. Suponga que las desviaciones estándares de las poblaciones no son iguales. Con un nivel de significancia de 0.05, pruebe la hipótesis de que no hay diferencia entre los números medios de hogares que eligen cualquiera de los dos servicios de descarga de música.

Solución

\[\text{gl} = \frac{[(s_{1}^{2} /n_1) + (s_{2}^{2} /n_2)]^2}{\frac{(s_1^2/n_1)^2}{n_1 -1} + \frac{(s_2^2/n_2)^2}{n_2 -1}} = \frac{[(0.3136 /12) + (0.0900 /12)]^2}{\frac{(0.3136/12)^2}{12-1} + \frac{(0.0900/12)^2}{12-1}} = 16.37 \rightarrow 16 \text{gl}\]

> xbar_1 <- 1.65
> xbar_2 <- 2.2
> s_1 <- 0.56
> s_2 <- 0.30
> n_1 <- 12
> n_2 <- 12
> (gl <- ((s_1^2 / n_1) + (s_2^2 / n_2))^2 / 
+       (((s_1^2 / n_1)^2 / (n_1 -1)) + ((s_2^2/ n_2)^2 / (n_2 - 1))))
> [1] 16.83332

\[H_0: \mu_a = \mu_w \qquad H_1: \mu_a \neq \mu_w\]

> c(qt(p = 0.05 / 2, df = 16), qt(p = 1 - 0.05 / 2, df = 16))
> [1] -2.119905  2.119905

Se debe rechazar \(H_0\) si \(t<-20120\) o \(t>2.120\)

\[t = \frac{\bar{X_1}-\bar{X_2}}{\sqrt{ \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} = \frac{1.65-2.20}{\sqrt{ \frac{0.3136}{12} + \frac{0.0900}{12}}} = -3.00\]

> t <- (xbar_1 - xbar_2) / sqrt((s_1^2 / n_1) + (s_2^2 / n_2) )
> t
> [1] -2.999009
  1. Se rechaza la hipótesis nula, hay una diferencia.

13. Regresión lineal y correlación

Ejercicio 7

Se dan las siguientes hipótesis.

\[H_0: \rho \leq 0 \qquad H_1: \rho >0\]

Una muestra aleatoria de 12 observaciones pareadas indicó una correlación de \(0.32\). ¿Se puede concluir que la correlación en la población es mayor que cero? Utilice el nivel de significancia de \(0.05\)

Solución

Se debe rechazar \(H_0\) cuando \(t > 1.81\):

> qt(p = 1 - 0.05, df = 12-2)
> [1] 1.812461

\[t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{.32\sqrt{12-2}}{\sqrt{1-(.32)^2}}=1.068\]

Por lo tanto no se rechaza \(H_0\)

Ejercicio 13

Las siguientes observaciones muestrales se seleccionaron al azar.

> x <- c(4, 5, 3, 6, 10)
> y <- c(4, 6, 5, 7, 7)
  1. Determine la ecuación de regresión.
  2. Encuentre el valor de \(\hat{Y}\) cuando \(X\) es 7.

Solución

a) Ecuación de regresión

Hay que encontrar \(\hat{Y} = a +bX\)

Para encontrar la pendiente \(b\), tenemos: \(b=r \frac{S_y}{S_x}\)

donde

\(r\) es el coeficiente de correlación

\(S_y\) es la desviación estándar de \(Y\)

\(S_x\) es la desviación estándar de \(X\)

por lo tanto,

> (b <- cor(x, y) * (sd(y) / sd(x)))
> [1] 0.3630137

\(b=r \frac{S_y}{S_x} = 0.75 \frac{1.30}{2.70} = 0.36\)

Para encontrar la intersección con el eje y \(a\), tenemos \(a = \bar{Y} - b \bar{X}\)

donde

\(\bar{Y}\) es la media de \(Y\)

\(\bar{X}\) es la media de \(X\)

> (a <- mean(y) - b * mean(x))
> [1] 3.767123

Por lo tanto la ecuación de regresión es \(\hat{Y} = a + bX = 3.77 + 0.36X\)

Para comprobarlo, utilizamos la fórmula de modelo lineal de R

> model <- lm(y ~ x)
> summary(model)
> 
> Call:
> lm(formula = y ~ x)
> 
> Residuals:
>       1       2       3       4       5 
> -1.2192  0.4178  0.1438  1.0548 -0.3973 
> 
> Coefficients:
>             Estimate Std. Error t value Pr(>|t|)  
> (Intercept)   3.7671     1.1196   3.365   0.0436 *
> x             0.3630     0.1836   1.977   0.1424  
> ---
> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> 
> Residual standard error: 0.992 on 3 degrees of freedom
> Multiple R-squared:  0.5659,  Adjusted R-squared:  0.4212 
> F-statistic:  3.91 on 1 and 3 DF,  p-value: 0.1424

Residuals es la diferencia entre los valores reales y los predichos. Se puede generar el mismo resultado tomando los valores reales y restándolo de los valores predichos del modelo:

> (y - model$fitted.values)
>          1          2          3          4          5 
> -1.2191781  0.4178082  0.1438356  1.0547945 -0.3972603

O de manera alternativa:

> model$residuals
>          1          2          3          4          5 
> -1.2191781  0.4178082  0.1438356  1.0547945 -0.3972603

Además,

> summary(y - model$fitted.values)
>    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
> -1.2192 -0.3973  0.1438  0.0000  0.4178  1.0548

Tenemos que \(RSS\) es

> (RSS <- sum((y - model$fitted.values)^2))
> [1] 2.952055

Además \(RSE\) es

> (RSE <- sqrt(RSS / (5-2)))
> [1] 0.9919769

En resumen, y_pred <- a + b * X, donde X es cualquier valor de la variable independiente que se seleccione.

b) Valor de \(\hat{Y}\) cuando \(X\) es 7

Reemplazamos el valor de \(X=7\) en \(\hat{Y}\)

> (y_pred <- 3.7671 +0.3630*(7))
> [1] 6.3081