Última actualización: 30/03/2023
Se toma una muestra de 49 observaciones de una población normal con una desviación estándar de 10. La media de la muestra es de 55. Determine el intervalo de confianza de 99% de la media poblacional.
> n <- 49
> xbar <- 55
> sigma <- 10
> # IC = 0.99
> (z <- qnorm(1-0.01/2))
> [1] 2.575829
> xbar - z * sigma / sqrt(n)
> [1] 51.32024
> xbar + z * sigma / sqrt(n)
> [1] 58.67976
Alternativamente,
> library(BSDA)
> x <- rep(55, 49)
> z.test(x = x, sigma.x = 10, conf.level = 0.99,
+ alternative = "two.sided")
>
> One-sample z-Test
>
> data: x
> z = 38.5, p-value < 2.2e-16
> alternative hypothesis: true mean is not equal to 0
> 99 percent confidence interval:
> 51.32024 58.67976
> sample estimates:
> mean of x
> 55
Una de las preguntas más apremiantes en la industria de la música es: ¿Las tiendas de pago en internet son competitivas frente a los servicios gratuitos para bajar música proporcionados por los portales de usuarios para usuarios (P2P)? Los datos recopilados durante los últimos 12 meses revelaron que, en promedio, 1.65 millones de hogares usaban iTunes, de Apple, con una desviación estándar de 0.56 millones unidades familiares. Durante los mismos 12 meses, un promedio de 2.2 millones de familias usaban WinMx (un servicio de descarga P2P gratuito) con una desviación estándar de la muestra de 0.30 millones. Suponga que las desviaciones estándares de las poblaciones no son iguales. Con un nivel de significancia de 0.05, pruebe la hipótesis de que no hay diferencia entre los números medios de hogares que eligen cualquiera de los dos servicios de descarga de música.
\[\text{gl} = \frac{[(s_{1}^{2} /n_1) + (s_{2}^{2} /n_2)]^2}{\frac{(s_1^2/n_1)^2}{n_1 -1} + \frac{(s_2^2/n_2)^2}{n_2 -1}} = \frac{[(0.3136 /12) + (0.0900 /12)]^2}{\frac{(0.3136/12)^2}{12-1} + \frac{(0.0900/12)^2}{12-1}} = 16.37 \rightarrow 16 \text{gl}\]
> xbar_1 <- 1.65
> xbar_2 <- 2.2
> s_1 <- 0.56
> s_2 <- 0.30
> n_1 <- 12
> n_2 <- 12
> (gl <- ((s_1^2 / n_1) + (s_2^2 / n_2))^2 /
+ (((s_1^2 / n_1)^2 / (n_1 -1)) + ((s_2^2/ n_2)^2 / (n_2 - 1))))
> [1] 16.83332
\[H_0: \mu_a = \mu_w \qquad H_1: \mu_a \neq \mu_w\]
> c(qt(p = 0.05 / 2, df = 16), qt(p = 1 - 0.05 / 2, df = 16))
> [1] -2.119905 2.119905
Se debe rechazar \(H_0\) si \(t<-20120\) o \(t>2.120\)
\[t = \frac{\bar{X_1}-\bar{X_2}}{\sqrt{ \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} = \frac{1.65-2.20}{\sqrt{ \frac{0.3136}{12} + \frac{0.0900}{12}}} = -3.00\]
> t <- (xbar_1 - xbar_2) / sqrt((s_1^2 / n_1) + (s_2^2 / n_2) )
> t
> [1] -2.999009
Se dan las siguientes hipótesis.
\[H_0: \rho \leq 0 \qquad H_1: \rho >0\]
Una muestra aleatoria de 12 observaciones pareadas indicó una correlación de \(0.32\). ¿Se puede concluir que la correlación en la población es mayor que cero? Utilice el nivel de significancia de \(0.05\)
Se debe rechazar \(H_0\) cuando \(t > 1.81\):
> qt(p = 1 - 0.05, df = 12-2)
> [1] 1.812461
\[t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{.32\sqrt{12-2}}{\sqrt{1-(.32)^2}}=1.068\]
Por lo tanto no se rechaza \(H_0\)
Las siguientes observaciones muestrales se seleccionaron al azar.
> x <- c(4, 5, 3, 6, 10)
> y <- c(4, 6, 5, 7, 7)
a) Ecuación de regresión
Hay que encontrar \(\hat{Y} = a +bX\)
Para encontrar la pendiente \(b\), tenemos: \(b=r \frac{S_y}{S_x}\)
donde
\(r\) es el coeficiente de correlación
\(S_y\) es la desviación estándar de \(Y\)
\(S_x\) es la desviación estándar de \(X\)
por lo tanto,
> (b <- cor(x, y) * (sd(y) / sd(x)))
> [1] 0.3630137
\(b=r \frac{S_y}{S_x} = 0.75 \frac{1.30}{2.70} = 0.36\)
Para encontrar la intersección con el eje y \(a\), tenemos \(a = \bar{Y} - b \bar{X}\)
donde
\(\bar{Y}\) es la media de \(Y\)
\(\bar{X}\) es la media de \(X\)
> (a <- mean(y) - b * mean(x))
> [1] 3.767123
Por lo tanto la ecuación de regresión es \(\hat{Y} = a + bX = 3.77 + 0.36X\)
Para comprobarlo, utilizamos la fórmula de modelo lineal de R
> model <- lm(y ~ x)
> summary(model)
>
> Call:
> lm(formula = y ~ x)
>
> Residuals:
> 1 2 3 4 5
> -1.2192 0.4178 0.1438 1.0548 -0.3973
>
> Coefficients:
> Estimate Std. Error t value Pr(>|t|)
> (Intercept) 3.7671 1.1196 3.365 0.0436 *
> x 0.3630 0.1836 1.977 0.1424
> ---
> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>
> Residual standard error: 0.992 on 3 degrees of freedom
> Multiple R-squared: 0.5659, Adjusted R-squared: 0.4212
> F-statistic: 3.91 on 1 and 3 DF, p-value: 0.1424
Residuals es la diferencia entre los valores reales y
los predichos. Se puede generar el mismo resultado tomando los valores
reales y restándolo de los valores predichos del modelo:
> (y - model$fitted.values)
> 1 2 3 4 5
> -1.2191781 0.4178082 0.1438356 1.0547945 -0.3972603
O de manera alternativa:
> model$residuals
> 1 2 3 4 5
> -1.2191781 0.4178082 0.1438356 1.0547945 -0.3972603
Además,
> summary(y - model$fitted.values)
> Min. 1st Qu. Median Mean 3rd Qu. Max.
> -1.2192 -0.3973 0.1438 0.0000 0.4178 1.0548
Tenemos que \(RSS\) es
> (RSS <- sum((y - model$fitted.values)^2))
> [1] 2.952055
Además \(RSE\) es
> (RSE <- sqrt(RSS / (5-2)))
> [1] 0.9919769
En resumen, y_pred <- a + b * X, donde X
es cualquier valor de la variable independiente que se seleccione.
b) Valor de \(\hat{Y}\) cuando \(X\) es 7
Reemplazamos el valor de \(X=7\) en \(\hat{Y}\)
> (y_pred <- 3.7671 +0.3630*(7))
> [1] 6.3081