datos <- c(10.44,10.52,10.42,10.66,10.53,10.42,10.55,10.57,10.56,10.47,10.65,10.54,
10.44,10.28,10.61,10.50,10.50,10.59,10.58,10.56,10.59,10.58,10.51,10.30,
10.56,10.49,10.48,10.35,10.45,10.54,10.64,10.49,10.54,10.49,10.36,10.46,
10.46,10.49,10.61,10.58,10.48,10.47,10.57,10.56,10.43,10.43,10.54,10.58,
10.49,10.59,10.54,10.44,10.53,10.39,10.64,10.70,10.46,10.40,10.56,10.49,
10.74,10.50,10.57,10.50,10.43,10.52,10.32,10.65,10.52,10.72,10.55,10.43,
10.56,10.41,10.37,10.53,10.46,10.50,10.51,10.44,10.44,10.49,10.62,10.35,
10.56,10.53,10.61,10.47,10.54,10.53,10.45,10.62,10.62,10.57,10.66,10.56,
10.37,10.44,10.38,10.45)
Solución: - Prueba de hipótesis e intervalos de confianza:
# datos
# tamaño de muetra
print(n <- length(datos))
## [1] 100
# promedio muestral
print(xb <- mean(datos))
## [1] 10.5114
# desviacion estandar muestral
print(s <- sd(datos))
## [1] 0.0900395
# prueba de hipotesis
# H0: mu = 10 frente a mu != 10
# nivel de significancia
print(alpha <- 0.05)
## [1] 0.05
# estadistico de prueba
print(tc <- (xb - 10)/(s/sqrt(n)))
## [1] 56.7973
# region de rechazo (dos colas)
# x tales que |x| > t_{n-1,1-alpha/2}
print(percentil <- qt(p = 1-alpha/2, df = n-1))
## [1] 1.984217
# ¿el estadistico de prueba pertenece a la region de rechazo?
abs(tc) > percentil
## [1] TRUE
# valor p
print(valor_p <- 2*pt(q = tc, df = n-1, lower.tail = FALSE))
## [1] 2.318181e-77
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] TRUE
# decision
# rechazar H0
# intervalo de confinza
xb + c(-1,1)*qt(p = 1-alpha/2, df = n-1)*s/sqrt(n)
## [1] 10.49353 10.52927
# ¿el valor hipotetico hace parte del intervalo de confianza?
(xb - percentil*s/sqrt(n) < 10) & (10 < xb + percentil*s/sqrt(n))
## [1] FALSE
# conclusion
# hay suficiente evidencia para establecer que la balanza no esta calibrada
# prueba de normalidad de Shpiro-Wilk
shapiro.test(datos)
##
## Shapiro-Wilk normality test
##
## data: datos
## W = 0.99409, p-value = 0.9444
# graficos
par(mfrow=c(1,2))
# qqplot
qqnorm(datos, main = "")
qqline(datos, col = 2)
# histograma
hist(datos, freq = F, col = "gray95", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, 4.5))
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
# decision
# no rechazar H0
# conclusion
# no hay suficiente evidencia para establecer que los pesos no provienen de una
# poblacion con distribucion normal
Solución:
# datos
# tamaño de muetra
print(n <- 25)
## [1] 25
# promedio muestral
print(xb <- 3.72)
## [1] 3.72
# desviacion estandar muestral
print(s <- 1.93)
## [1] 1.93
# prueba de hipotesis
# H0: mu <= 4.0 frente a mu > 4.0
# nivel de significancia
print(alpha <- 0.01)
## [1] 0.01
# estadistico de prueba
print(tc <- (xb - 4.0)/(s/sqrt(n)))
## [1] -0.7253886
# region de rechazo (cola derecha)
# x tales que x < t_{n-1,alpha}
print(percentil <- qt(p = 1-alpha, df = n-1))
## [1] 2.492159
# ¿el estadistico de prueba pertenece a la region de rechazo?
tc > percentil
## [1] FALSE
# valor p
print(valor_p <- pt(q = tc, df = n-1, lower.tail = FALSE))
## [1] 0.7623861
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] FALSE
# decision
# no rechazar H0
# intervalo de confinza (unilateral)
c(xb - qt(p = 1-alpha, df = n-1)*s/sqrt(n), Inf)
## [1] 2.758026 Inf
# ¿el valor hipotetico hace parte del intervalo de confianza?
xb - qt(p = 1-alpha, df = n-1)*s/sqrt(n) < 4
## [1] TRUE
# conclusion
# no hay suficiente evidencia para establecer que se requiere de un dispositivo
# que disminuya la concentración de radón.
Solución:
# datos
# tamaño de muetra
print(n <- 50)
## [1] 50
# proporcion muestral
print(p <- 18/n)
## [1] 0.36
# prueba de hipotesis
# H0: pi >= 0.5 frente a pi < 0.5
# nivel de significancia
print(alpha <- 0.05)
## [1] 0.05
# estadistico de prueba
print(zc <- (p - 0.5)/sqrt(0.5*(1-0.5)/n))
## [1] -1.979899
# region de rechazo (cola izquierda)
# x tales que x < z_{alpha}
print(percentil <- qnorm(p = alpha))
## [1] -1.644854
# ¿el estadistico de prueba pertenece a la region de rechazo?
zc < percentil
## [1] TRUE
# valor p
print(valor_p <- pnorm(q = zc, lower.tail = TRUE))
## [1] 0.02385744
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] TRUE
# decision
# rechazar H0
# intervalo de confinza
c(-Inf, p + qnorm(p = 1-alpha)*sqrt(p*(1-p)/n))
## [1] -Inf 0.4716564
# ¿el valor hipotetico hace parte del intervalo de confianza?
0.5 < p + qnorm(p = 1-alpha)*sqrt(p*(1-p)/n)
## [1] FALSE
# conclusion
# hay suficiente evidencia para establecer que menos de la mitad de las incineradoras
# satisface los requerimientos ambientales
Establezca el sistema de hipótesis si la intención del investigador es identificar los estados que tienen un porcentaje de personas que no hacen ejercicio, diferente al 70% nacional.
Con un nivel de significancia de 5%, cuál es la conclusión en los estados siguientes estados:
Solución:
# datos
# tamaño de muetra
print(n <- 350)
## [1] 350
# proporcion muestral
print(p <- 252/n)
## [1] 0.72
# prueba de hipotesis
# H0: pi = 0.7 frente a pi != 0.7
# nivel de significancia
print(alpha <- 0.05)
## [1] 0.05
# estadistico de prueba
print(zc <- (p - 0.7)/sqrt(0.7*(1-0.7)/n))
## [1] 0.8164966
# region de rechazo (dos colas)
# x tales que |x| > z_{1-alpha/2}
print(percentil <- qnorm(p = 1-alpha/2))
## [1] 1.959964
# ¿el estadistico de prueba pertenece a la region de rechazo?
abs(zc) > percentil
## [1] FALSE
# valor p
print(valor_p <- 2*pnorm(q = zc, lower.tail = FALSE))
## [1] 0.4142162
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] FALSE
# decision
# no rechazar H0
# intervalo de confinza
p + c(-1,1)*qnorm(p = 1-alpha/2)*sqrt(p*(1-p)/n)
## [1] 0.6729609 0.7670391
# ¿el valor hipotetico hace parte del intervalo de confianza?
(p - qnorm(p = 1-alpha/2)*sqrt(p*(1-p)/n) < 0.7) & (0.7 < p + qnorm(p = 1-alpha/2)*sqrt(p*(1-p)/n))
## [1] TRUE
# conclusion
# no hay suficiente evidencia para establecer que la proporcion de personas que no hacen
# ejercicio en Winsconsin difiere del 70\% nacional
Solución:
# datos
print(n <- 18)
## [1] 18
# desviacion estandar muestral
print(s <- sqrt(0.36))
## [1] 0.6
# nivel de significancia
print(alpha <- 0.01)
## [1] 0.01
# intervalo de confianza
c((n-1)*s^2/qchisq(p = 1-alpha/2, df = n-1), (n-1)*s^2/qchisq(p = alpha/2, df = n-1))
## [1] 0.1713399 1.0742087
Solución:
# datos
# tamaño de muetra
print(n <- 30)
## [1] 30
# desviacion estandar muestral
print(s <- sqrt(0.0005))
## [1] 0.02236068
# prueba de hipotesis
# H0: sigma^2 <= 0.0004 frente a sigma^2 > 0.0004
# nivel de significancia
print(alpha <- 0.05)
## [1] 0.05
# estadistico de prueba
print(chic <- (n-1)*s^2/0.0004)
## [1] 36.25
# region de rechazo (cola derecha)
# x tales que x > chi_{n-1,1-alpha}
print(percentil <- qchisq(p = 1-alpha, df = n-1))
## [1] 42.55697
# ¿el estadistico de prueba pertenece a la region de rechazo?
chic > percentil
## [1] FALSE
# valor p
print(valor_p <- pchisq(q = chic, df = n-1, lower.tail = FALSE))
## [1] 0.1663945
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] FALSE
# decision
# no rechazar H0
# intervalo de confinza (unilateral)
c((n-1)*s^2/qchisq(p = 1-alpha, df = n-1), Inf)
## [1] 0.0003407198 Inf
# ¿el valor hipotetico hace parte del intervalo de confianza?
(n-1)*s^2/qchisq(p = 1-alpha, df = n-1) < 0.0004
## [1] TRUE
# conclusion
# no hay suficiente evidencia para establecer que el proceso se encuentra fuera
# de control en terminos de la variabilidad
Solución:
# datos
# tamaño de muetra 1: 75-80 mm de diámetro (pequeñas)
print(n1 <- 161)
## [1] 161
# tamaño de muetra 2: 90-95 mm de diámetro (grandes)
print(n2 <- 95)
## [1] 95
# proporcion muestral 1
print(p1 <- 19/n1)
## [1] 0.1180124
# proporcion muestral 2
print(p2 <- 22/n2)
## [1] 0.2315789
# prueba de hipotesis
# H0: pi1-pi2 >= 0 frente a pi1-pi2 < 0
# nivel de significancia
print(alpha <- 0.01)
## [1] 0.01
# estadistico de prueba
pc <- (n1*p1 + n2*p2)/(n1 + n2)
print(zc <- (p1-p2 - 0)/sqrt(pc*(1-pc)*(1/n1 + 1/n2)))
## [1] -2.393503
# region de rechazo (colo izquierda)
# x tales que x < z_{1-alpha}
print(percentil <- qnorm(p = alpha))
## [1] -2.326348
# ¿el estadistico de prueba pertenece a la region de rechazo?
zc < percentil
## [1] TRUE
# valor p
print(valor_p <- pnorm(q = zc, lower.tail = TRUE))
## [1] 0.008344182
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] TRUE
# decision
# rechazar H0
# intervalo de confinza
c(-Inf, p1-p2 + qnorm(p = 1-alpha)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2))
## [1] -Inf 0.003207173
# ¿el valor hipotetico hace parte del intervalo de confianza?
0 < p1-p2 + qnorm(p = 1-alpha)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)
## [1] TRUE
# conclusion
# hay suficiente evidencia para establecer que las
# partículas más grandes tienen una probabilidad mayor de tener
# bacterias coliformes
# la diferencia entre los resultados que indican los intervalos de confianza
# y las pruebas de hipotesis se debe que a que los tamaños de muestra
# son altamente desbalanceados
Depresivos: \(n_1 =19\), \(\bar{x}_1=47\), \(s_1 = 7.8\).
Normales: \(n_2=22\), \(\bar{x}_2=53.1\), \(s_2 = 6.1\).
¿Hay evidencia significativa a favor de la afirmación de los autores?. ¿Qué es necesario suponer acerca de la población para llevar a cabo la inferencia estadística? ¿Por qué?
Solución:
# datos
# tamaño de muetra 1: depresivos
print(n1 <- 19)
## [1] 19
# tamaño de muetra 2: normales
print(n2 <- 22)
## [1] 22
# promedio muestral 1
print(xb1 <- 47)
## [1] 47
# promedio muestral 2
print(xb2 <- 53.1)
## [1] 53.1
# desviacion estandar muestral 1
print(s1 <- 7.8)
## [1] 7.8
# desviacion estandar muestral 2
print(s2 <- 6.1)
## [1] 6.1
# prueba de hipotesis
# H0: sigma^2_2/sigma^2_1 = 1 (homocedasticidad) frente a sigma^2_2/sigma^2_1 != 1 (heterocedastidad)
# nivel de significancia
print(alpha <- 0.05)
## [1] 0.05
# estadistico de prueba
print(f <- s1^2/s2^2)
## [1] 1.635044
# region de rechazo (dos colas)
# x tales que x < F_{n1-1,n2-1,alpha/2} o x > F_{n1-1,n2-1,1-alpha/2}
print(percentil1 <- qf(p = alpha/2, df1 = n1-1, df2 = n2-1))
## [1] 0.3932215
print(percentil2 <- qf(p = 1-alpha/2, df1 = n1-1, df2 = n2-1))
## [1] 2.461827
# ¿el estadistico de prueba pertenece a la region de rechazo?
(f < percentil1) | (f > percentil2)
## [1] FALSE
# valor p
p1 <- pf(q = f, df1 = n1-1, df2 = n2-1, lower.tail = TRUE) # cola inferior
p2 <- pf(q = f, df1 = n1-1, df2 = n2-1, lower.tail = FALSE) # cola superior
print(valor_p <- 2*min(p1, p2))
## [1] 0.2793941
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] FALSE
# decision
# no rechazar H0
# intervalo de confinza
c(s2^2/s1^2*qf(p = alpha/2, df1 = n1-1, df2 = n2-1), s2^2/s1^1*qf(p = 1-alpha/2, df1 = n1-1, df2 = n2-1))
## [1] 0.2404959 11.7441753
# ¿el valor hipotetico hace parte del intervalo de confianza?
(s2^2/s1^2*qf(p = alpha/2, df1 = n1-1, df2 = n2-1) < 1) & (1 < s2^2/s1^1*qf(p = 1-alpha/2, df1 = n1-1, df2 = n2-1))
## [1] TRUE
# conclusion
# no hay suficiente evidencia para establecer heterocedasticidad respecto a la variabilidad
# datos
# tamaño de muetra 1: depresivos
print(n1 <- 19)
## [1] 19
# tamaño de muetra 2: normales
print(n2 <- 22)
## [1] 22
# promedio muestral 1
print(xb1 <- 47)
## [1] 47
# promedio muestral 2
print(xb2 <- 53.1)
## [1] 53.1
# desviacion estandar muestral 1
print(s1 <- 7.8)
## [1] 7.8
# desviacion estandar muestral 2
print(s2 <- 6.1)
## [1] 6.1
# prueba de hipotesis
# H0: mu_1 - mu_2 >= 0 frente a mu_1 - mu_2 < 0
# nivel de significancia
print(alpha <- 0.05)
## [1] 0.05
# estadistico de prueba
# heterocedasatico: print(tc <- (xb1-xb2 - 0)/sqrt(s1^2/n1 + s2^2/n2))
print(sp <- sqrt(((n1-1)*s1^2 + (n2-1)*s2^2)/(n1 + n2 - 2)))
## [1] 6.936581
print(tc <- (xb1-xb2 - 0)/(sp*sqrt(1/n1 + 1/n2)))
## [1] -2.807893
# region de rechazo (cola izquierda)
# x tales que x < t_{v,alpha}
# heterocedastico: (v <- round( (s1^2/n1 + s2^2/n2)^2/( (s1^2/n1)^2/(n1-1) + (s2^2/n2)^2/(n2-1) ), 0) )
v <- n1 + n2 - 2
print(percentil <- qt(p = alpha, df = v))
## [1] -1.684875
# ¿el estadistico de prueba pertenece a la region de rechazo?
tc < percentil
## [1] TRUE
# valor p
print(valor_p <- pt(q = tc, df = v))
## [1] 0.003874364
# ¿el valor p es menor que el nivel de significancia?
valor_p < alpha
## [1] TRUE
# decision
# rechazar H0
# intervalo de confinza
# heterocedastico: c(-Inf, xb1-xb2 + qt(p = 1-alpha, df = v)*sqrt(s1^2/n1 + s2^2/n2))
c(-Inf, xb1-xb2 + qt(p = 1-alpha, df = v)*sp*sqrt(1/n1 + 1/n2))
## [1] -Inf -2.439698
# ¿el valor hipotetico hace parte del intervalo de confianza?
# heterocedastico: 0 < xb1-xb2 + qt(p = 1-alpha, df = v)*sqrt(s1^2/n1 + s2^2/n2)
0 < xb1-xb2 + qt(p = 1-alpha, df = v)*sp*sqrt(1/n1 + 1/n2)
## [1] FALSE
# conclusion
# hay suficiente evidencia para establecer que los pacientes con depresión
# tienen una función cortical por debajo de lo normal
Edad | Menos de 6h | 6h a 6.9h | 7h a 7.9h | 8h o más |
---|---|---|---|---|
49 años o menos | 38 | 60 | 77 | 65 |
50 años o más | 36 | 57 | 75 | 92 |
Solución:
Sistema de hipótesis:
\(H_0:\) Las horas de sueño y la edad son idependientes frente a \(H_1\): Las horas de sueño y la edad no son idependientes.
# datos
print(tabla <- matrix(data = c(38,36,60,57,77,75,65,92), nrow = 2, ncol = 4))
## [,1] [,2] [,3] [,4]
## [1,] 38 60 77 65
## [2,] 36 57 75 92
# prueba
chisq.test(x = tabla)
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 4.007, df = 3, p-value = 0.2607
# decision
# No rechazar la hipotesis nula
# conclusion
# no hay suficiente evidencia para establecer que las horas de sueño y la edad
# no son idependientes.