A partir de dos muestras obtenidas de dos poblaciones normalmente distribuidas se obtuvieron los siguientes datos:
Muestra A: \[ n_1 = 10,\sum x_1 = 21, \sum x^2_1 = 21 \] Muestra B: \[ n_2 = 16,\sum y_1 = 32, \sum y^2_1 = 136 \] ¿Podemos afirmar que no hay diferencias significativas entre los promedios de las poblaciones?
a. Datos
Con los datos del problema, calculamos las medidas agrupadas faltantes y completamos los datos:
\[\bar x =\frac{(\sum x_1)}{n_1}=\frac{21}{10}=2.1\] \[\bar y =\frac{(\sum y_1)}{n_2}=\frac{32}{16}=2.0\] \[S_1^2=\frac{(∑x_i^2 -n(x ̅)^2)}{(n_1-1)}=\frac{(92-10(2.1)^2)}{(10-1)}=5.322222\] \[S_2^2=\frac{(∑y_i^2 -n(y ̅)^2)}{(n_2-1)}=\frac{(136-16(2)^2)}{(16-1)}=4.8\] b. Planteamiento de hipótesis
Hipótesis nula: No hay diferencias significativas entre las medias:
\[H_0: μ_1=μ_2\]
Hipótesis alternativa: Existen diferencias significativas entre las medias.
\[H_1: μ_1≠μ_2\] c. Nivel de significación (no indicado en datos)
\[α=0.05\] d. Estadística de prueba
Sabemos que \(n<30\). Si asumimos: \(σ_x^2=σ_y^2= σ^2\), empleamos el estadístico de prueba ‘t-student’. Si \(H_0\) es verdadera, empleamos el Estadístico de prueba ‘t’ para \(t(n_1+n_2-2)\) grados de libertad: \[t=\frac{(x ̅-y ̅)}{\sqrt {(\frac{S_c^2}{n_1} +\frac{S_c^2}{n_2})}} ∽t(n_1+n_2-2)\] Previamente, calculamos la varianza común: \[S_C^2=\frac{(n_1-1) S_1^2+(n_2-1)S_2^2}{(n_1+n_2-2)}=\frac{(10-1)(5.32222)+(16-1)(4.8)}{10+16-2}⇒S_C^2=4.995833\] ‘t’ calculado \[t=\frac{(2.1-2)}{\sqrt{(\frac{4.995833}{10} )+(\frac{4.995833}{16})}}⇒t=0.110986\] Grados de libertad: \[n_1+n_2-2=10+16-2=24\] e. Región crítica
para \(α=0.05\) y prueba de hipótesis bilateral, en la distribución \(t_{(24)}\), se encuentra \[p=1-\frac{α}{2}=1-\frac{0.05}{2}=0.975\] \[t_{(1-\frac{α}{2},n_1+n_2-2)}=t_{(0.975,24)}=±2.064\] \[t_{calculado}=0.110986<t_{(0.975,24)}=2.064\] Como \(t_{calculado}<t_{crítico}\), no podemos rechazar la hipótesis nula. Se acepta \(H_0: μ_1=μ_2\)
Respuesta:
No hay evidencia suficiente para afirmar que haya diferencias significativas entre los promedios de las poblaciones.
Conociendo el procedimiento matemático, declaramos una función en R que nos permita desarrollar el ejercicio a partir de valores ingresados:
# Ejercicio 11: Prueba de hipótesis para dos medias de población,empleando estadístico ‘t de Student’.
# Medidas agrupadas y varianzas desconocidas que se asumen iguales
ttest_ejrc11 <- function(n1, sum_x1, sum2_x1,
n2, sum_y1, sum2_y1,
alpha = 0.05) {
#Paso 1: Calcular las medias muestrales
medx1<-sum_x1/n1
medy1<-sum_y1/n2
#Paso 2: Calcular la varianza común
S2n1 <- (sum2_x1 - (n1 * medx1^2)) / (n1 - 1)
S2n2 <- (sum2_y1 - (n2 * medy1^2)) / (n2 - 1)
S2comun <- ((S2n1 * (n1 - 1))+(S2n2 * (n2 - 1))) / (n1 + n2 - 2)
#Paso 3: Calcular el estadístico t
t_stat <- (medx1 - medy1) / sqrt((S2comun / n1) + (S2comun / n2))
#Paso 4: Calcular los grados de libertad
t_glib <- n1 + n2 - 2
#Paso 5: Calcular el valor crítico de t y el p-valor
t_crit <- qt(1 - alpha/2, t_glib)
p_value <- 2 * pt(-abs(t_stat), t_glib)
#Paso 6: Evaluar la hipótesis nula
decision <- if(abs(t_stat) > t_crit) {
"Se rechaza H0"
} else {
"Se acepta Ho"
}
#Paso 7: Gráfico
x <- seq(-4, 4, length.out = 1000) #Rango del gráfico de -4 a 4
y <- dt(x, t_glib) #Densidad de t en función de x
plot(x, y, type = "l", xlab = "t", ylab = "Densidad",
main = "Ejercicio 11: Distribución t de Student")
abline(v = c(-t_crit, t_crit), col = "blue", lty = 2) #Graficar R.C.
abline(v = t_stat, col = "red") #Graficar tcalculado
axis(1, at = seq(-4, 4, by = 1), labels = seq(-4, 4, by = 1)) #Definir marcas en el eje x
abline(v = seq(-4, 4, by = 1), col = "lightgray", lty = 3) #Agregar líneas verticales en cada unidad de x
legend("topright", c("Densidad t", "Valor crítico", "t calculado"),
col = c("black", "blue", "red"), lty = c(1, 2, 1),
cex = 0.8,xpd = TRUE, inset = c(0.02, 0.02)) #Generar leyenda
text(0, max(y)/2, decision, col = "green",cex=0.9) #Imprimir texto de decision
#Paso 8: Resultados de la función
return(list(medx1 = medx1,
medy1 = medy1,
S2n1 = S2n1,
S2n2 = S2n2,
S2comun = S2comun,
t_statistic = t_stat,
t_glib = t_glib,
p_value = p_value,
critical_value = t_crit,
decision = decision))
}
Ejecutamos la función con los datos del enunciado y generamos la imagen que incluya la distribución, la región de rechazo y el valor \(t_{calculado}\)
#Problema 11: Datos
resultado <- ttest_ejrc11(
n1 = 10, sum_x1 = 21, sum2_x1 = 92,
n2 = 16, sum_y1 = 32, sum2_y1 = 136
)
Finalmente, mostramos resultados e interpretación
#Imprimir resultados
print(resultado)
## $medx1
## [1] 2.1
##
## $medy1
## [1] 2
##
## $S2n1
## [1] 5.322222
##
## $S2n2
## [1] 4.8
##
## $S2comun
## [1] 4.995833
##
## $t_statistic
## [1] 0.1109863
##
## $t_glib
## [1] 24
##
## $p_value
## [1] 0.9125502
##
## $critical_value
## [1] 2.063899
##
## $decision
## [1] "Se acepta Ho"
#Decisión sobre la hipótesis nula H0 e interpretación
cat("\nDecisión:", resultado$decision, "\n")
##
## Decisión: Se acepta Ho
cat("\nInterpretación:\n")
##
## Interpretación:
if(resultado$decision == "Se rechaza H0") {
cat("Hay evidencia estadística suficiente para concluir que existe una diferencia significativa entre las medias de los dos grupos.\n")
} else {
cat("No hay evidencia estadística suficiente para concluir que existe una diferencia significativa entre las medias de los dos grupos.\n")
}
## No hay evidencia estadística suficiente para concluir que existe una diferencia significativa entre las medias de los dos grupos.