Prueba de hipótesis con ‘t de student’ para dos muestras independientes, varianzas iguales desconocidas

Ejercicio

A partir de dos muestras obtenidas de dos poblaciones normalmente distribuidas se obtuvieron los siguientes datos:

Muestra A: \[ n_1 = 10,\sum x_1 = 21, \sum x^2_1 = 21 \] Muestra B: \[ n_2 = 16,\sum y_1 = 32, \sum y^2_1 = 136 \] ¿Podemos afirmar que no hay diferencias significativas entre los promedios de las poblaciones?

Solución

a. Datos

Con los datos del problema, calculamos las medidas agrupadas faltantes y completamos los datos:

\[\bar x =\frac{(\sum x_1)}{n_1}=\frac{21}{10}=2.1\] \[\bar y =\frac{(\sum y_1)}{n_2}=\frac{32}{16}=2.0\] \[S_1^2=\frac{(∑x_i^2 -n(x ̅)^2)}{(n_1-1)}=\frac{(92-10(2.1)^2)}{(10-1)}=5.322222\] \[S_2^2=\frac{(∑y_i^2 -n(y ̅)^2)}{(n_2-1)}=\frac{(136-16(2)^2)}{(16-1)}=4.8\] b. Planteamiento de hipótesis

Hipótesis nula: No hay diferencias significativas entre las medias:

\[H_0: μ_1=μ_2\]

Hipótesis alternativa: Existen diferencias significativas entre las medias.

\[H_1: μ_1≠μ_2\] c. Nivel de significación (no indicado en datos)

\[α=0.05\] d. Estadística de prueba

Sabemos que \(n<30\). Si asumimos: \(σ_x^2=σ_y^2= σ^2\), empleamos el estadístico de prueba ‘t-student’. Si \(H_0\) es verdadera, empleamos el Estadístico de prueba ‘t’ para \(t(n_1+n_2-2)\) grados de libertad: \[t=\frac{(x ̅-y ̅)}{\sqrt {(\frac{S_c^2}{n_1} +\frac{S_c^2}{n_2})}} ∽t(n_1+n_2-2)\] Previamente, calculamos la varianza común: \[S_C^2=\frac{(n_1-1) S_1^2+(n_2-1)S_2^2}{(n_1+n_2-2)}=\frac{(10-1)(5.32222)+(16-1)(4.8)}{10+16-2}⇒S_C^2=4.995833\] ‘t’ calculado \[t=\frac{(2.1-2)}{\sqrt{(\frac{4.995833}{10} )+(\frac{4.995833}{16})}}⇒t=0.110986\] Grados de libertad: \[n_1+n_2-2=10+16-2=24\] e. Región crítica

para \(α=0.05\) y prueba de hipótesis bilateral, en la distribución \(t_{(24)}\), se encuentra \[p=1-\frac{α}{2}=1-\frac{0.05}{2}=0.975\] \[t_{(1-\frac{α}{2},n_1+n_2-2)}=t_{(0.975,24)}=±2.064\] \[t_{calculado}=0.110986<t_{(0.975,24)}=2.064\] Como \(t_{calculado}<t_{crítico}\), no podemos rechazar la hipótesis nula. Se acepta \(H_0: μ_1=μ_2\)

Respuesta:

No hay evidencia suficiente para afirmar que haya diferencias significativas entre los promedios de las poblaciones.

Solución usando R:

Conociendo el procedimiento matemático, declaramos una función en R que nos permita desarrollar el ejercicio a partir de valores ingresados:

# Ejercicio 11: Prueba de hipótesis para dos medias de población,empleando estadístico ‘t de Student’. 
# Medidas agrupadas y varianzas desconocidas que se asumen iguales

ttest_ejrc11 <- function(n1, sum_x1, sum2_x1, 
                         n2, sum_y1, sum2_y1, 
                         alpha = 0.05) {

  #Paso 1: Calcular las medias muestrales
  medx1<-sum_x1/n1
  medy1<-sum_y1/n2
  
  #Paso 2: Calcular la varianza común
  S2n1 <- (sum2_x1 - (n1 * medx1^2)) / (n1 - 1)
  S2n2 <- (sum2_y1 - (n2 * medy1^2)) / (n2 - 1)
  S2comun <- ((S2n1 * (n1 - 1))+(S2n2 * (n2 - 1))) / (n1 + n2 - 2)
  
  #Paso 3: Calcular el estadístico t
  t_stat <- (medx1 - medy1) / sqrt((S2comun / n1) + (S2comun / n2))
  
  #Paso 4: Calcular los grados de libertad
  t_glib <- n1 + n2 - 2
  
  #Paso 5: Calcular el valor crítico de t y el p-valor
  t_crit <- qt(1 - alpha/2, t_glib)
  p_value <- 2 * pt(-abs(t_stat), t_glib)
  
  #Paso 6: Evaluar la hipótesis nula
  decision <- if(abs(t_stat) > t_crit) {
    "Se rechaza H0"
  } else {
    "Se acepta Ho"
  }
  
  #Paso 7: Gráfico
  x <- seq(-4, 4, length.out = 1000)                            #Rango del gráfico de -4 a 4
  y <- dt(x, t_glib)                                            #Densidad de t en función de x
  plot(x, y, type = "l", xlab = "t", ylab = "Densidad",
       main = "Ejercicio 11: Distribución t de Student")
  abline(v = c(-t_crit, t_crit), col = "blue", lty = 2)         #Graficar R.C.
  abline(v = t_stat, col = "red")                               #Graficar tcalculado
  axis(1, at = seq(-4, 4, by = 1), labels = seq(-4, 4, by = 1)) #Definir marcas en el eje x
  abline(v = seq(-4, 4, by = 1), col = "lightgray", lty = 3)    #Agregar líneas verticales en cada unidad de x
  legend("topright", c("Densidad t", "Valor crítico", "t calculado"),
         col = c("black", "blue", "red"), lty = c(1, 2, 1),
         cex = 0.8,xpd = TRUE, inset = c(0.02, 0.02))           #Generar leyenda
  text(0, max(y)/2, decision, col = "green",cex=0.9)            #Imprimir texto de decision
  
  #Paso 8: Resultados de la función
  return(list(medx1 = medx1, 
              medy1 = medy1, 
              S2n1 = S2n1, 
              S2n2 = S2n2, 
              S2comun = S2comun, 
              t_statistic = t_stat, 
              t_glib = t_glib, 
              p_value = p_value,
              critical_value = t_crit, 
              decision = decision))
}

Ejecutamos la función con los datos del enunciado y generamos la imagen que incluya la distribución, la región de rechazo y el valor \(t_{calculado}\)

#Problema 11: Datos
resultado <- ttest_ejrc11(
  n1 = 10, sum_x1 = 21, sum2_x1 = 92,
  n2 = 16, sum_y1 = 32, sum2_y1 = 136
)

Finalmente, mostramos resultados e interpretación

#Imprimir resultados
print(resultado)

## $medx1
## [1] 2.1
## 
## $medy1
## [1] 2
## 
## $S2n1
## [1] 5.322222
## 
## $S2n2
## [1] 4.8
## 
## $S2comun
## [1] 4.995833
## 
## $t_statistic
## [1] 0.1109863
## 
## $t_glib
## [1] 24
## 
## $p_value
## [1] 0.9125502
## 
## $critical_value
## [1] 2.063899
## 
## $decision
## [1] "Se acepta Ho"

#Decisión sobre la hipótesis nula H0 e interpretación 
cat("\nDecisión:", resultado$decision, "\n")

## 
## Decisión: Se acepta Ho

cat("\nInterpretación:\n")

## 
## Interpretación:

if(resultado$decision == "Se rechaza H0") {
  cat("Hay evidencia estadística suficiente para concluir que existe una diferencia significativa entre las medias de los dos grupos.\n")
} else {
  cat("No hay evidencia estadística suficiente para concluir que existe una diferencia significativa entre las medias de los dos grupos.\n")
}

## No hay evidencia estadística suficiente para concluir que existe una diferencia significativa entre las medias de los dos grupos.

Prueba de hipótesis con ‘t de student’ para dos muestras independientes, varianzas iguales desconocidas

Jordano Moncada Taboada

2024-07-14

Ejercicio

Solución

Solución usando R: