En estadística, muchas veces queremos comparar valores medios de una variable numérica entre uno o más grupos. Por ejemplo:
¿la media de altura de un grupo de 20 estudiantes es significativamente diferente de 170 cm?
¿Hay diferencia en el nivel de glucosa entre personas con dieta y sin dieta?
Cuando los datos cumplen ciertos supuestos estadísticos, podemos usar la prueba t de Student, una prueba paramétrica ampliamente utilizada para comparar medias.
Una comparación de muestras es un análisis estadístico que se realiza para determinar si dos o más grupos de datos (muestras) son significativamente diferentes entre sí respecto a alguna característica numérica (como la media, mediana o proporción).
Evaluar si la media de una muestra o de dos muestras es estadísticamente diferente de un valor específico o de la media de otro grupo.
Queremos saber si la media de altura de un grupo de 20 estudiantes es significativamente diferente de 170 cm.
alturas <- c(160, 165, 172, 168, 170, 162, 174, 169, 167, 171,
166, 173, 168, 170, 175, 164, 169, 172, 170, 168)
mean(alturas)
## [1] 168.65
Planteamos nuestras hipotesis #Plantear hipótesis
H. Nula: la media es 170
H. Alternativa: la media no es 170
Realizamos la prueba de normalidad
shapiro.test(alturas)
##
## Shapiro-Wilk normality test
##
## data: alturas
## W = 0.9729, p-value = 0.8146
Como nuestro p > 0.05, no se rechaza la normalidad → los datos son aproximadamente normales.
Aplicamos la prueba t para una muestra
t.test(alturas, mu = 170)
##
## One Sample t-test
##
## data: alturas
## t = -1.5546, df = 19, p-value = 0.1365
## alternative hypothesis: true mean is not equal to 170
## 95 percent confidence interval:
## 166.8325 170.4675
## sample estimates:
## mean of x
## 168.65
Como nuestro valor p = 0.1365 > 0.05 ⇒ NO hay evidencia significativa.
Conclusión: No se rechaza la hipótesis nula, eso quiere decir que no hay suficiente evidencia para decir que la altura media difiere de 170 cm.
Queremos saber si hay una diferencia significativa en los niveles de glucosa entre personas con dieta y sin dieta
#base de datos
grupo <- c(rep("Con dieta", 10), rep("Sin dieta", 10))
glucosa <- c(90, 92, 88, 94, 95, 91, 89, 93, 87, 90,
102, 105, 107, 99, 101, 104, 106, 103, 100, 98)
glucosa_data <- data.frame(grupo, glucosa)
print(glucosa_data)
## grupo glucosa
## 1 Con dieta 90
## 2 Con dieta 92
## 3 Con dieta 88
## 4 Con dieta 94
## 5 Con dieta 95
## 6 Con dieta 91
## 7 Con dieta 89
## 8 Con dieta 93
## 9 Con dieta 87
## 10 Con dieta 90
## 11 Sin dieta 102
## 12 Sin dieta 105
## 13 Sin dieta 107
## 14 Sin dieta 99
## 15 Sin dieta 101
## 16 Sin dieta 104
## 17 Sin dieta 106
## 18 Sin dieta 103
## 19 Sin dieta 100
## 20 Sin dieta 98
Exploración de los datos
table(glucosa_data$grupo)
##
## Con dieta Sin dieta
## 10 10
tapply(glucosa_data$glucosa, glucosa_data$grupo, mean)
## Con dieta Sin dieta
## 90.9 102.5
Plantear hipótesis
H.Nula: las medias son iguales
H.Alternativa: las medias son diferentes
shapiro.test(glucosa_data$glucosa[glucosa_data$grupo == "Con dieta"])
##
## Shapiro-Wilk normality test
##
## data: glucosa_data$glucosa[glucosa_data$grupo == "Con dieta"]
## W = 0.97523, p-value = 0.9347
shapiro.test(glucosa_data$glucosa[glucosa_data$grupo == "Sin dieta"])
##
## Shapiro-Wilk normality test
##
## data: glucosa_data$glucosa[glucosa_data$grupo == "Sin dieta"]
## W = 0.97016, p-value = 0.8924
Como nuestro p > 0.05, no se rechaza la normalidad → los datos son aproximadamente normales.
Aplicamos la prueba t para dos muestras independientes
t.test(glucosa ~ grupo, data = glucosa_data)
##
## Welch Two Sample t-test
##
## data: glucosa by grupo
## t = -9.1898, df = 17.601, p-value = 3.912e-08
## alternative hypothesis: true difference in means between group Con dieta and group Sin dieta is not equal to 0
## 95 percent confidence interval:
## -14.256257 -8.943743
## sample estimates:
## mean in group Con dieta mean in group Sin dieta
## 90.9 102.5
Como nuestro p< 0.05 ⇒ Se rechaza la H.Nula, eos quiere decir que hay una diferencia significativa en los niveles de glucosa entre los grupos.
Conclusión: Las personas con dieta tienen significativamente menor glucosa que las sin dieta.