Introducción

En estadística, muchas veces queremos comparar valores medios de una variable numérica entre uno o más grupos. Por ejemplo:

Cuando los datos cumplen ciertos supuestos estadísticos, podemos usar la prueba t de Student, una prueba paramétrica ampliamente utilizada para comparar medias.

Prueba T de una muestra

Una comparación de muestras es un análisis estadístico que se realiza para determinar si dos o más grupos de datos (muestras) son significativamente diferentes entre sí respecto a alguna característica numérica (como la media, mediana o proporción).

Evaluar si la media de una muestra o de dos muestras es estadísticamente diferente de un valor específico o de la media de otro grupo.

Tipos de muestras T student

Queremos saber si la media de altura de un grupo de 20 estudiantes es significativamente diferente de 170 cm.

alturas <- c(160, 165, 172, 168, 170, 162, 174, 169, 167, 171,
             166, 173, 168, 170, 175, 164, 169, 172, 170, 168)
mean(alturas)
## [1] 168.65

Planteamos nuestras hipotesis #Plantear hipótesis

Realizamos la prueba de normalidad

shapiro.test(alturas)
## 
##  Shapiro-Wilk normality test
## 
## data:  alturas
## W = 0.9729, p-value = 0.8146

Como nuestro p > 0.05, no se rechaza la normalidad → los datos son aproximadamente normales.

Aplicamos la prueba t para una muestra

t.test(alturas, mu = 170)
## 
##  One Sample t-test
## 
## data:  alturas
## t = -1.5546, df = 19, p-value = 0.1365
## alternative hypothesis: true mean is not equal to 170
## 95 percent confidence interval:
##  166.8325 170.4675
## sample estimates:
## mean of x 
##    168.65

Como nuestro valor p = 0.1365 > 0.05 ⇒ NO hay evidencia significativa.

Conclusión: No se rechaza la hipótesis nula, eso quiere decir que no hay suficiente evidencia para decir que la altura media difiere de 170 cm.

Queremos saber si hay una diferencia significativa en los niveles de glucosa entre personas con dieta y sin dieta

#base de datos
grupo <- c(rep("Con dieta", 10), rep("Sin dieta", 10))
glucosa <- c(90, 92, 88, 94, 95, 91, 89, 93, 87, 90,
             102, 105, 107, 99, 101, 104, 106, 103, 100, 98)

glucosa_data <- data.frame(grupo, glucosa)
print(glucosa_data)
##        grupo glucosa
## 1  Con dieta      90
## 2  Con dieta      92
## 3  Con dieta      88
## 4  Con dieta      94
## 5  Con dieta      95
## 6  Con dieta      91
## 7  Con dieta      89
## 8  Con dieta      93
## 9  Con dieta      87
## 10 Con dieta      90
## 11 Sin dieta     102
## 12 Sin dieta     105
## 13 Sin dieta     107
## 14 Sin dieta      99
## 15 Sin dieta     101
## 16 Sin dieta     104
## 17 Sin dieta     106
## 18 Sin dieta     103
## 19 Sin dieta     100
## 20 Sin dieta      98

Exploración de los datos

table(glucosa_data$grupo)
## 
## Con dieta Sin dieta 
##        10        10
tapply(glucosa_data$glucosa, glucosa_data$grupo, mean)
## Con dieta Sin dieta 
##      90.9     102.5

Plantear hipótesis

shapiro.test(glucosa_data$glucosa[glucosa_data$grupo == "Con dieta"])
## 
##  Shapiro-Wilk normality test
## 
## data:  glucosa_data$glucosa[glucosa_data$grupo == "Con dieta"]
## W = 0.97523, p-value = 0.9347
shapiro.test(glucosa_data$glucosa[glucosa_data$grupo == "Sin dieta"])
## 
##  Shapiro-Wilk normality test
## 
## data:  glucosa_data$glucosa[glucosa_data$grupo == "Sin dieta"]
## W = 0.97016, p-value = 0.8924

Como nuestro p > 0.05, no se rechaza la normalidad → los datos son aproximadamente normales.

Aplicamos la prueba t para dos muestras independientes

t.test(glucosa ~ grupo, data = glucosa_data)
## 
##  Welch Two Sample t-test
## 
## data:  glucosa by grupo
## t = -9.1898, df = 17.601, p-value = 3.912e-08
## alternative hypothesis: true difference in means between group Con dieta and group Sin dieta is not equal to 0
## 95 percent confidence interval:
##  -14.256257  -8.943743
## sample estimates:
## mean in group Con dieta mean in group Sin dieta 
##                    90.9                   102.5

Como nuestro p< 0.05 ⇒ Se rechaza la H.Nula, eos quiere decir que hay una diferencia significativa en los niveles de glucosa entre los grupos.

Conclusión: Las personas con dieta tienen significativamente menor glucosa que las sin dieta.