En prácticas anteriores, aprendimos a describir y visualizar nuestros datos. Ahora, damos el siguiente paso en la estadística inferencial: comparar grupos. Una de las preguntas más comunes en cualquier campo científico es: “¿Existe una diferencia real entre las medias de dos grupos independientes?”. Por ejemplo, ¿el peso promedio de los machos es significativamente diferente al de las hembras?
Para responder a estas preguntas de manera objetiva, necesitamos una herramienta estadística que nos diga si la diferencia observada en nuestras muestras es lo suficientemente grande como para ser considerada “estadísticamente significativa”. Esa herramienta es la Prueba t de Student para muestras independientes.
Antes de realizar la prueba, introduciremos dos conceptos clave: la estimación por intervalos y la prueba de hipótesis.
Al finalizar esta práctica, serás capaz de:
Comprender la diferencia entre una estimación puntual y una estimación por intervalo (intervalo de confianza). Entender la lógica fundamental de una prueba de hipótesis: la hipótesis nula (H₀) y la alternativa (H₁). Evaluar los supuestos clave de la prueba t: normalidad y homogeneidad de varianzas. Realizar una prueba t de Student para muestras independientes en R. Interpretar correctamente los resultados, enfocándote en el valor p y el intervalo de confianza para tomar una decisión estadística.
Antes de escribir código, debemos entender la lógica detrás de la prueba.
A. Estimación Puntual vs. Estimación por Intervalo
Estimación Puntual: Es nuestro “mejor cálculo” de un parámetro. Por ejemplo, la media de peso de nuestra muestra de machos es 562.5 kg. Es un solo número que estima la media de todos los machos. El problema es que casi seguro no es el valor exacto.
Estimación por Intervalo (Intervalo de Confianza): Es una solución mucho mejor. En lugar de un solo número, calculamos un rango de valores (ej. [550 kg, 575 kg]) dentro del cual tenemos una alta confianza (generalmente 95%) de que se encuentra el verdadero parámetro de la población. Nos da una idea de la precisión de nuestra estimación.
B. La Lógica de la Prueba de Hipótesis Es un procedimiento formal para tomar una decisión sobre una afirmación.
Hipótesis Nula (H₀): Es la hipótesis de “no efecto” o “no diferencia”. Para nuestra pregunta, la H₀ es que las medias de peso de las poblaciones de machos y hembras son iguales (μ_machos = μ_hembras). Cualquier diferencia que vemos en la muestra es por puro azar.
Hipótesis Alternativa (H₁): Es la hipótesis que queremos probar. Postula que las medias de las poblaciones son diferentes (μ_machos ≠ μ_hembras).
La Decisión (El Valor p):
Calculamos un valor p, que es la probabilidad de observar una diferencia como la de nuestra muestra (o más grande) si la hipótesis nula fuera cierta.
Si el valor p es pequeño (< 0.05), es muy improbable haber obtenido nuestros resultados por azar. Por lo tanto, rechazamos la hipótesis nula (H₀) y concluimos que existe una diferencia estadísticamente significativa.
Si el valor p es grande (≥ 0.05), no tenemos evidencia suficiente para descartar que la diferencia sea por azar. Por lo tanto, no rechazamos la hipótesis nula (H₀).
Pregunta de investigación: ¿Existe una diferencia estadísticamente significativa en el peso entre machos y hembras?
Para esta práctica, ingresaremos los datos directamente como objetos en R.
#1. CREACIÓN DE LOS DATOS
#Estos vectores contienen los pesos (en Kg) de una muestra de machos y hembras.
pesos_machos <- c(550, 565, 540, 580, 555, 570, 560, 590)
pesos_hembras <- c(530, 555, 520, 560, 545, 535, 550, 540)
#2. VERIFICACIÓN DE NORMALIDAD (Prueba de Shapiro-Wilk)
#H₀: Los datos siguen una distribución normal. Si p > 0.05, aceptamos la normalidad.
shapiro.test(pesos_machos)
shapiro.test(pesos_hembras)
#En ambos casos, el p-value es grande, por lo que asumimos que los datos son normales.
#3. VERIFICACIÓN DE HOMOGENEIDAD DE VARIANZAS (Prueba F)
#H₀: Las varianzas de los dos grupos son iguales. Si p > 0.05, las varianzas son iguales.
var.test(pesos_machos, pesos_hembras)
#El p-value es grande (>0.05), por lo que asumimos que las varianzas son homogéneas.
#¡Nuestros datos cumplen los supuestos! Ahora podemos proceder con la prueba t.
#Paso 3: Realizando la Prueba t en R
#Usaremos la función t.test() directamente sobre nuestros dos vectores de datos.
#Realizamos la prueba t de Student para muestras independientes
#Como nuestros datos cumplen el supuesto de homogeneidad de varianzas, especificamos var.equal = TRUE.
resultado_ttest <- t.test(pesos_machos, pesos_hembras, var.equal = TRUE)
#Mostramos los resultados completos
print(resultado_ttest)
Analicemos la salida clave de la consola:
Two Sample t-test
data: pesos_machos and pesos_hembras
t = 2.1691, df = 14, p-value = 0.04791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.0768348 37.4231652
sample estimates:
mean of x mean of y
563.75 545.00
Conclusión:
Interpretación del valor p:
Nuestro p-value es 0.04791. Como 0.04791 es menor que 0.05, tenemos suficiente evidencia para rechazar la hipótesis nula (H₀).
Conclusión: “Existe una diferencia estadísticamente significativa en el peso promedio entre los machos y las hembras de nuestra muestra.”
Interpretación del Intervalo de Confianza: El intervalo de confianza del 95% para la diferencia entre las medias va de [0.077 a 37.42].
Como este intervalo no contiene el cero, nos confirma que una diferencia de cero es un valor muy improbable. Esto apoya nuestra decisión de rechazar la H₀.
Podemos decir con un 95% de confianza que, en la población, los machos pesan en promedio entre 0.08 y 37.4 kg más que las hembras.
Interpretación de las Medias Muestrales: La media de los machos (mean of x) fue 563.75 kg y la de las hembras (mean of y) fue 545.00 kg. La prueba t nos confirmó que esta diferencia de ∼18.75 kg no es producto del azar.
Pregunta 1: En la salida de la prueba t, ¿qué representa la mean of x y la mean of y? ¿Son estimaciones puntuales o por intervalo?
Pregunta 2: Si el valor p de nuestra prueba hubiera sido 0.15, ¿cuál habría sido nuestra conclusión sobre la diferencia de pesos? ¿Rechazaríamos o no rechazaríamos la H₀?
Pregunta 3: Imagina que el intervalo de confianza del 95% para la diferencia de medias hubiera sido [-10.5, 25.8]. ¿Qué nos diría el hecho de que este intervalo contiene el cero?
Pregunta 4: ¿Por qué es importante el paso de shapiro.test()? ¿Qué habríamos hecho si el p-valor de esa prueba hubiera sido 0.01?
Pregunta 5: Basado en los resultados de la práctica, si tuvieras que apostar si un caballo que pesa 580 kg es macho o hembra, ¿qué dirías y por qué? ¿Tu certeza sería absoluta?
Héctor Alexander Camarena Ledesma, Jessica González Perea, Ángel Moisés Rentería López, Marco Antonio Alvarado Salas, Argelia Ximena Hernández Recio, Carlos Leonardo Pérez Cuenca, Fabiola Asunción Flores Figueroa, Braulio Herrera Ramírez, Areli Maldonado Fernández, Arenas Escamilla Daniel, Pineda Alatriste Saúl, Rogers Montoya Nathaniel Alec, Noé Orlando Juárez López, Daniel Alonso Domínguez Olvera.