Las pruebas de hipótesis son un método estadístico utilizado para tomar decisiones sobre una población basándose en datos muestrales. Consisten en evaluar si una afirmación (hipótesis) sobre un parámetro poblacional es consistente con la evidencia proporcionada por los datos. Aquí te explico los conceptos clave:
Hipótesis nula (H₀): Es la afirmación inicial que se asume como verdadera, generalmente plantea que no hay efecto o diferencia (por ejemplo, “la media de una población es igual a un valor específico”).
Hipótesis alternativa (H₁): Es la afirmación opuesta a la hipótesis nula, que se acepta si hay suficiente evidencia para rechazar H₀ (por ejemplo, “la media de la población es diferente de un valor específico”).
Nivel de significancia (α): Es la probabilidad de rechazar H₀ cuando es verdadera (error tipo I). Comúnmente se usa α = 0.05 (5%).
Estadístico de prueba: Se calcula a partir de los datos muestrales (como la media, proporción, etc.) y se compara con un valor crítico o se usa para calcular un p-valor.
P-valor: Es la probabilidad de obtener un resultado tan extremo o más extremo que el observado, bajo la suposición de que H₀ es cierta. Si el p-valor es menor que α, se rechaza H₀.
Tipos de pruebas: Dependiendo del caso, se usan pruebas como la t de Student, z, chi-cuadrado, ANOVA, etc., según la naturaleza de los datos y el parámetro a evaluar.
Pasos básicos:
Formular H₀ y H₁.
Elegir el nivel de significancia (α).
Calcular el estadístico de prueba y/o el p-valor.
Comparar el p-valor con α o el estadístico con un valor crítico.
Tomar una decisión: rechazar o no rechazar H₀.
Interpretar los resultados en el contexto del problema.
TIPOS DE PRUEBAS PARA VERIFICAR UNA HIPOTESIS
-PRUEBA DE HIPOTESIS DE T-STUDENT
# Ejemplo: ¿La media de altura de una muestra es igual a 170 cm?set.seed(123) # Para reproducibilidadaltura <-rnorm(30, mean =171, sd =5) # Datos simulados# Prueba t de una muestrat_test <-t.test(altura, mu =170, conf.level =0.95)print(t_test)
One Sample t-test
data: altura
t = 0.85364, df = 29, p-value = 0.4003
alternative hypothesis: true mean is not equal to 170
95 percent confidence interval:
168.9329 172.5961
sample estimates:
mean of x
170.7645
# Interpretación: Si p-value < 0.05, se rechaza H0 (media = 170 cm).
-PRUEBA DE HIPOTESIS DE Z
# Ejemplo: ¿La proporción de éxito en un tratamiento es 0.5?n <-100# Tamaño de la muestraexitos <-55# Número de éxitosp0 <-0.5# Proporción bajo H0# Cálculo del estadístico zphat <- exitos / nz <- (phat - p0) /sqrt(p0 * (1- p0) / n)p_value <-2* (1-pnorm(abs(z))) # Prueba bilateralcat("Estadístico z:", z, "\n")
Estadístico z: 1
cat("Valor p:", p_value, "\n")
Valor p: 0.3173105
# Interpretación: Si p_value < 0.05, se rechaza H0 (proporción = 0.5).
-PRUEBA DE HIPOTESIS ANOVA
# Ejemplo: ¿Difieren las alturas entre tres grupos de personas?set.seed(123)grupo1 <-rnorm(20, mean =170, sd =5)grupo2 <-rnorm(20, mean =172, sd =5)grupo3 <-rnorm(20, mean =168, sd =5)# Combinar datos en un data framedatos <-data.frame(altura =c(grupo1, grupo2, grupo3),grupo =factor(rep(c("G1", "G2", "G3"), each =20)))# ANOVAanova_result <-aov(altura ~ grupo, data = datos)summary(anova_result)
Df Sum Sq Mean Sq F value Pr(>F)
grupo 2 107.5 53.73 2.527 0.0888 .
Residuals 57 1211.9 21.26
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Interpretación: Si p-value < 0.05, al menos un grupo tiene una media diferente.# Para comparaciones múltiples:TukeyHSD(anova_result)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = altura ~ grupo, data = datos)
$grupo
diff lwr upr p adj
G2-G1 1.035595 -2.473279 4.5444693 0.7584710
G3-G1 -2.175693 -5.684567 1.3331812 0.3022689
G3-G2 -3.211288 -6.720162 0.2975861 0.0793678
-PRUEBA DE HIPOTESIS DE CHI-CUADRADO
# Ejemplo: ¿Sigue una distribución observada una distribución esperada?observado <-c(30, 20, 50) # Frecuencias observadasesperado <-c(0.33, 0.33, 0.34) *sum(observado) # Frecuencias esperadas# Prueba chi-cuadradochi_test <-chisq.test(observado, p =c(0.33, 0.33, 0.34))print(chi_test)
Chi-squared test for given probabilities
data: observado
X-squared = 12.923, df = 2, p-value = 0.001562
# Interpretación: Si p-value < 0.05, los datos no siguen la distribución esperada.
-PRUEBA DE HIPOTESIS DE Mann-Whitney U
# Ejemplo: ¿Difieren los ingresos entre dos grupos?set.seed(123)ingresos1 <-rnorm(20, mean =30000, sd =5000)ingresos2 <-rnorm(20, mean =32000, sd =5000)# Prueba Mann-Whitney Umw_test <-wilcox.test(ingresos1, ingresos2, conf.level =0.95)print(mw_test)
Wilcoxon rank sum exact test
data: ingresos1 and ingresos2
W = 180, p-value = 0.6017
alternative hypothesis: true location shift is not equal to 0
# Interpretación: Si p-value < 0.05, los grupos tienen distribuciones diferentes.
-PRUEBA DE HIPOTESIS DE WILCOXON
# Ejemplo: ¿Difiere el rendimiento antes y después de un curso?set.seed(123)antes <-rnorm(15, mean =60, sd =10)despues <- antes +rnorm(15, mean =5, sd =2)# Prueba de Wilcoxonwilcox_paired <-wilcox.test(antes, despues, paired =TRUE, conf.level =0.95)print(wilcox_paired)
Wilcoxon signed rank exact test
data: antes and despues
V = 0, p-value = 6.104e-05
alternative hypothesis: true location shift is not equal to 0
# Interpretación: Si p-value < 0.05, hay diferencia significativa.