PRUEBAS DE HIPOTESIS

Las pruebas de hipótesis son un método estadístico utilizado para tomar decisiones sobre una población basándose en datos muestrales. Consisten en evaluar si una afirmación (hipótesis) sobre un parámetro poblacional es consistente con la evidencia proporcionada por los datos. Aquí te explico los conceptos clave:

  1. Hipótesis nula (H₀): Es la afirmación inicial que se asume como verdadera, generalmente plantea que no hay efecto o diferencia (por ejemplo, “la media de una población es igual a un valor específico”).

  2. Hipótesis alternativa (H₁): Es la afirmación opuesta a la hipótesis nula, que se acepta si hay suficiente evidencia para rechazar H₀ (por ejemplo, “la media de la población es diferente de un valor específico”).

  3. Nivel de significancia (α): Es la probabilidad de rechazar H₀ cuando es verdadera (error tipo I). Comúnmente se usa α = 0.05 (5%).

  4. Estadístico de prueba: Se calcula a partir de los datos muestrales (como la media, proporción, etc.) y se compara con un valor crítico o se usa para calcular un p-valor.

  5. P-valor: Es la probabilidad de obtener un resultado tan extremo o más extremo que el observado, bajo la suposición de que H₀ es cierta. Si el p-valor es menor que α, se rechaza H₀.

  6. Tipos de pruebas: Dependiendo del caso, se usan pruebas como la t de Student, z, chi-cuadrado, ANOVA, etc., según la naturaleza de los datos y el parámetro a evaluar.

  7. Pasos básicos:

    • Formular H₀ y H₁.

    • Elegir el nivel de significancia (α).

    • Calcular el estadístico de prueba y/o el p-valor.

    • Comparar el p-valor con α o el estadístico con un valor crítico.

    • Tomar una decisión: rechazar o no rechazar H₀.

    • Interpretar los resultados en el contexto del problema.

TIPOS DE PRUEBAS PARA VERIFICAR UNA HIPOTESIS

-PRUEBA DE HIPOTESIS DE T-STUDENT

# Ejemplo: ¿La media de altura de una muestra es igual a 170 cm?
set.seed(123)  # Para reproducibilidad
altura <- rnorm(30, mean = 171, sd = 5)  # Datos simulados

# Prueba t de una muestra
t_test <- t.test(altura, mu = 170, conf.level = 0.95)
print(t_test)

    One Sample t-test

data:  altura
t = 0.85364, df = 29, p-value = 0.4003
alternative hypothesis: true mean is not equal to 170
95 percent confidence interval:
 168.9329 172.5961
sample estimates:
mean of x 
 170.7645 
# Interpretación: Si p-value < 0.05, se rechaza H0 (media = 170 cm).

-PRUEBA DE HIPOTESIS DE Z

# Ejemplo: ¿La proporción de éxito en un tratamiento es 0.5?
n <- 100  # Tamaño de la muestra
exitos <- 55  # Número de éxitos
p0 <- 0.5  # Proporción bajo H0

# Cálculo del estadístico z
phat <- exitos / n
z <- (phat - p0) / sqrt(p0 * (1 - p0) / n)
p_value <- 2 * (1 - pnorm(abs(z)))  # Prueba bilateral

cat("Estadístico z:", z, "\n")
Estadístico z: 1 
cat("Valor p:", p_value, "\n")
Valor p: 0.3173105 
# Interpretación: Si p_value < 0.05, se rechaza H0 (proporción = 0.5).

-PRUEBA DE HIPOTESIS ANOVA

# Ejemplo: ¿Difieren las alturas entre tres grupos de personas?
set.seed(123)
grupo1 <- rnorm(20, mean = 170, sd = 5)
grupo2 <- rnorm(20, mean = 172, sd = 5)
grupo3 <- rnorm(20, mean = 168, sd = 5)

# Combinar datos en un data frame
datos <- data.frame(
  altura = c(grupo1, grupo2, grupo3),
  grupo = factor(rep(c("G1", "G2", "G3"), each = 20))
)

# ANOVA
anova_result <- aov(altura ~ grupo, data = datos)
summary(anova_result)
            Df Sum Sq Mean Sq F value Pr(>F)  
grupo        2  107.5   53.73   2.527 0.0888 .
Residuals   57 1211.9   21.26                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Interpretación: Si p-value < 0.05, al menos un grupo tiene una media diferente.
# Para comparaciones múltiples:
TukeyHSD(anova_result)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = altura ~ grupo, data = datos)

$grupo
           diff       lwr       upr     p adj
G2-G1  1.035595 -2.473279 4.5444693 0.7584710
G3-G1 -2.175693 -5.684567 1.3331812 0.3022689
G3-G2 -3.211288 -6.720162 0.2975861 0.0793678

-PRUEBA DE HIPOTESIS DE CHI-CUADRADO

# Ejemplo: ¿Sigue una distribución observada una distribución esperada?
observado <- c(30, 20, 50)  # Frecuencias observadas
esperado <- c(0.33, 0.33, 0.34) * sum(observado)  # Frecuencias esperadas

# Prueba chi-cuadrado
chi_test <- chisq.test(observado, p = c(0.33, 0.33, 0.34))
print(chi_test)

    Chi-squared test for given probabilities

data:  observado
X-squared = 12.923, df = 2, p-value = 0.001562
# Interpretación: Si p-value < 0.05, los datos no siguen la distribución esperada.

-PRUEBA DE HIPOTESIS DE Mann-Whitney U

# Ejemplo: ¿Difieren los ingresos entre dos grupos?
set.seed(123)
ingresos1 <- rnorm(20, mean = 30000, sd = 5000)
ingresos2 <- rnorm(20, mean = 32000, sd = 5000)

# Prueba Mann-Whitney U
mw_test <- wilcox.test(ingresos1, ingresos2, conf.level = 0.95)
print(mw_test)

    Wilcoxon rank sum exact test

data:  ingresos1 and ingresos2
W = 180, p-value = 0.6017
alternative hypothesis: true location shift is not equal to 0
# Interpretación: Si p-value < 0.05, los grupos tienen distribuciones diferentes.

-PRUEBA DE HIPOTESIS DE WILCOXON

# Ejemplo: ¿Difiere el rendimiento antes y después de un curso?
set.seed(123)
antes <- rnorm(15, mean = 60, sd = 10)
despues <- antes + rnorm(15, mean = 5, sd = 2)

# Prueba de Wilcoxon
wilcox_paired <- wilcox.test(antes, despues, paired = TRUE, conf.level = 0.95)
print(wilcox_paired)

    Wilcoxon signed rank exact test

data:  antes and despues
V = 0, p-value = 6.104e-05
alternative hypothesis: true location shift is not equal to 0
# Interpretación: Si p-value < 0.05, hay diferencia significativa.