Cuando estamos dispuestos a realizar una prueba de hipótesis, en la forma más general, nos interesa establecer una hipótesis respecto a la población que se está estudiando (generalmente sobre sus parámetros), de la cual, basándonos en una muestra de la misma tenemos como objetivo, decidir entre la hipótesis planteada y una hipótesis complementaria, cual de estas es verdadera.
Las hipótesis se contrastan en la siguiente expresión:
Donde es llamada hipótesis nula y es llamada hipótesis alternativa, complementaria o de investigación.
Al inferir sobre un parámetro poblacional , se define el espacio de parámetros , y el contraste se establece como
Se define además un estadístico de prueba o cantidad Pivotal que está en función de la muestra y el parámetro del cual deseamos inferir de tal forma que, el estadístico de prueba T siga una distribución conocida bajo el supuesto de que es verdadera.
La regla de decisión consta de una llamada Regíón Crítica o de Rechazo (RC) con una probabilidad de cometer Error tipo I(Rechazar dado que es verdadera), de tal forma que, si el estadístico observado , entonces se rechaza la hipótesis a favor de en base a la evidencia observada.
Valor-P
Una alternativa a la región crítica es el valor p.
El valor p se define como la probabilidad de que el estadístico de prueba tome valores mayores al observado, es decir
Este es el mínimo nivel de significancia para el cual es posible rechazar .
Para un nivel de significancia .
Si el valor-: Rechazamos .
Si el valor-: No rechazamos .
Prueba de Hipótesis para la Media
Conocida
Sea una muestra aleatoria de una población o, bajo las condiciones del Teorema del Límite Central (TLC), la variable aleatoria
converge en distribución a una normal estándar .
Contraste de Hipótesis
Basado en la distribución muestral de
Región crítica o de rechazo:
.
.
.
Ejemplo:
Una fábrica de lápices afirma que la longitud promedio de sus lápices es de 17 centímetros, con una desviación estándar de 0.5 centímetros. Un grupo de estudiantes desea verificar esta afirmación seleccionando una muestra aleatoria de 30 lápices y midiendo su longitud. Después de realizar las mediciones, obtienen una media muestral de 16.8 centímetros. Se desea probar la hiótesis a un nivel de significancia.
Se plantea el contraste
Por TLC con
Calculamos el estadístico de Prueba observado
n <-30# Tamaño de La muestravar <-0.5^{2} # Varianza Poblacionalmu_0 <-17# Media bajo Hipótesis Nulax_barra <-16.8# Estadístico Observadoalpha <-0.03# Nivel de significancia(Z <- (x_barra - mu_0)/sqrt(var/n))# Estadístico de Prueba
[1] -2.19089
Calculamos el percentil
(z_alpha <-qnorm(1- (alpha/2))) # Percentil 1 - 0.03 de Una dist. Normal Estándar
[1] 2.17009
Verificamos el estadístico observado en la región crítica
Dado que el estadístico de Prueba pertenece a la Región de rechazo, con un nivel de significancia del 0.03, existe evidencia suficiente para decir que la longitud promedio de los lápices es diferente de 17cm.
Por otra parte con un valor p de 0.0284 < 0.03, se llega a la misma conclusión.
Desconocida
Sea una muestra aleatoria de una población , con el estimador de
Basado en la distribución muestral de
Región crítica o de rechazo:
.
.
.
Observación: Si n es lo suficientemente grande, y el procedimiento es el mismo que para conocido
Ejemplo:
Un estudio se propone examinar si la estatura promedio de los estudiantes de una universidad difiere de la cifra convencional de 175 cm. Se seleccionó una muestra aleatoria de 20 estudiantes matriculados en diferentes programas académicos. Cada estudiante tuvo su estatura registrada en centímetros. El objetivo es investigar si hay suficiente evidencia en los datos recolectados para respaldar la idea de que la estatura promedio de los estudiantes es mayor de 175 cm. Las mediciones de 20 estudiantes seleccionados aleatoriamente son:
168.5
171.8
168.9
166.8
167.9
172.3
169.6
170.5
168.3
170.4
170.1
173.2
172.0
170.7
168.6
165.7
167.4
169.2
171.2
172.1
Suponiendo que la estatura de los estudiantes proviene de una distribución , se plantea el siguiente contraste.
Calculamos el estadístico de prueba Observado:
estatura <-c(168.5, 172.3, 170.1, 165.7, 171.8, 169.6, 173.2, 167.4,168.9, 170.5, 172.0, 169.2, 166.8, 168.3, 170.7, 171.2,167.9, 170.4, 168.6, 172.1) #DATOSn <-length(estatura) # Tamaño de la muestramu_0 <-175# Media bajo la Hipótesis Nulas <-sd(estatura) # Desviación Estándar de la muestrax_barra <-mean(estatura) # Media Muestral(t_obs <- (x_barra - mu_0)/(s/sqrt(n)))
[1] -11.61145
Calculamos el percentil , estableciendo
alpha <-0.05(t_alpha <-qt(1- alpha, df = n -1))
[1] 1.729133
Verificamos el estadístico observado en la Región Crítica
(t_obs > t_alpha)
[1] FALSE
Basándonos en el
(pvalue <-pt(t_obs, df = n -1, lower.tail =FALSE))
[1] 1
pvalue < alpha
[1] FALSE
Ya que el valor observado no se encuentra en la Región Crítica, con un nivel de significancia de 0.05, podemos decir que no hay evidencia suficiente para decir que la estatura promedio de los estudiantes universitarios es mayor a 175cm.
Con un valor p de 1 > 0.05, la evidencia a favor de es muy fuerte.
Otra alternativa para realizar este contraste de hipótesis en Rstudio es la función t.test
t.test(estatura, # Muestramu = mu_0, # Media de la hipótesis nulaalternative ="greater", # Dirección del contraste ("two.sided", "less", "greater")conf.level =1- alpha # Nivel de Confianza para el IC )
One Sample t-test
data: estatura
t = -11.611, df = 19, p-value = 1
alternative hypothesis: true mean is greater than 175
95 percent confidence interval:
168.9797 Inf
sample estimates:
mean of x
169.76
Prueba de Hipótesis para la Varianza
Se tiene la muestra provieniente de una población normal, .
Se establece el contraste de hipótesis para :
Con el estadístico de Prueba
Región Crítica o de rechazo:
.
.
Ejemplo:
Se hicieron las siguientes observaciones sobre la tenacidad a la fractura de una placa base de acero inoxidable con 18% de níquel:
69.5
72.6
73.3
75.5
75.8
76.2
77.0
78.1
79.7
80.1
83.7
71.9
73.1
73.5
75.7
76.1
76.2
77.9
79.6
79.9
82.2
93.7
Se cree que la desviación estándar de la distribución de la dureza de la fractura es de 4 unidades, mientras que el operador percibe que esta variabilidad pudo haber aumentado. Realice el contraste con una significancia de 0.01
Suponiendo que las observaciones sobre la tenacidad a la fractura provienen de una distribución . Se define el siguiente contraste
Con un valor p > 0.01, no hay evidencia suficiente para decir que la varianza de la dureza de la fractura es mayor que unidades cuadradas.
Prueba de Hipótesis para la proporción
Sea una muestra aleatoria de una población con cierta característica de interés. Para un suficientemente grande
Contraste de Hipótesis
Región crítica o de rechazo:
.
.
.
Ejemplo:
Se cree que la proporción de productos defectuosos en una línea de producción es del 10%, mientras que la gerencia sospecha que esta proporción podría ser mayor. Realice el contraste con una significancia de 0.05, utilizando una muestra de 500 productos, de los cuales 75 resultaron defectuosos.
Se tiene el siguiente contraste
Calculamos el estadístico observado:
# Se establecen los datos y parámetrosexitos <-75total <-500alpha <-0.05prop_0 <-0.10# Proporción bajo la hipótesis nula# Se calcula la proporción muestralprop_muestral <- exitos / total# Se calcula el estadístico de contraste (Z)z_obs <- (prop_muestral - prop_0) /sqrt((prop_0 * (1- prop_0) / total))z_obs
[1] 3.72678
Calculamos el percentil para :
# Se calcula el percentil Z para el nivel de significancia dadoz_crit <-qnorm(1- alpha)z_crit
[1] 1.644854
Verificamos en la Región Crítica:
z_obs > z_crit
[1] TRUE
Basándonos en el valor p:
#Se calcula el valor pp_value <-pnorm(z_obs, lower.tail =FALSE)p_value
[1] 9.697081e-05
Basándonos en un valor p cercano a 0 < 0.05, rechazamos la hipótesis nula. Por lo tanto, hay evidencia suficiente para concluir que la proporción de productos defectuosos ha aumentado significativamente.
Prueba de Hipótesis para Dos Muestras
Estas pruebas son útiles para comparar diversos parámetros poblacionales entre dos grupos diferentes. Su importancia radica en su capacidad para determinar si existen diferencias significativas entre dos grupos en una población, lo cual ayuda a los investigadores a comprender mejor las relaciones entre variables y a tomar decisiones informadas basadas en evidencia estadística.
Diferencia de Proporciones
Considerando y dos muestras independientes, tal que y .