Sea: \(H_0:\, \mu = \mu_0\\H_1:\, \mu \neq \mu_0\)
Supongamos que se realiza una prueba tomando una muestra de tamaño \(n\) y se calcula su media \(\bar{x}\) qué es un estimador de la media poblacional \(\mu\) un valor de \(\bar{x}\) próximo a \(\mu\) es una evidencia de que el verdadero valor de la media poblacioneal es \(\mu_0\). Es decir el resultado apoya la hipótesis nula \(H_0\). Por otra parte una media muestral muy diferente de \(\mu_0\) constituye una evidencia que apoya la hipótesis alternativa \(H_1\).
Como se puede suponer en una toma de datos siempre es factible llegar a dos conclusiones, que llamamos error tipo I y error tipo II.
\(\alpha = P(\text{Rechazar } H_0\, |\, H_0 \text{ es verdadera})\)
\(\beta = P(\text{Aceptar } H_0\, |\, H_0 \text{ es falsa})\).
Ejemplo.
Se está estudiando la variación en el peso de una población de pinguinos, de estudios previos se encuentra que el peso promedio de la población de pinguinos en un cierto lugar es de 15.4 kg, se toma una muestra de 35 especimenes encontrando que la media del peso es 14.6Kg.
Suponga que la desviación estándar es de 2.5kg. Con un nivel de significacncia de \(\alpha=0.05\) se puede rechazar la hipótesis de que no ha habido cambio en el peso de estudios previos y el actual.
\(H_0:\, \mu = 15.4\\H_1:\, \mu \neq 15.4\)
Cálculo de \(z_0\).
xbar = 14.6 # sample mean
mu0 = 15.4 # hypothesized value
sigma = 2.5 # population standard deviation
n = 35 # sample size
z0 <- (xbar-mu0)/(sigma/sqrt(n))
z0 # test statistic
## [1] -1.893146
Considerando \(\alpha=0.05\)
alpha = .05
z.half.alpha <- qnorm(1-alpha/2)
Ialpha <-c(-z.half.alpha,z.half.alpha)
print(paste("El intervalo de confianza para el nivel de significancia establecido es",Ialpha))
## [1] "El intervalo de confianza para el nivel de significancia establecido es -1.95996398454005"
## [2] "El intervalo de confianza para el nivel de significancia establecido es 1.95996398454005"
Como \(z_0\) está dentro del intervalo de confianza, se concluye que no existe evidencia estadística para rechazar la hipótesis nula.
Encontrando los valores de p
Se puede ver de la figura que cuando se trata de una prueba bilateral el valor de \(p\) es la suma de las areas mayor y menor que \(z^*\).
Si el valor de \(p\) es mayor que el nivel de significancia \(\alpha\), la decisión es que no existe evidencia estadística suficiente para rechazar \(H_0\).
Si el valor de \(p\) es menor o igual que el nivel de significancia \(\alpha\), la desición debe ser rechazar \(H_0\).
Por lo tanto:
pval <- 2 * pnorm(z0)
print(paste("Como el valor de p es",pval))
## [1] "Como el valor de p es 0.0583385186868964"
ifelse(pval <= alpha, print('Rechazar H_0'), print('No hay evidencia estadística para rechazar H_0'))
## [1] "No hay evidencia estadística para rechazar H_0"
## [1] "No hay evidencia estadística para rechazar H_0"
Si se considera que la verdadera media de la población es 15.1 cuál es la problabilidad del error tipo II.
muR <- 15.1
zR <- (xbar-muR)/(sigma/sqrt(n))
pR <- pnorm(zR)
print(paste("beta es igual",1-pR))
## [1] "beta es igual 0.881638214681071"
El error tipo II es de 89% aprox y la potencia de la prueba es 10%
En la prueba de hipótesis, el analista secciona directamente la porbabilidad del error tipo I. Sin embargo, la probabilidad del error tipo II depende de la elección hecha para el tamaño de muestra.
Para el cálculo del tamaño de muestra partimos de que existe una diferencia entre \(\mu\,\text{ y } \mu_0\) pudiendo representar esta diferencia como \(\mu=\mu_0+\delta\), donde \(\delta>0\). Entonce el estadístico de prueba \(Z_0\) queda:
\(Z_0=\frac{\bar{X}-(\mu+\delta)}{\sigma/\sqrt{n}}+\frac{\delta\sqrt{n}}{\sigma}\)
de donde la distribución de \(Z_0\) cuando \(H_1\) es verdadera es
\(N\sim N(\frac{\delta \sqrt{n}}{\sigma},1)\)
Quedando representada la distribución en la siguiente figura:
Distribución Z bajo H0 y H1
Del análisis de la figura, se nota que si \(H_1\) es verdadera, entonces se cometerá el error tipo II sólo si \(-z_{\frac{\alpha}2}\leq Z_0 \leq z_{\frac{\alpha}2}\), que aparece como el área sombreada en la figura.
Continuando con el ejercicio anterior se tiene que:
\(\delta = 15.4 - 15.1=0.3,\;\sigma=2.5,\;\alpha=0.05,\;\beta=0.01\)
Calulando los valores de \(z\) se tiene que:
\(z_\frac{\alpha}{2}\,=\,z_{0.025}\,=\,1.96, \; z_{\beta}=z_{0.10}=1.28\)
se tiene que el tamaño de muestra necesario para detectar este alejamiento es:
\(n = \frac{(z_{\frac{\alpha}{2}} + z_{\beta})^2\,\sigma^2}{\delta^2}\)
delta <- mu0 - muR
z.beta <- qnorm(.9)
nE2 <- ((z.half.alpha+z.beta)^2 * sigma^2) / delta^2
print(paste("El tamaño de muestra es:",nE2))
## [1] "El tamaño de muestra es: 729.682157044484"
Que sería el tamaño de muestra necesario para producir un error tipo II con probabilidad \(\beta\), dados \(\alpha\) y \(\delta\).