Respecto a la sección pasada los estadìsticos son los mismos, solo que esta vez se calculan bajo la hipótesis nula y se verifica si en la muestra hay suficiente evidencia para refutarla.
Sea \(x_1,...,x_n\) una muestra aleatoria de una población normal con media desconocida y varianza \(σ^2\) conocida. Si se tiene que \[H_0 : \mu = \mu_0\]
Entonces el estadístico de prueba queda definido como:
\[Z_c=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)\]
En caso que se desconozca la varianza y tenga que ser estimada:
\[T_c=\frac{\bar{X}-\mu_0}{S_n/\sqrt{n}}\sim t_{(n-1)}\]
\[Z_c=\frac{\hat p-p}{\sqrt{\frac{\hat p(1-\hat p)}{n}}}\rightarrow N(0,1)\]
La el estadístico de prueba pivote está dada por: \[\chi^2_c=\frac{(n-1)S^2_n}{\sigma_0^2}\sim\chi^2_{(n-1)}\]
Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales.
El esdadístico de prueba se distribuye normal (la suma de normales es normal) está dada por: \[Z_c=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\] \[\mu_x-\mu_y=\Delta\] Por lo general \(\Delta=0\)
El estadìstico de prueba está dado por: \[T_c=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]
Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).
El estadìstico de prueba: \[T_c=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]
Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].
Un concepto importante en una prueba de hipótesis es la región de rechazo asociada a una regla de decisión, y se define como el conjunto conformado por todos lo valores de la estadística prueba que conducen a la decisión de rechazar \(H_0\) . Según el tipo de hipótesis que se tenga, el estadístico de prueba y en nivel de significancia, se puede obtener una región de rechazo.
Para el ejemplo del nivel de contaminación por CO se plantea la siguiente hipótesis: \[H_0 : µ = 5,5 \] \[vs\] \[H_1 : µ < 5,5\]
Si luego de tomar una muestra se observa que luego de tomar una muestra de 20 motocicletas se encuentra que \(\bar x\) = 5,3, ¿podemos determinar que las motocicletas cumplen con la reglamentación ambiental? ¿y si encuentra que \(\bar x\)= 3 ?
\(H_0\) : \(\mu = \mu_0\). \(H_a\) :
Estadístico de prueba: \(EP\)
Región de rechazo:
{ \(EP > EP_\alpha\) } (RR de cola superior)
{\(|EP| \ne EP_{\alpha/2}\) (RR de dos colas)
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación de \(\alpha = 0,05\) si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n = 25 personas se obtuvo:
\[\bar x = 170 cm\] \[S = 10 cm\]
La prueba de hipótesis que se plantea: \[H_0 : \mu = 174 cm\] \[H_1 : \mu \ne 174 cm\] La técnica a utilizar consiste en suponer que \(H_0\) es cierta y ver si el valor que toma el estadístico
Bajo la hipótesis nula:
\[T_c=\frac{\bar{X}-174}{S_n/\sqrt{n}}\sim t_{(24)}\]
es razonable o no bajo esta hipótesis, para el nivel de significancia dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazar´a la hipótesis nula) si no lo es, es decir, si
\[|T_c| ≥ t_{24;1−α/2} = t_{24,0.975} = 2.06\]
\[\displaystyle |T_c | = |\frac{ 170 − 174 }{\frac{10}{\sqrt{25}}}|=|-2| \le t_{24,0.975} = 2.063899\]
tc<-(170-174)/(10/(25^(1/2)))
talpha<-qt(0.975,24)
abs(tc)
## [1] 2
talpha
## [1] 2.063899
abs(tc)<talpha
## [1] TRUE
Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95 %. Es decir, no se rechaza \(H_0\).
x <- seq(-4, 4, length=100)
hx <- dnorm(x)
degf <- c(1, 3, 8, 30)
colors <- c("red", "blue", "darkgreen", "gold", "black")
labels <- c("df=1", "df=3", "df=8", "df=30", "normal")
plot(x, hx, type="l", lty=2, xlab="x value",
ylab="Density", main="Comparación de distribuciones")
for (i in 1:4){
lines(x, dt(x,degf[i]), lwd=2, col=colors[i])
}
legend("topright", inset=.05, title="Distribuciones",
labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors)
x <- seq(-4, 4, length=100)
hx <- dnorm(x)
degf <- 24
colors <- "red"
plot(x, hx, type="l", lty=2, xlab="x value",
ylab="Density")
abline(v=abs(tc), col=4)
#abline(v=tc, col=4)
abline(v=talpha)
abline(v=-talpha)
El valor de \(T_c\) no está en la región crítica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza.
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la poblaci´on sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm.
Para realizar este contraste, consideramos el caso l´ımite y observamos si la hip´otesis nula debe ser rechazada o no. Este es:
\[H_0: µ = 174 cm\] \[vs\] \[H_1 : µ < 174 cm\] De nuevo la técnica a utilizar consiste en suponer que \(H_0\) es cierta y ver si el valor que toma el estadístico
\[T_c=\frac{\bar{X}-174}{S_n/\sqrt{n}}\sim t_{(24)}\]
es aceptable bajo esta hipótesis, con un nivel de confianza del 95 %. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si
\(T_c ≤ t24\);α = −t24;1−α = −t24;0,95 = −1, 71
\[\displaystyle T_c = \frac{ 170 − 174 }{\frac{10}{\sqrt{25}}}=-2 \le t_{24,0.05} =-1.71\]
Por ello aceptamos la hipotesis alternativa
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que \(\mu \ne 174\ cm\), el “simple hecho” de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que µ = 174 y aceptamos que µ < 174 cm.
tc<-(170-174)/(10/(25^(1/2)))
talpha<-qt(0.05,24)
tc
## [1] -2
talpha
## [1] -1.710882
tc<talpha
## [1] TRUE
x <- seq(-4, 4, length=100)
hx <- dnorm(x)
degf <- 24
colors <- "red"
plot(x, hx, type="l", lty=2, xlab="x value",
ylab="Density")
abline(v=tc, col=4)
abline(v=talpha)