Estadístico de prueba (variable pivote en el lenguaje de pruebas de hipótesis)

Respecto a la sección pasada los estadìsticos son los mismos, solo que esta vez se calculan bajo la hipótesis nula y se verifica si en la muestra hay suficiente evidencia para refutarla.

Hipótesis sobre \(\mu\):

Sea \(x_1,...,x_n\) una muestra aleatoria de una población normal con media desconocida y varianza \(σ^2\) conocida. Si se tiene que \[H_0 : \mu = \mu_0\]

Entonces el estadístico de prueba queda definido como:

\[Z_c=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)\]

En caso que se desconozca la varianza y tenga que ser estimada:

\[T_c=\frac{\bar{X}-\mu_0}{S_n/\sqrt{n}}\sim t_{(n-1)}\]

Hipótesis sobre \(p\):

\[Z_c=\frac{\hat p-p}{\sqrt{\frac{\hat p(1-\hat p)}{n}}}\rightarrow N(0,1)\]

Para la varianza (\(\sigma\)):

La el estadístico de prueba pivote está dada por: \[\chi^2_c=\frac{(n-1)S^2_n}{\sigma_0^2}\sim\chi^2_{(n-1)}\]

Para la diferencia de medias (\(\mu_x-\mu_y\)):

Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales.

Con \(\sigma_x^2\) y \(\sigma_y^2\) conocidas:

El esdadístico de prueba se distribuye normal (la suma de normales es normal) está dada por: \[Z_c=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\] \[\mu_x-\mu_y=\Delta\] Por lo general \(\Delta=0\)

Con \(\sigma_x^2=\sigma_y^2\) desconocidas:

El estadìstico de prueba está dado por: \[T_c=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]

Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).

Con \(\sigma_x^2\neq\sigma_y^2\) desconocidas:

El estadìstico de prueba: \[T_c=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]

Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].

Región de rechazo

https://xkcd.com/539/

Un concepto importante en una prueba de hipótesis es la región de rechazo asociada a una regla de decisión, y se define como el conjunto conformado por todos lo valores de la estadística prueba que conducen a la decisión de rechazar \(H_0\) . Según el tipo de hipótesis que se tenga, el estadístico de prueba y en nivel de significancia, se puede obtener una región de rechazo.

Para el ejemplo del nivel de contaminación por CO se plantea la siguiente hipótesis: \[H_0 : µ = 5,5 \] \[vs\] \[H_1 : µ < 5,5\]

Si luego de tomar una muestra se observa que luego de tomar una muestra de 20 motocicletas se encuentra que \(\bar x\) = 5,3, ¿podemos determinar que las motocicletas cumplen con la reglamentación ambiental? ¿y si encuentra que \(\bar x\)= 3 ?

\(H_0\) : \(\mu = \mu_0\). \(H_a\) :

Estadístico de prueba: \(EP\)

Región de rechazo:

Ejemplo Prueba de hipótesis para la media

Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación de \(\alpha = 0,05\) si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n = 25 personas se obtuvo:

\[\bar x = 170 cm\] \[S = 10 cm\]

Solución:

La prueba de hipótesis que se plantea:  \[H_0 : \mu = 174 cm\] \[H_1 : \mu \ne 174 cm\] La técnica a utilizar consiste en suponer que \(H_0\) es cierta y ver si el valor que toma el estadístico

Bajo la hipótesis nula:

\[T_c=\frac{\bar{X}-174}{S_n/\sqrt{n}}\sim t_{(24)}\]

es razonable o no bajo esta hipótesis, para el nivel de significancia dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazar´a la hipótesis nula) si no lo es, es decir, si

\[|T_c| ≥ t_{24;1−α/2} = t_{24,0.975} = 2.06\]

\[\displaystyle |T_c | = |\frac{ 170 − 174 }{\frac{10}{\sqrt{25}}}|=|-2| \le t_{24,0.975} = 2.063899\]

tc<-(170-174)/(10/(25^(1/2)))
talpha<-qt(0.975,24)

abs(tc)
## [1] 2
talpha
## [1] 2.063899
abs(tc)<talpha
## [1] TRUE

Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95 %. Es decir, no se rechaza \(H_0\).

Mini distribución t

x <- seq(-4, 4, length=100)
hx <- dnorm(x)

degf <- c(1, 3, 8, 30)
colors <- c("red", "blue", "darkgreen", "gold", "black")
labels <- c("df=1", "df=3", "df=8", "df=30", "normal")

plot(x, hx, type="l", lty=2, xlab="x value",
  ylab="Density", main="Comparación de distribuciones")

for (i in 1:4){
  lines(x, dt(x,degf[i]), lwd=2, col=colors[i])
}

legend("topright", inset=.05, title="Distribuciones",
  labels, lwd=2, lty=c(1, 1, 1, 1, 2), col=colors)

x <- seq(-4, 4, length=100)
hx <- dnorm(x)

degf <- 24
colors <- "red"

plot(x, hx, type="l", lty=2, xlab="x value",
  ylab="Density")
  abline(v=abs(tc), col=4)
  #abline(v=tc, col=4)
  abline(v=talpha)
  abline(v=-talpha)

El valor de \(T_c\) no está en la región crítica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza.

Ejemplo prueba unilateral

Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la poblaci´on sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm.

Para realizar este contraste, consideramos el caso l´ımite y observamos si la hip´otesis nula debe ser rechazada o no. Este es:  

\[H_0: µ = 174 cm\] \[vs\] \[H_1 : µ < 174 cm\] De nuevo la técnica a utilizar consiste en suponer que \(H_0\) es cierta y ver si el valor que toma el estadístico

\[T_c=\frac{\bar{X}-174}{S_n/\sqrt{n}}\sim t_{(24)}\]

es aceptable bajo esta hipótesis, con un nivel de confianza del 95 %. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si

\(T_c ≤ t24\);α = −t24;1−α = −t24;0,95 = −1, 71

\[\displaystyle T_c = \frac{ 170 − 174 }{\frac{10}{\sqrt{25}}}=-2 \le t_{24,0.05} =-1.71\]

Por ello aceptamos la hipotesis alternativa

Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que \(\mu \ne 174\ cm\), el “simple hecho” de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que µ = 174 y aceptamos que µ < 174 cm.

tc<-(170-174)/(10/(25^(1/2)))
talpha<-qt(0.05,24)

tc
## [1] -2
talpha
## [1] -1.710882
tc<talpha
## [1] TRUE
x <- seq(-4, 4, length=100)
hx <- dnorm(x)

degf <- 24
colors <- "red"

plot(x, hx, type="l", lty=2, xlab="x value",
  ylab="Density")
  abline(v=tc, col=4)
  abline(v=talpha)