El objetivo de este capítulo es que alumno pueda definir la hipótesis de un problema y sepa diferenciar la hipótesis nula de la alternativa
| Parámetro | Muestra | Población |
|---|---|---|
| Proporción | \(\hat{p}\) | \(p\) |
| Media | \(\bar{x}\) | \(\mu\) |
| Desviación estandar | \(s\) | \(\sigma\) |
| Varianza | \(s^2\) | \(\sigma^2\) |
| \(H_0\) es verdadera | \(H_0\) es falsa | |
|---|---|---|
| Rechaza \(H_0\) | ERROR TIPO I (\(\alpha\)) | Decisión correcta |
| Acepta \(H_0\) | Decisión correcta | ERROR TIPO II (\(\beta\)) |
Un hipótesis es una AFIRMACIÓN sobre una propiedad de la POBLACIÓN. La prueba de hipotesis es someter la hipótesis planteada a un análisis para determinar si se cumple o no dicha afirmación. Para realizar una prueba de hipótesis debemos primero definir la hipotesis nula \(H_0\) y la hipótesis alternativa \(H_1\) (puede haber más de una hipótesis alternativa). La Hipotesis nula (\(H_0\)) es la afirmación que el parpametro propuesto se cumple en la población. La Hipotesis alternativa (\(H_1, H_a, H_A\) ) es la afirmación que el parpametro propuesto difiere o no se cumple en la población.
Esta parte es más facil entenderla con un ejemplo. Supongase Ud. que quiere saber si el uso de asientos ergonómicos mejora la producción de los empleados de una empresa productora de autopartes que tiene un producción de 2300 autopartes por mes, disminuye la tasa de error de los trabajadores que usualmente es de 0.03 a 0.025. Si definimos la afirmación a probar sería la siguiente:
“El uso de asientos ergonómicos disminuye la tasa de error de los trabajadores”
Simbolicamente esto se podría expresar de la siguiente forma:
\[p < 0.03\]
En el caso de que no se cumpla la afirmación anterior, la representación simbólica sería:
\[p = 0.03\]
Para identificar la hipotesis nula podemos preguntarnos ¿Cuál es la tendencia usual de la población?, la tendencia usual de la población es que haya una tasa de error de 0.03, esta sería la hipótesis nula. Por descarte, la hipótesis alternativa sería la otra. Si lo expresamos en forma simbólica tendríamos lo siguiente:
Definir la significancia implica la probabilidad de rechazar la hipótesis nula cuando esta es verdadera. En nuestro ejemplo, esto sería rechazar que la tasa de error es de 0.03 por el uso de los asientos ergonómicos cuando realmente, la tasa es la misma con o sin asientos ergonómicos. A esto se llama ERROR TIPO I
Como vimos en el capítulo anterior, podmeos aproximar la distribución de las porporciones, medias y desviaciones/varinzas muestrales a las distribuciones en z, en t de student o la de chi cuadrado, respectivamente. Hagamos una tabla para recordar ello:
| Parámetro | Distribución muestral | Requisito | Estadistico de prueba |
|---|---|---|---|
| Proporción \(p\) | Normal (z) | \(n.p>5; n.q>5\) | \(z=\frac{\hat{p}-p}{\sqrt{\frac{p.q}{n}}}\) |
| Media \(\mu\) | t de student | \(\sigma\) desconocida y población dist. normal \(\sigma\) desconocida y n>30 | \(t= \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\) |
| Media \(\mu\) | Normal (z) | \(\sigma\) conocida y población dist. normal \(\sigma\) conocida y n>30 | \(z=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\) |
| Des. est \(\sigma\) | \(X^2\) | Población dist. normal | \(X^2=\frac{(n-1)\sigma^2}{\sigma^2}\) |
En este caso, lo que estamos viendo es una proporción, por lo tanto la distribución que se aproxima es la de z. Si hubieramos visto el promedio de procucción de autopartes por mes de una empresa entonces deberíamos aplicar una distribución de t de student. Por otro lado, si la empresa quisiera determinar la variación en el promedio de las compras en linea, con la reciente pandemia de COVID, deberíamos aproximarlo a una distribución de \(X^2\)
El dato estadístico de prueba se define como el valor de la hipotesis nula \(H_0\) que toma en la distribución correspondiente. En nuestro caso, estamos trabajando con una proporciones, en el paso anterior definimos que debemos aproximarnos a una distribión normal z, y tenemos una p = 0.03 con una n=2300, entonces reemplazando en la fórmula: \[\begin{equation} z=\frac{\hat{p}-p}{\sqrt{\frac{p.q}{n}}} \\ z=\frac{0.025-0.03}{\sqrt{\frac{(0.03).(1-0.03)}{2300}}} \\ z= \frac{-0.005}{0.0036} \\ z= -1.4057 \end{equation} \] Ahora que ya definimos el valor del estadístico de prueba, a continuación debemos definir cual es el rango o región de rechazo. Para ello debemos pensar si debemos rechazar ambas colas, o una de las colas. Para definir ello, haremos otra pequeña tabla
| Condición de hipotesis alternativa | Región de rechazo |
|---|---|
| \(H_1: p\neq 0.03\) | Prueba de dos colas |
| \(H_1: p< 0.03\) | Prueba de cola izquierda |
| \(H_1: p> 0.03\) | Prueba de cola derecha |
En nuestro caso, queremos saber si la proporción de error disminuye, entonces estamos con el supuesto de \(H_1: p< 0.03\) es decir que nuestro región de rechazo es de cola izquierda. Lo que corresponde ahora es definir los valores críticos para saber si aceptamos o rechazamos la hipotesis nula. Suponiendo que nosotros queremos un nivel de significancia del 95%, podríamos calcular el valor crítico con la función qnorm(), para un área bajo de curva del 0.05 (porque solo tenemos una cola en la región de rechazo y es a la izquierda)
qnorm(0.05)
## [1] -1.644854
Esto quiere decir, que todos los valores de z que sean menores a -1.644854 se encontrarán en la zona de rechazo.
En este punto debemos establecer si se acepta o rechaza la hipotesis nula. Con un intervalo de confianza del 95% el valor crítico es de -1.644854, y la hipótesis nula se rechazará si el valor del estadistico es menor del valor crítico, la región de rechazo es de cola izquierda. En nuestro caso, el valor del estadístico es de -1.4057, que está fuera de la región de rechazo, por lo que no se puede rechazar la hipótesis nula.
Para redactar la conclusión terminos no tecnicos podemos usar la siguiente fórmula “No existe evidencias suficientes para respaldar la afirmación de que” + “el uso de asientos ergonómicos disminuye la tasa de error de los trabajadores”.