Una hipótesis estadística es una afirmación respecto a una característica de una o varias variables medidas sobre una población.
Esta hipótesis puede ser cierta o no. La mejor manera de averiguar si una hipótesis es cierta o no sería examinar toda la población. Como en general esto no es factible, se toma una muestra aleatoria de la población y se realiza un contraste de hipótesis.
Ejemplos:
La edad media de la población humana es de más de 40 años.
En la poblacion de los leones, menos del 50% son hembras.
Menos de un 2% de los hombres tiene los ojos verdes.
La prporcion de aprobados en selectividad por parte de alumnos de centros privados es menor que en el caso de los alumnos de centros públicos.
Un contraste de hipótesis es un procedimiento formal para rechazar o no una hipótesis estadística planteada sobre una variable a nivel poblacional, utilizando para ello informacion de la variable a nivel muestral.
Se aceptará una hipotesis estadistica cuando dicha hipotesis se cumpla a nivel muestral de una manera significativa (no vale que se cumpla solamente, sino que tiene que cumplirse de un modo lo suficientemente notable). Este punto es clave en los contrastes de hipotesis en particular y en la inferencia estadistica en general.
Cuanto mayor sea la evidencia muestral (evidencia en los datos) a favor de una hipotesis estadistica, mas “facil” será aceptar dicha hipotesis a nivel poblacional. Y viceversa.
La hipoteis a contrastar puede ser referente a una variable medida en una poblacion, o varias variables medidas en la misma poblacion, o varias variables medidas en distintas poblaciones, o una variable medida en distintas poblaciones.
La hipótesis nula, \(H_0\), es la hipótesis por defecto.
\(H_0\) se mantiene, a no ser que los datos indiquen su falsedad.
\(H_0\) nunca se considera probada.
\(H_0\) se rechaza si la muestra de datos proporciona suficiente evidencia de que es falsa.
La hipótesis alternativa, \(H_1\), es habitualmente la que el investigador quiere demostrar como cierta.
Cuando se rechaza \(H_0\), se admite que \(H_1\) es cierta.
Si no se especifica \(H_1\) de manera explícita, se considera definida implícitamente como la negacion de \(H_0\)
En un contraste de hipótesis no se trata de juzgar cuál de las dos hipótesis, \(H_0\) ó \(H_1\), es más verosímil, sino de decidir si la muestra proporciona o no suficiente evidencia como para rechazar \(H_0\) en favor de \(H_1\). Y cuando se rechaza \(H_0\), se admite que \(H_1\) es cierta.
Un contraste de hipótesis puede ser:
Relativo a más de una variable, por ejemplo:
Dos variables independientes, \(X_k\) e \(X_r\) , de las que se tienen dos muestras.
Una variable bivariante, \((X_k , X_r)\), de la que se tiene una muestra pareada
Paramétrico: Se asume un modelo paramétrico sobre la distribucion de la variable, por ejemplo, se asume que \(X_k \sim N(\mu , \sigma )\)
No paramétrico: No se asume ningún modelo paramétrico sobre la distribución de la variable.
Para cualquier decisión que se tome, hay cuatro posibilidades:
Condición —> | \(H_0\) es cierta | \(H_0\) es falsa |
---|---|---|
Rechazar \(H_0\) | Error Tipo I | Decision Correcta |
No Rechazar \(H_0\) | Decisión Correcta | Error Tipo II |
Lo ideal sería encontrar un test que hiciese mínima las probabilidades de ambos errores. Sin embargo, esto no es posible, ya que la reducción de la probabilidad de un tipo de error hace que aumente la probabilidad del otro tipo de error.
Como se considera que el error más grave es el de tipo I, se le impondrá una cota, \(\alpha\), llamada nivel de significación, (normalmente 0.05 ó 0.01):
\[\begin{equation*} P(Rechazar \ H_0 \mid H_0 \ cierta) = Pr(Error \ tipo \ I) \ \leq \ \alpha \end{equation*}\]
La probabilidad de cometer un error de tipo II es:
\[\begin{equation*} \beta=P( Error \ Tipo \ II ) = P ( No \ Rechazar \ H_0 \mid H_0 falsa ) \end{equation*}\]
La potencia de un contraste es la probabilidad de NO cometer un error de tipo II:
\[\begin{equation*} Potencia = P( No \ Error \ Tipo \ II) = 1 - \beta = P(Rechazar \ H_0 \mid H_0 \ falsa) \end{equation*}\]
La potencia de un contraste disminuye cuando \(\alpha\) disminuye.
La potencia de un contraste aumenta cuanto mayor es el tamaño de la muestra.
La potencia de un contraste aumenta cuanto mayor es la diferencia entre \(H_0\) y la realidad.
- Las reglas de decisión se se basan en un estadistico de
contraste, que es una medida de discrepancia entre los datos
observados y \(H_0\) , de modo que
cuando la discrepancia sea suficiente grande se rechace \(H_0\) en favor de \(H_1\). También tienen en cuenta el nivel de
significación \(\alpha\) fijado.
La regla de decisión tiene que ser tal que \(P( Rechazar \ H_0 | H_0 ) \leq \alpha\)
Los pasos para resolver un contraste de hipótesis son:
Plantear las hipótesis nula, \(H_0\), y alternativa, \(H_1\).
Definir un estadístico de contraste cuya distribución sea conocida cuando \(H_0\) es cierta.
Fijar un nivel de significación, \(\alpha\), (normalmente 0.05 ó 0.01) y determinar la regla de decisión.
Tomar una muestra de datos y calcular el valor del estadístico de contraste. Luego aplicar la regla de decisión.
El p-valor es la probabilidad de encontrar una discrepancia entre \(H_0\) y \(H_1\) mayor o igual que la observada en los datos, bajo el supuesto de que \(H_0\) es cierta.
\(pvalor=P(\)Observar igual o mas evidencia a favor de \(H_1\) de la ya observada en la muestra | \(H_0\) cierta\()\)
El p-valor no se fija a priori, sino que depende de los datos.
Usando el p-valor como regla de decisión se puede resolver el contraste para cualquier \(\alpha\):
Si \(pvalor < \alpha\) \(\Rightarrow\) \(Rechazar\) \(H_0\)
Si \(pvalor \geq \alpha\) \(\Rightarrow\) \(No \ Rechazar\) \(H_0\)
El p-valor es el menor nivel de significación para el que se puede rechazar \(H_0\) , para la evidencia disponible.
El p-valor se puede interpretar como una medida de la evidencia a favor de \(H_1\).
Intuición del p-valor
Si el pvalor es muy alto, entonces bajo \(H_0\) es muy probable observar una evidencia igual o mayor a la que ya se ha observado a favor de \(H_1\). Luego, se ha observado un suceso que es “normal” bajo \(H_0\), lo cual no da indicios en contra de \(H_0\).
Si el pvalor es muy bajo, entonces bajo \(H_0\) es muy poco probable observar una evidencia igual o mayor a la que ya se ha observado a favor de \(H_1\). Luego, se ha observado un suceso que es muy “raro” bajo \(H_0\), lo cual indicaria que \(H_0\) no ha ocurrido (indicios contra \(H_0\)).
Los pasos para resolver un contraste de hipótesis utilizando el p-valor son:
Plantear la hipótesis nula, \(H_0\), y alternativa, \(H_1\).
Definir un estadístico de contraste cuya distribución sea conocida si \(H_0\) es cierta.
Fijar un nivel de significación \(\alpha\)
Calcular el p-valor. Si este es suficientemente pequeño (menor que \(\alpha\)), rechazar \(H_0\).
Apuntes de la profesora Sandra Benitez Peña de la UC3M.