Motivación
Uno de los objetivos de la estadística es hacer inferencias acerca de parámetros desconocidos de una población con base en información obtenida en una muestra aleatoria. Estas inferencias pueden hacerse de dos forma: por medio de estimaciones de los parámetros o por medio de pruebas de hipótesis para verificar si una cierta afirmación acerca del parámetro puede considerarse como válida basándose en los resultados de una muestra.
Una prueba de hipótesis es muy útil en situaciones donde no es de mucho interés el valor (estimado) del parámetro, sino la validez de la afirmación en cuestión (Zhang, 2010).
Una hipótesis estadística es una afirmación respecto a alguna característica desconocida de una población (generalmente parámetros como la media o la proporción).
basada en la evidencia muestral y en la teorìa de probabilidad
El procedimiento formal para pruebas de hipótesis es semejante al método científico. 1. Éste observa la naturaleza, (plantea una hipótesis respecto a uno o más parámetros) 2. formula una teoría y ( de que son iguales a valores especificados) 3. la confronta con lo observado. (toma una muestra de la población y compara sus observaciones con la hipótesis. Si las observaciones no concuerdan con la hipótesis, las rechaza. De lo contrario, concluye que no tiene evidencia para rechazar la hipótesis - no es lo mismo que aceptarla-)
Por ejemplo, un investigador médico puede plantear la hipótesis de que un nuevo medicamento es más efi caz que otro para combatir una enfermedad. Para probarla, selecciona aleatoriamente pacientes infectados con la enfermedad y los divide en dos grupos. El nuevo medicamento A se administra a los pacientes del primer grupo y el B a los del segundo. Entonces, con base en el número de pacientes de cada grupo que se recuperen de la enfermedad, el investigador decide si el nuevo medicamento es más eficaz que el anterior.
Las pruebas de hipótesis se llevan a cabo en todos los campos en los que la teoría se pueda probar con observaciones.
Reductio ad absurdum
La argumentación para una prueba de hipòtesis es del tipo reducción al absurdo, suponemos que lo que queremos probar es falso y llegamos a una contradicción.
Ejemplo Premisa: Existe un número entero más grade que todos los demás?
Supongamos que dicho número existe, digamos A.
Podemos sumar 1 a A
por lo cual A<A+1
Entonces A+1 es el número entero más grande!
podemos sumar 1 a A+1 y así tenemos el entero más grande A+2
podemos sumar 1 a A+2 ….
Absurdo! Entonces no existe un entero más grande que todos los demás. Se reduce al absurdo la afirmación, lo que prueba que su reciproco es verdadero.
En el caso de una prueba de hipótesis solo podemos hacer la prueba una vez, “la muestra”.
Si con la muestra tenemos información suficiente para rechazar la premisa. ¡¡eureka!! ʘ‿ʘ.
Si la muestra no es suficiente no podemos dar por valida la premisa, solo lo podemos rechazarla diantres! ლ(╥﹏╥ლ).
La cura para el Tyrant-Virus
Supongamos que se desata una epidemia de un nuevo virus, el Tyrant-Virus y hemos creado una nueva medicina experimental para curarla. Suponemos que nuestra funcionará en un 50% de los casos (H0) y nuestra hipótesis alternativa H1 es que nuestro medicamento funciona en más del 50% de los casos. Mediante experimentación le aplicamos la droga a pero cuando se lo dimos a 30 enfermos, y 30 de ellos se curaron. (Sea Y el número de curados)
Bajo la hipotesis nula, que nuestro medicamento sea efectivo un 50% de los casos la muestra con 30 curados es posible pero altamente improbable. Es mucho más probable que observemos Y = 30 si la hipótesis alternativa fuera cierta. Entonces, rechazaríamos la hipótesis nula (p = .5) a favor de la hipótesis alternativa (p >.5). Si observamos Y = 29 (o cualquier valor grande de Y), un razonamiento análogo nos lleva a la misma conclusión.
Esta muestra refuta con alta confianza nuestra hipótesis, pero si obtuviesemos 10 éxitos, o 12, 20 o 24? aún tendrìamos evidencia en la muestra para refutarla. Cuál es el umbral?
Ejemplo error tipo I Suponga que a priori definimos que el Umbral es de 24, es decir que 24 curados o más nos permite concluir que nuestra cura es efectiva, cuál será la probabilidad de equivocarnos? (que concluyamos que la muestra no fue extraìda bajo la hipotesis nula)
\[P(rechazar H0 cuando H0 es verdadera)=α=P(error tipo I)\]
plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha) ", a1<-round(1-pbinom(24,30,0.5),5)))
abline(v=qbinom(pbinom(24,30,0.5),30,0.5))Con esta región de rechazo, asumimos un riesgo pequeño de equivocarnos, es decir suponer que nuestro medicamento no funciona en un 50% de los casos cuando en realidad si lo hace. Es decir la probabilidad de obtener esta muestra “extrema” dado que la hipotesis nula es cierta y rechazarla.
Ejemplo Error tipo II ¿Nuestra prueba es tan buena como para evitar concluir que nuestro tratamiento solo funcionará en un 50% de los casos cuando en realidad es mejor, digamos un 80%? ¿Cuál es la probabilidad de que la muestra erróneamente nos lleve a concluir que H0 es verdadera y en realidad es verdadera Ha?
H0: Suponemos que nuestra funcionará en un 50% de los casos H1 es que nuestro medicamento funciona en más del 50% de los casos.
p_a=0.8
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", b1<-round(pbinom(24,30,p_a),5)))
abline(v=qbinom(pbinom(24,30,p_a),30,p_a))El valor de β depende del verdadero valor del parámetro p. Cuanto mayor sea la diferencia entre p observado y el valor hipotético (nulo) de p = .5, es menos probable que no rechacemos la hipótesis nula.
Supongamos que nuestra medicina funciona un 90% de las veces
p_a=0.90
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", round(pbinom(23,30,p_a),5)))
abline(v=qbinom(pbinom(23,30,p_a),30,p_a))Como bajo ambas hipotesis la distribución del el estadístico comparte valores, cualquier definición de la Región de rechazo contendrá valores probables bajo ambas hipótesis.
Los Ejemplos anteriores nos muestran que la prueba usando una región de rechazo RR=y≥24 garantiza disminuir el riesgo de cometer un error tipo I, pero no controla adecuadamente el error tipo II. ¿Cómo podemos mejorar nuestra prueba? Una forma es balancear α y β al cambiar la región de rechazo. Agrandando la región de rechazo RR en una nueva región de rechazo RR∗ (esto es, RR∗∈RR ), la prueba usando RR∗ nos llevará a rechazar H0 con más frecuencia. Si a * y a denotan las probabilidades de errores tipo I (niveles de las pruebas) cuando usamos RR * y RR como las regiones de rechazo, respectivamente, entonces, como RR∈RR∗ ,
α∗ = P (estadístico de prueba está en RR∗ cuando H0 es verdadera) ≥ P(estadístico de prueba está en RR cuando H0 es verdadera) = α.
Del mismo modo, si usamos la región de rechazo agrandada RR∗ , el procedimiento de prueba nos llevará a aceptar H0 con menos frecuencia. Si b * y b denotan las probabilidades de errores tipo II para las pruebas que usan RR * y RR, respectivamente, entonces
β∗ = P (estadístico de prueba no está en RR∗ cuando Ha es verdadera) ≤ P(estadístico de prueba no está en RR cuando Ha es verdadera) = b.
Si cambiamos la región de rechazo para aumentar α, entonces β disminuirá. Del mismo modo, si el cambio en la región de rechazo resulta en una disminución en α, entonces β aumentará. Por tanto, α, y β están relacionadas de manera inversa.
En el caso de inferencia bayesiana teníamos la posibilidad de realizar repetidamente el experimento e ir actualizando nuestras creencias, en el caso de inferencia´estadítica clásica solo realizamos este proceso una vez, dado que necesitamos controlar los errores debidos a este hecho empleamos muestras “grandes”.
Ejemplo Recalculando las probabilidades de error para una región de rechazo de 20 a más.
plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha)", a2<-round(1-pbinom(20,30,0.5),5)))
abline(v=qbinom(pbinom(20,30,0.5),30,0.5))p_a=0.80
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ",b2<- round(pbinom(20,30,p_a),5)))
abline(v=qbinom(pbinom(20,30,p_a),30,p_a))tabla<-as.data.frame(matrix(c(a1,a2,b1,b2),nrow = 2,byrow = T))
names(tabla)<-c("RR <= 24","RR <= 20")
row.names(tabla)<-c("alpha","beta bajo p=0.8")
tabla## RR <= 24 RR <= 20
## alpha 0.00016 0.02139
## beta bajo p=0.8 0.57249 0.06109
¿Cómo podemos reducirlas ambas? La respuesta es clara y lógica: debemos obtener más información sobre la verdadera naturaleza de la población al aumentar el tamaño muestral. Si α está fijo, β disminuye cuando el tamaño muestral aumenta. Ya hicimos nuestra primera prueba de hipótesis, y mostramos como podemos equivocarnos en nuestras inferencias, ahora formalicemos!
Definición: Prueba de hipótesis
Procedimiento estadístico que, a través del estudio de una muestra aleatoria, permite determinar el cumplimiento de una hipótesis planteada sobre alguna característica de la población.
En forma general, la hipótesis planteada involucra algún parámetro (por ejemplo µ o σ2, un parámetro en una regresión, la prevalencia de una enfermedad en cierta población, o la diferencia en la eficacia de diferentes tratamientos) de la distribución de la que proviene la muestra. La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma en base en la probabilidad y si está es mínima, entonces la hipótesis sería rechazada.
Pasos para una prueba de hipótesis:
Se establece un sistema de hipotesis, compuesto por una hipótesis nula y una alternativa.
Selección del nivel de significancia α
estadístico de prueba (igual que en estimación puntual)
Se supone a priori que la distribución del parámetro en la población es conocido (bajo el supuesto que la hipótesis nula es cierta).
Región de rechazo de la hipótesis nula.
Se extrae una muestra aleatoria de dicha población.
Si la distribución de la muestra es “diferente” de la distribución de probabilidad (el estimador cae en la región de rechazo) que hemos asignado a priori a la población, concluimos que probablemente (α nivel de confianza) sea errónea nuestra hipótesis.
En ningún caso debe confundirse una prueba de hipótesis estadística con una demostración matemática, pues el resultado de una prueba de hipótesis es solo una decisión razonable a partir la evidencia (información contenida en la muestra).
Según la estructura de las hipótesis se distinguen dos tipos de pruebas:
Pruebas bilaterales: En ellos se propone un valor puntual para el parámetro bajo estudio, de forma que se rechazará bien porque la evidencia muestral lleve a decidir que el valor es mayor o menor al propuesto. > Pruebas de hipótesis a dos colas es una forma de evitar hacer afirmaciones falsas, me puedo equivocar por exceso o por defecto. H0:θ=θ0 vs H1:θ≠θ0
Pruebas unilaterales: En ellos se propone que el valor del parámetro se encuentre por debajo del propuesto o en otros casos, por encima de ese valor. H0:θ=θ0 vs H1:θ>θ0 H0:θ=θ0 vs H1:θ<θ0 Ejemplo Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo comparativamente al país. Supongamos que la altura se distribuye normalmente con media 170 y desviación estándar de 5.
Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos H0:
H0 : La altura media no difiere de la del resto del país. Al obtener una muestra de tamaño n = 6, podrìamos encontrarnos ante uno de los siguientes casos:
- Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49}
- Muestra = {1,65; 1,70; 1,73; 1,65; 1,75; 1,65} La muestra 1 contiene evidencia que refuta nuestra hipótesis, mientras que la muestra 2 parece apoyarla. Pero la altura de los habitantes del pueblo puede diferir de los del país por ser:
- mayores, menores (pruebas a una cola)
- o distintas (mayores o menores) Pruebas a dos colas.
mientras que la hipótesis que se acepta cuando la evidencia muestral está claramente en contra de ésta se denomina Hipótesis Alternativa (H1 ) (Hipótesis de investigación o de interés)
Una hipótesis estadística es una afirmación sobre la población, por lo tanto se expresa en términos de los parámetro poblacionales En el ejemplo anterior se pueden plantear las siguientes hipótesis:
El no rechazo de la Hipótesis Nula no supone ninguna prueba de la certeza de ésta, sino la falta de evidencia en la muestra en contra de su validez
Tipos de error al tomar la decisión - Las consecuencias de equivocarnos.
En nuestro ejemplo sobre el virus Tyrant no tuvimos en cuenta el costo de una mala decisión, si resulta que nuestro tratamiento no tiene la efectividad que inferimos podemos tener un problema de salud pùblica, por el contrario si concluimos que no funcionaba cuando en realidad si lo hacía puede resultar empleandose un tratamiento peor y acarrear perdidas económicas para nosotros.