Las pruebas de hipótesis hacen parte de la inferencia estadística, a diferencia de la estimación, en la cuál se busca un valor puntual o un rango de valores con cierta confiabilidad (estimación por intervalo), en las pruebas de hipótesis se busca rechazar o no rechazar una afirmación sobre el valor de un parámetro, con base en la información que brinde la muestra.
Al finalizar este módulo, el estudiante estará en la capacidad de decidir la prueba que debe utilizar de acuerdo a su problema de investigación, entender qué errores podría estar cometiendo y de igual forma, podrá ejecutar dicha prueba de hipótesis en R.
Se busca evaluar la efectividad de dos tratamientos para bajar de peso: dieta vs dieta + actividad física dirigida, ¿existen diferencias entre los dos tratamientos?
En el proceso de contrastar (probar) una hipótesis estadística, utilizamos los pasos del método científico: 1. Observar. 2. Plantear una hipótesis estadística. 3. Experimentar (observar una muestra aleatoria). 4. Analizar los resultados con respecto a la hipótesis planteada. 5. Concluir.
Para ésto, buscamos encontrar evidencia en la muestra que permita rechazar la hipótesis; pero, si la muestra no nos da evidencia en contra, diremos que no tenemos argumentos suficientes para rechazarla.
Hipótesis: Es una afirmación sobre la distribución de la población, que comúnmente se expresa por medio de un parámetro \(\theta\in\Theta\), donde \(\Theta\) es el conjunto de todos los posibles valores que puede asumir \(\theta\).
Ejemplos:
Hipótesis nula: Es la hipótesis que refleja el conocimiento actual acerca de la población sobre la cual se basa el juzgamiento. Es la hipótesis que al final del proceso vamos a rechazar o no rechazar. \[ H_0: \theta\in\Theta_0\qquad \text{donde $\Theta_0\subset\Theta$.} \]
Hipótesis alternativa: Es la hipótesis que quiere probar el investigador. \[ H_1: \theta\in\Theta_1\qquad\text{donde $\Theta_1\subset\Theta$ y $\Theta_1\cap\Theta_0=\emptyset$.} \] Sistema de hipótesis: Es la pareja conformada por la hipótesis nula y la hipótesis alternativa.
\[H_0: \theta\in\Theta_0\qquad \text{frente a}\qquad H_1: \theta\in\Theta_1\] Test: Regla, norma, procedimiento o protocolo que permite tomar la decisión (rechazar la hipótesis nula o no rechar la hipótsis nula).
\[H_0: \theta_1=\theta_2\text{ vs }H_1: \theta_1\neq\theta_2\] donde, por ejemplo, \(\theta_1\) es la proporción de personas que bajan de peso en el grupo de solo dieta y \(\theta_2\) es la proporción de personas que bajan de peso en el grupo de dieta y actividad física. Un test podría estar dado por:
\[\tau:\text{Rechazar }H_0\text{ si }p_2>p_1\] donde, \(p_1\) es la proporción de personas de la muestra que bajó de peso en el grupo de solo dieta y \(p_2\) es la proporción de personas de la muestra que bajó de peso en el grupo de dieta y actividad física.
A la hora de hacer un constraste, es posible que la muestra que seleccionemos no necesariamente nos dé evidencias sobre lo que ocurre en la población, por lo que podríamos rechazar \(H_0\) cuando en realidad es cierta o lo contrario:
Errores tipo en el juzgamiento de hipótesis
El error tipo I consiste en rechazar la hipótesis nula, cuando ésta es cierta. A la probabilidad de cometer el error tipo I se le llama nivel de significancia (\(\alpha\)) y se debe fijar antes del inicio del estudio: \[\alpha=Pr(\text{Rechazar }H_0\mid H_0\text{ es cierta})\]
Supongamos que el nivel de significancia se fijó en \(10\%\), lo cuál significaría, que en el 10% de los casos podríamos decir que hay diferencias entre los tratamientos cuando en realidad no las hay.
El error tipo II consiste en no rechazar la hipótesis nula, cuando ésta es falsa. A la probabilidad de cometer este error se le llama función característica (\(\beta(\theta)\)) y se puede calcular para cada \(\theta\in\Theta_1\): \[\beta(\theta)=Pr_\theta(\text{No rechazar }H_0\mid H_0\text{ es falsa})\] Es una función, pues dado que no conocemos el verdadero valor del parámetro \(\theta\), se debe calcular para los posibles valores de éste bajo la hipótesis alterna.
Al complemento de la función característica se le llama función de potencia:
\[\pi(\theta)=1-\beta_\tau(\theta)=P_\theta(\text{Rechazar }H_0\mid H_0\text{ es falsa})\]
En nuestro ejemplo, la función de potencia correspondería a la probabilidad de decir, con base en la muestra, que los tratamientos son diferentes, cuando en realidad lo son.
El valor \(p\) se define como \[ p = Pr(\text{observar datos tan o más extremos en dirección de } H_1\mid H_0\text{ es cierta}) \] esto es, el valor \(p\) es la probabilidad de observar una coincidencia al menos tan extraordinaria como el fenómeno observado, bajo la hipótesis nula, y por lo tanto se puede entender como el “nivel de significacia más pequeño” con el cuál se rechazaría la hipótesis nula.
Así, uno de los test más simples, para cualquier sistema de hipótesis es: \[\tau:\text{Rechazar }H_0\text{ si el valor }p<\alpha\]
¿Cómo decidir si se debe rechazar o no la hipótesis nula?
Dada \(X_1,X_2,...,X_n\) una muestra aleatoria de una población \(N(\mu, \sigma^2)\). El proceso de juzgamiento de hipótesis para \(\mu\) se puede resumir en el siguiente esquema:
Juzgamiento de hipótesis sobre el promedio poblacional. Tomado de: Mayorga, 2004
Donde \(z_p\) es el percentil de orden \(p\) de una normal estándar y \(t_p(v)\) es el percentil de orden \(p\) de una distribución \(t\) con \(v\) grados de libertad.
Observaciones
Podemos utilizar éstos tests de acuerdo al caso (\(\sigma^2\) conocida o desconocida), cuando:
La distribución de la población es normal, sin importar el tamaño muestral.
El tamaño muestral es suficientemente grande para aplicar los teoremas de convergencia.
Se seleccionó una muestra de 100 estudiantes de la Facultad de Ciencias, el objetivo de dicho estudio era determinar si en promedio los estudiantes de dicha Facultad no tienen sobrepeso (IMC<25) con un nivel de significancia del \(5\%\). Asumiendo que el índice de masa corporal en dicha población tiene distribución normal, ¿la muestra corrobora la hipótesis de investigación?.
Dado lo anterior, el sistema de hipótesis a probar es el siguiente:
\[H_0:\mu\geq 25\text{ vs }H_1: \mu< 25\]
#simulación de la muestra aleatoria
imc<-rnorm(100,26,5)
boxplot(imc, ylab="IMC")
#Prueba de normalidad
shapiro.test(imc)
##
## Shapiro-Wilk normality test
##
## data: imc
## W = 0.99138, p-value = 0.7747
#Prueba sobre el promedio poblacional del imc
#note que el parámetro "alternative" se cambia de acuerdo a la hipótesis alternativa que se requiera
t.test(imc, mu=25, alternative = "less")
##
## One Sample t-test
##
## data: imc
## t = 3.8533, df = 99, p-value = 0.9999
## alternative hypothesis: true mean is less than 25
## 95 percent confidence interval:
## -Inf 27.60766
## sample estimates:
## mean of x
## 26.82239
Dado que el valor \(p>0.05\), no tenemos evidencias estadísticas para afirmar que los estudiantes de la Facultad de Ciencias, en promedio, tienen un imc normal.
Dada \(X_1,X_2,...,X_n\) una muestra aleatoria de una población \(N(\mu, \sigma^2)\). El proceso de juzgamiento de hipótesis para \(\sigma^2\) se puede resumir en el siguiente esquema:
Juzgamiento de hipótesis sobre la varianza poblacional. Tomado de: Mayorga, 2004
Generalmente \(\epsilon=\alpha/2\) y \(\delta=1-\alpha/2\). Además, \(\chi^2_p(v)\) es el percentil de orden \(p\) de una de una distribución \(\chi^2\) con \(v\) grados de libertad.
Adaptado de Barón F.J..
El calcio se presenta normalmente en la sangre de los mamíferos en concentraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La desviación típica normal de esta variable es 1 mg de calcio por cada 100 ml del volumen total de sangre, una variabilidad mayor a esta puede ocasionar graves trastornos en la coagulación de la sangre. Un investigador sospecha que en una parte de la región Andina colombiana, los mamíferos que la habitan tienen concentraciones de calcio que podrían causar trastornos en la coagulación. Para evaluar su hipótesis, con un 1% de significancia, seleccionó una muestra de 60 individuos de la región, para cuál obtuvo una desviación estándar de 0.89 mg por cada 100 ml. De acuerdo a lo anterior y suponiendo que la concentración de calcio se distribuye normalmente, ¿qué puede concluir?.
Dada una muestra aleatoria \(X_1,X_2,...,X_n\) de una población \(Ber(\pi)\). Se tienen los siguientes sistemas de hipótesis:
\[\text{Sistema A: }H_0:\pi=\pi_0\text{ vs }H_1:\pi<\pi_0\] \[\text{Sistema B: }H_0:\pi=\pi_0\text{ vs }H_1:\pi>\pi_0\] \[\text{Sistema C: }H_0:\pi=\pi_0\text{ vs }H_1:\pi\neq\pi_0\] El estadístico de prueba está dado por:
\[Z_c=\frac{P-\pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}\] Y los tests, respectivamente son:
\[\tau_A:\text{Rechazar }H_0\text{ si }z_c<z_{\alpha}\]
\[\tau_B:\text{Rechazar }H_0\text{ si }z_c>z_{1-\alpha}\]
\[\tau_C:\text{Rechazar }H_0\text{ si }|z_c|>z_{1-\alpha/2}\]
Suponga que en el ejemplo anterior se busca determinar,con 5% de significancia, si la proporción de estudiantes, de la Facultad de Ciencias, con obesidad está por encima del \(30\%\). Dado lo anterior, el sistema de hipótesis a probar es el siguiente:
\[H_0:\pi\leq 0.3\text{ vs }H_1:\pi> 0.3\]
#Prueba sobre la proporción poblacional
imc_30<-ifelse(imc>30,1,0)
n<-length(imc_30)
p<-mean(imc_30)
pi0<-0.3
#estadístico de prueba
z<-(p-pi0)/sqrt(pi0*(1-pi0)/n)
print(z)
## [1] -0.6546537
#límite inferior de la región de rechazo
qnorm(0.95)
## [1] 1.644854
Al igual que la anterior, la prueba de Shapriro Wilk se utiliza para verificar la normalidad de una población:
\[H_0:\text{Los datos tienen distribución normal vs }H_1:\text{Los datos no tienen distribución normal}\]
shapiro.test(imc)
##
## Shapiro-Wilk normality test
##
## data: imc
## W = 0.99138, p-value = 0.7747
Dadas \(X_1,X_2,...,X_{n}\) una muestra aleatoria de una población \(N(\mu_1, \sigma_1^2)\) y \(Y_1,Y_2,...,Y_{m}\) una muestra aleatoria de una población \(N(\mu_2, \sigma_2^2)\), independientes, se tienen los siguientes sistemas de hipótesis y test:
Juzgamiento de hipótesis para comparación de promedios poblacionales. Tomado de: Mayorga, 2004
En caso de querer probar sobre la igualdad de las medias de las dos poblaciones, se toma \(\delta_0=0\).
Donde \(z_p\) es el percentil de orden \(p\) de una normal estándar, \(t_p(v)\) es el percentil de orden \(p\) de una distribución \(t\) con \(v\) grados de libertad, además: \[s_p^2=\frac{(n−1)s^2_{1,n}+(m−1)s^2_{2,m}}{n+m-2}\]
siendo \(s^2_{1,n}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x}_n)^2\) y \(s^2_{2,m}=\frac{1}{m-1}\sum_{j=1}^{m}(y_j-\bar{y}_m)^2\).
Para el caso de varianzas desconocidas y diferentes, \(f\) se toma como el entero más próximo a:
\[f=\frac{\left(\frac{s^2_{1,n}}{n}+\frac{s^2_{2,m}}{m} \right)^2 }{\frac{\left( \frac{s^2_{1,n}}{n}\right)^2 }{n-1}+\frac{\left( \frac{s^2_{2,m}}{m}\right)^2 }{m-1}}\]
Supongamos que la efectividad de los tratamientos (dieta vs dieta + ejercicio) se evaluó a través de la diferencia entre el peso antes y el peso después, que dichas diferencias entre los pesos tienen distribución normal en los dos grupos y que , de tal forma que el sistema de hipótesis a contrastar es:
\[H_0:\mu_1-\mu_2=0\text{ vs }H_1:\mu_1-\mu_2\neq 0\]
Donde \(\mu_1\) es el valor esperado de la diferencia entre el peso antes y después para el grupo de solo dieta y \(\mu_2\) es el valor esperado de la diferencia entre el peso antes y después para el grupo de dieta y ejercicio.
#simulación de los pesos para los dos grupos
#grupo de solo dieta
dif1<-rnorm(150,0.8,1)
#grupo dieta + ejercicio
dif2<-rnorm(150,2,1.2)
boxplot(dif1,dif2, xlab="Tratamiento (dieta vs dieta+ejercicio)", ylab="Diferencia en Kg")
t.test(dif1,dif2)
##
## Welch Two Sample t-test
##
## data: dif1 and dif2
## t = -9.7729, df = 284.19, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.4795111 -0.9834504
## sample estimates:
## mean of x mean of y
## 0.8654877 2.0969684
Dadas \(X_1,X_2,...,X_{n}\) una muestra aleatoria de una población \(N(\mu_1, \sigma_1^2)\) y \(Y_1,Y_2,...,Y_{m}\) una muestra aleatoria de una población \(N(\mu_2, \sigma_2^2)\), independientes, se tienen los siguientes sistemas de hipótesis:
\[\text{Sistema A: }H_0:\sigma_1^2=\sigma_2^2\text{ frente a }H_1:\sigma_1^2<\sigma_2^2\] \[\text{Sistema B: }H_0:\sigma_1^2=\sigma_2^2\text{ frente a }H_1:\sigma_1^2>\sigma_2^2\] \[\text{Sistema C: }H_0:\sigma_1^2=\sigma_2^2\text{ frente a }H_1:\sigma_1^2\neq\sigma_2^2\] El estadístico de prueba está dado por:
\[F_c=\frac{S^2_{1,n}}{S^2_{2,m}}\] con \(S^2_{1,n}=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X}_n)^2\) y \(S^2_{2,m}=\frac{1}{m-1}\sum_{j=1}^{m}(Y_j-\bar{Y}_m)^2\)
Y los tests, respectivamente son:
\[\tau_A:\text{Rechazar }H_0\text{ si }f_c<f_{\alpha}(n-1,m-1)\]
\[\tau_B:\text{Rechazar }H_0\text{ si }f_c>f_{1-\alpha}(n-1,m-1)\]
\[\tau_C:\text{Rechazar }H_0\text{ si }f_c<f_{\alpha/2}(n-1,m-1)\text{ o } f_c>f_{1-\alpha/2}(n-1,m-1)\]
La prueba de independencia ji-cuadrado se utiliza cuando se quiere probar si existe relación entre dos variables categóricas (\(X\) y \(Y\)), de tal forma que el sistema de hipótesis está dado por:
\[H_0:\text{Las variables son independientes}\] \[\text{frente a}\] \[H_1:\text{Las variables no son independientes (existe asociación)}\] Sea \(k\) el número de categorías de \(X\) y \(p\) el número de categorías de \(Y\), el estadístico de prueba está dado por:
\[\chi^2_c=\sum_{i=1}^{k}\sum_{j=1}^{p}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\] donde \(n_{ij}\) es el número de elementos que pertencen a la \(i\)-ésima categoría de \(X\) y a la \(j\)-ésima categoría de \(Y\), y \(e_{ij}=\frac{n_{i\bullet}n_{\bullet j}}{n_{\bullet\bullet}}\) es la frecuencia esperada bajo independencia.
El test está dado por:
\[\tau:\text{Rechazar }H_0\text{ si }\chi^2_c>\chi^2_{1-\alpha}(v), v=(k-1)\times (p-1)\] donde \(\chi^2_{1-\alpha}(v)\) es el percentil \(1-\alpha\) de una distribución ji-cuadrado con \(v\) grados de libertad.
Observación
Esta prueba se utiliza cuando todos los \(e_{ij}>5\), de lo contrario debe utilizarse la prueba exacta de Fisher.
Tomado de Barón F.J.
Se seleccionó una muestra de 500 niños para determinar si exite asociación entre el nivel socioeconómico y la presencia o ausencia de un defecto de pronunciación. Con base en los resultados de la tabla. Con un 10% de significancia, ¿qué puede concluir?
\(X\): Defecto en la pronunciación \(Y\): Nivel socioeconómico
\(X / Y\) | Alto | Medio-alto | Medio-bajo | Bajo |
---|---|---|---|---|
Si | 8 | 24 | 32 | 27 |
No | 42 | 121 | 138 | 108 |
El sistema de hipótesis está dado por:
\[H_0:\text{No existe asociación entre el defecto en la pronunciación y el nivel socioeconómico}\] \[\text{frente a}\] \[H_1:\text{Existe asociación entre el defecto en la pronunciación y el nivel socioeconómico}\]
#tabla de frecuencias
tabla<-matrix(c(8,24,32,27,42,121,138,108),byrow = T,nc=4,nr=2)
colnames(tabla)<-c("Alto","Medio-alto","Medio-bajo","Bajo")
row.names(tabla)<-c("Con defecto", "Sin defecto")
print(tabla)
## Alto Medio-alto Medio-bajo Bajo
## Con defecto 8 24 32 27
## Sin defecto 42 121 138 108
# prueba de hipótesis
chisq.test(tabla)
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 0.76536, df = 3, p-value = 0.8577
Como valor p\(=0.8577>\alpha=0.1\), no hay suficiente evidencia estadística para afirmar que existe asociación entre el nivel socioeconómico y tener un defecto de pronunciación.
Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
Mayorga J.H. (2004). Inferencia estadística. Universidad Nacional de Colombia. Departamento de Estadística.