1 Introducción

Las pruebas de hipótesis hacen parte de la inferencia estadística, a diferencia de la estimación, en la cuál se busca un valor puntual o un rango de valores con cierta confiabilidad (estimación por intervalo), en las pruebas de hipótesis se busca rechazar o no rechazar una afirmación sobre el valor de un parámetro, con base en la información que brinde la muestra.

2 Objetivos

Aprender el proceso de juzgamiento de una hipótesis.
Apropiarse de los conceptos de error tipo I y error tipo II.
Identificar la prueba de hipótesis apropiada, de acuerdo al sistema de hipótesis y a los tipos de variables a analizar.

3 Resultados previstos de aprendizaje

Al finalizar este módulo, el estudiante estará en la capacidad de decidir la prueba que debe utilizar de acuerdo a su problema de investigación, entender qué errores podría estar cometiendo y de igual forma, podrá ejecutar dicha prueba de hipótesis en R.

4 Problema de investigación

Se busca evaluar la efectividad de dos tratamientos para bajar de peso: dieta vs dieta + actividad física dirigida, ¿existen diferencias entre los dos tratamientos?

5 Conceptos preliminares

En el proceso de contrastar (probar) una hipótesis estadística, utilizamos los pasos del método científico: 1. Observar. 2. Plantear una hipótesis estadística. 3. Experimentar (observar una muestra aleatoria). 4. Analizar los resultados con respecto a la hipótesis planteada. 5. Concluir.

Para ésto, buscamos encontrar evidencia en la muestra que permita rechazar la hipótesis; pero, si la muestra no nos da evidencia en contra, diremos que no tenemos argumentos suficientes para rechazarla.

5.1 Sistema de hipótesis

Hipótesis: Es una afirmación sobre la distribución de la población, que comúnmente se expresa por medio de un parámetro $\theta\in\Theta$, donde $\Theta$ es el conjunto de todos los posibles valores que puede asumir $\theta$.

Ejemplos:

Si $\theta = \mu$, entonces $\Theta=\mathbb{R}$.
Si $\theta = \sigma^2$, entonces $\Theta = \mathbb{R}^+$.
Si $\theta = \pi$, entonces $\Theta = (0,1)$.

Hipótesis nula: Es la hipótesis que refleja el conocimiento actual acerca de la población sobre la cual se basa el juzgamiento. Es la hipótesis que al final del proceso vamos a rechazar o no rechazar. \[ H_0: \theta\in\Theta_0\qquad \text{donde $\Theta_0\subset\Theta$.} \]

Hipótesis alternativa: Es la hipótesis que quiere probar el investigador. \[ H_1: \theta\in\Theta_1\qquad\text{donde $\Theta_1\subset\Theta$ y $\Theta_1\cap\Theta_0=\emptyset$.} \] Sistema de hipótesis: Es la pareja conformada por la hipótesis nula y la hipótesis alternativa.

\[H_0: \theta\in\Theta_0\qquad \text{frente a}\qquad H_1: \theta\in\Theta_1\] Test: Regla, norma, procedimiento o protocolo que permite tomar la decisión (rechazar la hipótesis nula o no rechar la hipótsis nula).

5.2 Observaciones

Las hipótesis son afirmaciones acerca de la población, que por lo general se expresan por medio de los parámetros.
El objetivo consiste en establecer si existe suficiente evidencia en la realización de una muestra aleatoria para rechazar o no rechazar la hipótesis nula. ¿Cuál es la hipótesis que mejor explica los datos?

5.2.1 Problema de investigación

\[H_0: \theta_1=\theta_2\text{ vs }H_1: \theta_1\neq\theta_2\] donde, por ejemplo, $\theta_1$ es la proporción de personas que bajan de peso en el grupo de solo dieta y $\theta_2$ es la proporción de personas que bajan de peso en el grupo de dieta y actividad física. Un test podría estar dado por:

\[\tau:\text{Rechazar }H_0\text{ si }p_2>p_1\] donde, $p_1$ es la proporción de personas de la muestra que bajó de peso en el grupo de solo dieta y $p_2$ es la proporción de personas de la muestra que bajó de peso en el grupo de dieta y actividad física.

5.3 Errores

A la hora de hacer un constraste, es posible que la muestra que seleccionemos no necesariamente nos dé evidencias sobre lo que ocurre en la población, por lo que podríamos rechazar $H_0$ cuando en realidad es cierta o lo contrario:

Errores tipo en el juzgamiento de hipótesis

5.3.1 Error tipo I

El error tipo I consiste en rechazar la hipótesis nula, cuando ésta es cierta. A la probabilidad de cometer el error tipo I se le llama nivel de significancia ($\alpha$) y se debe fijar antes del inicio del estudio: \[\alpha=Pr(\text{Rechazar }H_0\mid H_0\text{ es cierta})\]

5.3.1.1 Ejemplo-problema de investigación

Supongamos que el nivel de significancia se fijó en $10\%$, lo cuál significaría, que en el 10% de los casos podríamos decir que hay diferencias entre los tratamientos cuando en realidad no las hay.

5.3.2 Error tipo II

El error tipo II consiste en no rechazar la hipótesis nula, cuando ésta es falsa. A la probabilidad de cometer este error se le llama función característica ($\beta(\theta)$) y se puede calcular para cada $\theta\in\Theta_1$: \[\beta(\theta)=Pr_\theta(\text{No rechazar }H_0\mid H_0\text{ es falsa})\] Es una función, pues dado que no conocemos el verdadero valor del parámetro $\theta$, se debe calcular para los posibles valores de éste bajo la hipótesis alterna.

Al complemento de la función característica se le llama función de potencia:

\[\pi(\theta)=1-\beta_\tau(\theta)=P_\theta(\text{Rechazar }H_0\mid H_0\text{ es falsa})\]

5.3.2.1 Ejemplo-problema de investigación

En nuestro ejemplo, la función de potencia correspondería a la probabilidad de decir, con base en la muestra, que los tratamientos son diferentes, cuando en realidad lo son.

5.3.2.2 Ejemplo-analogía con un juicio

Sistema de hipótesis: \[ H_0:\text{El acusado es inocente}\quad\text{frente a}\quad H_1:\text{El acusado es culpable} \]
El acusado se considera inocente hasta que se demuestre lo contrario más allá de cualquier duda razonable.
Error tipo I: condenar a un inocente.
Error tipo II: dejar libre a un culpable.

5.3.3 Observaciones

El nivel de significancia se fija de antemano a 0.1, 0.05, o 0.01, dependiendo de las características del problema.
¡La Ciencia es conservadora! Se considera mejor, equivocadamente no rechazar $H_0$, que equivocadamente rechazar el estado actual del conocimiento ($H_0$).
$H_0$ se mantiene a menos de que haya suficiente evidencia para revocarla.
Para rechazar $H_0$, se ha encontrado algo en la muestra tan improbable que ocurra si $H_0$ es cierta, que obliga al investigador a favorecer $H_1$ (rechazar $H_0$).

5.4 Valor $p$

El valor $p$ se define como \[ p = Pr(\text{observar datos tan o más extremos en dirección de } H_1\mid H_0\text{ es cierta}) \] esto es, el valor $p$ es la probabilidad de observar una coincidencia al menos tan extraordinaria como el fenómeno observado, bajo la hipótesis nula, y por lo tanto se puede entender como el “nivel de significacia más pequeño” con el cuál se rechazaría la hipótesis nula.

Así, uno de los test más simples, para cualquier sistema de hipótesis es: \[\tau:\text{Rechazar }H_0\text{ si el valor }p<\alpha\]

5.4.1 Observaciones

Cuando se rechaza $H_0$, es porque se ha observado algo que es tan poco probable que ocurra si $H_0$ es cierta que hace dudar seriamente que realmente de su veracidad.

5.5 Procedimiento de prueba

¿Cómo decidir si se debe rechazar o no la hipótesis nula?

Establecer el sistema de hipótesis y el nivel de significancia.
Calcular el valor $p$.
Tomar la decisión.
Interpretar los resultados.

6 Problemas de una muestra

6.1 Para la media bajo normalidad

Dada $X_1,X_2,...,X_n$ una muestra aleatoria de una población $N(\mu, \sigma^2)$. El proceso de juzgamiento de hipótesis para $\mu$ se puede resumir en el siguiente esquema:

Juzgamiento de hipótesis sobre el promedio poblacional. Tomado de: Mayorga, 2004

Donde $z_p$ es el percentil de orden $p$ de una normal estándar y $t_p(v)$ es el percentil de orden $p$ de una distribución $t$ con $v$ grados de libertad.

Observaciones

Podemos utilizar éstos tests de acuerdo al caso ($\sigma^2$ conocida o desconocida), cuando:

La distribución de la población es normal, sin importar el tamaño muestral.
El tamaño muestral es suficientemente grande para aplicar los teoremas de convergencia.

6.1.1 Ejemplo: Aplicación en R

Se seleccionó una muestra de 100 estudiantes de la Facultad de Ciencias, el objetivo de dicho estudio era determinar si en promedio los estudiantes de dicha Facultad no tienen sobrepeso (IMC<25) con un nivel de significancia del $5\%$. Asumiendo que el índice de masa corporal en dicha población tiene distribución normal, ¿la muestra corrobora la hipótesis de investigación?.

Dado lo anterior, el sistema de hipótesis a probar es el siguiente:

\[H_0:\mu\geq 25\text{ vs }H_1: \mu< 25\]

#simulación de la muestra aleatoria
imc<-rnorm(100,26,5)
boxplot(imc, ylab="IMC")

#Prueba de normalidad
shapiro.test(imc)

## 
##  Shapiro-Wilk normality test
## 
## data:  imc
## W = 0.99138, p-value = 0.7747

#Prueba sobre el promedio poblacional del imc
#note que el parámetro "alternative" se cambia de acuerdo a la hipótesis alternativa que se requiera
t.test(imc, mu=25, alternative = "less")

## 
##  One Sample t-test
## 
## data:  imc
## t = 3.8533, df = 99, p-value = 0.9999
## alternative hypothesis: true mean is less than 25
## 95 percent confidence interval:
##      -Inf 27.60766
## sample estimates:
## mean of x 
##  26.82239

Dado que el valor $p>0.05$, no tenemos evidencias estadísticas para afirmar que los estudiantes de la Facultad de Ciencias, en promedio, tienen un imc normal.

6.2 Para la varianza, bajo normalidad

Dada $X_1,X_2,...,X_n$ una muestra aleatoria de una población $N(\mu, \sigma^2)$. El proceso de juzgamiento de hipótesis para $\sigma^2$ se puede resumir en el siguiente esquema:

Juzgamiento de hipótesis sobre la varianza poblacional. Tomado de: Mayorga, 2004

Generalmente $\epsilon=\alpha/2$ y $\delta=1-\alpha/2$. Además, $\chi^2_p(v)$ es el percentil de orden $p$ de una de una distribución $\chi^2$ con $v$ grados de libertad.

6.2.1 Ejemplo

Adaptado de Barón F.J..

El calcio se presenta normalmente en la sangre de los mamíferos en concentraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La desviación típica normal de esta variable es 1 mg de calcio por cada 100 ml del volumen total de sangre, una variabilidad mayor a esta puede ocasionar graves trastornos en la coagulación de la sangre. Un investigador sospecha que en una parte de la región Andina colombiana, los mamíferos que la habitan tienen concentraciones de calcio que podrían causar trastornos en la coagulación. Para evaluar su hipótesis, con un 1% de significancia, seleccionó una muestra de 60 individuos de la región, para cuál obtuvo una desviación estándar de 0.89 mg por cada 100 ml. De acuerdo a lo anterior y suponiendo que la concentración de calcio se distribuye normalmente, ¿qué puede concluir?.

6.3 Para la proporción

Dada una muestra aleatoria $X_1,X_2,...,X_n$ de una población $Ber(\pi)$. Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }H_0:\pi=\pi_0\text{ vs }H_1:\pi<\pi_0\] \[\text{Sistema B: }H_0:\pi=\pi_0\text{ vs }H_1:\pi>\pi_0\] \[\text{Sistema C: }H_0:\pi=\pi_0\text{ vs }H_1:\pi\neq\pi_0\] El estadístico de prueba está dado por:

\[Z_c=\frac{P-\pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}\] Y los tests, respectivamente son:

\[\tau_A:\text{Rechazar }H_0\text{ si }z_c<z_{\alpha}\]

\[\tau_B:\text{Rechazar }H_0\text{ si }z_c>z_{1-\alpha}\]

\[\tau_C:\text{Rechazar }H_0\text{ si }|z_c|>z_{1-\alpha/2}\]

6.3.1 Ejemplo

Suponga que en el ejemplo anterior se busca determinar,con 5% de significancia, si la proporción de estudiantes, de la Facultad de Ciencias, con obesidad está por encima del $30\%$. Dado lo anterior, el sistema de hipótesis a probar es el siguiente:

\[H_0:\pi\leq 0.3\text{ vs }H_1:\pi> 0.3\]

#Prueba sobre la proporción poblacional
imc_30<-ifelse(imc>30,1,0)
n<-length(imc_30)
p<-mean(imc_30)
pi0<-0.3
#estadístico de prueba
z<-(p-pi0)/sqrt(pi0*(1-pi0)/n)
print(z)

## [1] -0.6546537

#límite inferior de la región de rechazo
qnorm(0.95)

## [1] 1.644854

6.4 Prueba de Shapiro Wilk

Al igual que la anterior, la prueba de Shapriro Wilk se utiliza para verificar la normalidad de una población:

\[H_0:\text{Los datos tienen distribución normal vs }H_1:\text{Los datos no tienen distribución normal}\]

6.4.0.1 Ejemplo

shapiro.test(imc)

## 
##  Shapiro-Wilk normality test
## 
## data:  imc
## W = 0.99138, p-value = 0.7747

7 Problemas de dos muestras independientes

7.1 Igualdad de medias bajo normalidad

Dadas $X_1,X_2,...,X_{n}$ una muestra aleatoria de una población $N(\mu_1, \sigma_1^2)$ y $Y_1,Y_2,...,Y_{m}$ una muestra aleatoria de una población $N(\mu_2, \sigma_2^2)$, independientes, se tienen los siguientes sistemas de hipótesis y test:

Juzgamiento de hipótesis para comparación de promedios poblacionales. Tomado de: Mayorga, 2004

En caso de querer probar sobre la igualdad de las medias de las dos poblaciones, se toma $\delta_0=0$.

Donde $z_p$ es el percentil de orden $p$ de una normal estándar, $t_p(v)$ es el percentil de orden $p$ de una distribución $t$ con $v$ grados de libertad, además: \[s_p^2=\frac{(n−1)s^2_{1,n}+(m−1)s^2_{2,m}}{n+m-2}\]

siendo $s^2_{1,n}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x}_n)^2$ y $s^2_{2,m}=\frac{1}{m-1}\sum_{j=1}^{m}(y_j-\bar{y}_m)^2$.

Para el caso de varianzas desconocidas y diferentes, $f$ se toma como el entero más próximo a:

\[f=\frac{\left(\frac{s^2_{1,n}}{n}+\frac{s^2_{2,m}}{m} \right)^2 }{\frac{\left( \frac{s^2_{1,n}}{n}\right)^2 }{n-1}+\frac{\left( \frac{s^2_{2,m}}{m}\right)^2 }{m-1}}\]

7.1.1 Ejemplo: Aplicación en R-Problema de investigación

Supongamos que la efectividad de los tratamientos (dieta vs dieta + ejercicio) se evaluó a través de la diferencia entre el peso antes y el peso después, que dichas diferencias entre los pesos tienen distribución normal en los dos grupos y que , de tal forma que el sistema de hipótesis a contrastar es:

\[H_0:\mu_1-\mu_2=0\text{ vs }H_1:\mu_1-\mu_2\neq 0\]

Donde $\mu_1$ es el valor esperado de la diferencia entre el peso antes y después para el grupo de solo dieta y $\mu_2$ es el valor esperado de la diferencia entre el peso antes y después para el grupo de dieta y ejercicio.

#simulación de los pesos para los dos grupos
#grupo de solo dieta
dif1<-rnorm(150,0.8,1)
#grupo dieta + ejercicio
dif2<-rnorm(150,2,1.2)
boxplot(dif1,dif2, xlab="Tratamiento (dieta vs dieta+ejercicio)", ylab="Diferencia en Kg")

t.test(dif1,dif2)

## 
##  Welch Two Sample t-test
## 
## data:  dif1 and dif2
## t = -9.7729, df = 284.19, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.4795111 -0.9834504
## sample estimates:
## mean of x mean of y 
## 0.8654877 2.0969684

7.2 Igualdad de varianzas (homocedasticidad) bajo normalidad

\[\text{Sistema A: }H_0:\sigma_1^2=\sigma_2^2\text{ frente a }H_1:\sigma_1^2<\sigma_2^2\] \[\text{Sistema B: }H_0:\sigma_1^2=\sigma_2^2\text{ frente a }H_1:\sigma_1^2>\sigma_2^2\] \[\text{Sistema C: }H_0:\sigma_1^2=\sigma_2^2\text{ frente a }H_1:\sigma_1^2\neq\sigma_2^2\] El estadístico de prueba está dado por:

\[F_c=\frac{S^2_{1,n}}{S^2_{2,m}}\] con $S^2_{1,n}=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X}_n)^2$ y $S^2_{2,m}=\frac{1}{m-1}\sum_{j=1}^{m}(Y_j-\bar{Y}_m)^2$

Y los tests, respectivamente son:

\[\tau_A:\text{Rechazar }H_0\text{ si }f_c<f_{\alpha}(n-1,m-1)\]

\[\tau_B:\text{Rechazar }H_0\text{ si }f_c>f_{1-\alpha}(n-1,m-1)\]

\[\tau_C:\text{Rechazar }H_0\text{ si }f_c<f_{\alpha/2}(n-1,m-1)\text{ o } f_c>f_{1-\alpha/2}(n-1,m-1)\]

7.3 Prueba de independencia (ji-cuadrado) entre dos variables categóricas

La prueba de independencia ji-cuadrado se utiliza cuando se quiere probar si existe relación entre dos variables categóricas ($X$ y $Y$), de tal forma que el sistema de hipótesis está dado por:

\[H_0:\text{Las variables son independientes}\] \[\text{frente a}\] \[H_1:\text{Las variables no son independientes (existe asociación)}\] Sea $k$ el número de categorías de $X$ y $p$ el número de categorías de $Y$, el estadístico de prueba está dado por:

\[\chi^2_c=\sum_{i=1}^{k}\sum_{j=1}^{p}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\] donde $n_{ij}$ es el número de elementos que pertencen a la $i$-ésima categoría de $X$ y a la $j$-ésima categoría de $Y$, y $e_{ij}=\frac{n_{i\bullet}n_{\bullet j}}{n_{\bullet\bullet}}$ es la frecuencia esperada bajo independencia.

El test está dado por:

\[\tau:\text{Rechazar }H_0\text{ si }\chi^2_c>\chi^2_{1-\alpha}(v), v=(k-1)\times (p-1)\] donde $\chi^2_{1-\alpha}(v)$ es el percentil $1-\alpha$ de una distribución ji-cuadrado con $v$ grados de libertad.

Observación

Esta prueba se utiliza cuando todos los $e_{ij}>5$, de lo contrario debe utilizarse la prueba exacta de Fisher.

7.3.1 Ejemplo

Tomado de Barón F.J.

Se seleccionó una muestra de 500 niños para determinar si exite asociación entre el nivel socioeconómico y la presencia o ausencia de un defecto de pronunciación. Con base en los resultados de la tabla. Con un 10% de significancia, ¿qué puede concluir?

$X$: Defecto en la pronunciación $Y$: Nivel socioeconómico

$X / Y$	Alto	Medio-alto	Medio-bajo	Bajo
Si	8	24	32	27
No	42	121	138	108

El sistema de hipótesis está dado por:

\[H_0:\text{No existe asociación entre el defecto en la pronunciación y el nivel socioeconómico}\] \[\text{frente a}\] \[H_1:\text{Existe asociación entre el defecto en la pronunciación y el nivel socioeconómico}\]

#tabla de frecuencias
tabla<-matrix(c(8,24,32,27,42,121,138,108),byrow = T,nc=4,nr=2)
colnames(tabla)<-c("Alto","Medio-alto","Medio-bajo","Bajo")
row.names(tabla)<-c("Con defecto", "Sin defecto")
print(tabla)

##             Alto Medio-alto Medio-bajo Bajo
## Con defecto    8         24         32   27
## Sin defecto   42        121        138  108

# prueba de hipótesis
chisq.test(tabla)

## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 0.76536, df = 3, p-value = 0.8577

Como valor p$=0.8577>\alpha=0.1$, no hay suficiente evidencia estadística para afirmar que existe asociación entre el nivel socioeconómico y tener un defecto de pronunciación.

8 Bibliografía

Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
Mayorga J.H. (2004). Inferencia estadística. Universidad Nacional de Colombia. Departamento de Estadística.

Pruebas de hipótesis

Lina Buitrago PhD(c), labuitragor@unal.edu.co

Juan Sosa PhD, jcsosam@unal.edu.co