1 Introducción

Las pruebas de hipótesis hacen parte de la inferencia estadística, a diferencia de la estimación , en la cuál se busca un valor puntual o un rango de valores con cierta confiabilidad (estimación por intervalo), en las pruebas de hipótesis se busca rechazar o no rechazar una afirmación sobre el valor de un parámetro, con base en la información que brinde la muestra.

2 Objetivos

  • Aprender el proceso para probar una hipótesis

  • Apropiarse de los conceptos de error tipo I y error tipo II

  • Identificar la prueba de hipótesis apropiada, de acuerdo al sistema de hipótesis y a los tipos de variables a analizar

3 Resultados previstos de aprendizaje

Al finalizar este módulo, el estudiante estará en la capacidad de decidir la prueba que debe utilizar de acuerdo a su problema de investigación, entender qué errores podría estar cometiendo y de igual forma, podrá ejecutar dicha prueba de hipótesis en R.

4 Problema de investigación

Se busca evaluar la efectividad de dos tratamientos para bajar de peso: dieta vs dieta + actividad física dirigida, ¿existen diferencias entre los dos tratamientos?

5 Conceptos preliminares

En el proceso de contrastar una hipótesis, utilizamos los pasos del método científico: 1. Observar 2. Plantear una hipótesis 3. Experimentar (observar una muestra) 4. Analizar los resultados con respecto a la hipótesis planteada 5. Concluir

Para ésto, se usa el proceso de reducción al absurdo, es decir buscamos encontrar una evidencia en la muestra que nos permita rechazar una afirmación, por el contrario si la muestra no nos da evidencia en contra, diremos que no tenemos argumentos suficientes para rechazarla.

5.1 Sistema de hipótesis

Hipótesis: Es una afirmación sobre la distribución de la población, asociada a un parámetro \(\theta\).

Hipótesis nula: Sobre la que se basa el juzgamiento (La que al final vamos o no a rechazar) \[H_0: \theta\in\Theta_0,\text{ }\Theta_0\subset\Theta\] Hipótesis alternativa: La hipótesis que el investigador quiere probar

\[H_1: \theta\in\Theta_1,\text{ }\Theta_1\subset\Theta, \Theta_1\cap\Theta_0=\emptyset\]

Sistema de hipótesis:Es el conjunto conformado por la hipótesis nula y la hipótesis alternativa

\[H_0: \theta\in\Theta_0\text{ vs }H_1: \theta\in\Theta_1\] Test: Regla o norma que permite tomar la decisión

###: Ejemplo-problema de investigación

\[H_0: \theta_1=\theta_2\text{ vs }H_1: \theta_1\neq\theta_2\] Donde, por ejemplo, \(\theta_1\) es la proporción de personas que bajan de peso en el grupo de solo dieta y \(\theta_2\) es la proporción de personas que bajan de peso en el grupo de dieta y actividad física. Un test podría estar dado por:

\[\tau:\text{Rechazar }H_0\text{ si }p_2>p_1\] Donde, \(p_1\) es la proporción de personas de la muestra que bajó de peso en el grupo de solo dieta y \(\theta_2\) es la proporción de personas de la muestra que bajó de peso en el grupo de dieta y actividad física.

5.2 Errores

A la hora de hacer un constraste, es posible que la muestra que seleccionemos no necesariamente nos dé evidencias sobre lo que ocurre en la población, por lo que podríamos rechazar \(H_0\) cuando en realidad es cierta o lo contrario:

Errores tipo en el juzgamiento de hipótesis

5.2.1 Error tipo I

El error tipo I consiste en rechazar la hipótesis nula, cuando ésta es cierta. A la probabilidad de cometer este error se le llama nivel de significancia (\(\alpha\)) y se debe fijar antes del inicio del estudio:

\[\alpha=P(\text{Rechazar }H_0| H_0\text{ es cierta})\] ####: Ejemplo-problema de investigación

Supongamos que el nivel de significancia se fijó en \(10\%\), lo cuál significaría, que en el 10% de los casos podríamos decir que hay diferencias entre los tratamientos cuando en realidad no las hay.

5.2.2 Error tipo II

El error tipo II consiste en no rechazar la hipótesis nula, cuando ésta es falsa. A la probabilidad de cometer este error se le llama función característica (\(\beta_\tau(\theta)\)):

\[\beta_\tau(\theta)=P_\theta(\text{No rechazar }H_0| H_0\text{ es falsa})\] Es una función, pues dado que no conocemos el verdadero valor del parámetro, se debe calcular con los posibles valores de éste.

Al complemento de la función característica se le llama función de potencia:

\[\pi(\theta)=1-\beta_\tau(\theta)=P_\theta(\text{Rechazar }H_0| H_0\text{ es falsa})\] ####: Ejemplo-problema de investigación

En nuestro ejemplo, la función de potencia correspondería a la probabilidad de decir, con base en la muestra, que los tratamientos son diferentes, cuando en realidad lo son.

5.3 Valor p

El valor p es el nivel de significacia má pequeño con el cuál se rechazaría la hipótesis nula, de ahí que uno de los test más simples se basa en él:

\[\tau:\text{Rechazar }H_0\text{ si valor p}<\alpha\]

6 Problemas de una muestra

6.1 Para la media bajo normalidad

Dada \(X_1,X_2,...,X_1\) una muestra aleatoria de una población \(N(\mu, \sigma^2)\)

Pruebas de hipótesis sobre el promedio poblacional. Tomado de: Mayorga, 2004

6.1.1 Ejemplo: Aplicación en R

Se seleccionó una muestra de 100 estudiantes de la Facultad de Medicina, el objetivo de dicho estudio era determinar si en promedio los estudiantes de dicha Facultad tienen un índice de masa corporal adecuado con un nivel de significancia del \(5\%\). Dado lo anterior, el sistema de hipótesis a probar es el siguiente:

\[H_0:\mu\geq 25\text{ vs }H_1: \mu< 25\]

#simulación de la muestra aleatoria
imc<-rnorm(100,25,5)
boxplot(imc, ylab="IMC")

#Prueba de normalidad
shapiro.test(imc)
## 
##  Shapiro-Wilk normality test
## 
## data:  imc
## W = 0.99183, p-value = 0.8086
#Prueba sobre el promedio poblacional del imc
#note que el parámetro "alternative" se cambia de acuerdo a la hipótesis alternativa que se requiera
t.test(imc, mu=25, alternative = "less")
## 
##  One Sample t-test
## 
## data:  imc
## t = 0.73299, df = 99, p-value = 0.7674
## alternative hypothesis: true mean is less than 25
## 95 percent confidence interval:
##      -Inf 26.16495
## sample estimates:
## mean of x 
##  25.35677

Dado que \(valor_p>0.05\), por lo tanto no tenemos evidencias para afirmar que los estudiantes de la Facultad de Medicina, en promedio, tienen un imc normal.

6.2 Para la proporción

Dada una muestra aleatoria \(X_1,X_2,...,X_1\) de una población \(Ber(\pi)\). Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }H_0:\pi=\pi_0\text{ vs }H_1:\pi>\pi_0\] \[\text{Sistema B: }H_0:\pi=\pi_0\text{ vs }H_1:\pi<\pi_0\] \[\text{Sistema C: }H_0:\pi=\pi_0\text{ vs }H_1:\pi\neq\pi_0\] ### Ejemplo: Aplicación en R

Suponga que en el ejemplo anterior se busca determinar si la proporción de estudiantes con obesidad está por encima del \(30\%\). Dado lo anterior, el sistema de hipótesis a probar es el siguiente:

\[H_0:\pi\leq 0.3\text{ vs }H_1:\pi> 0.3\]

#Prueba sobre la proporción poblacional
#note que el parámetro "alternative" se cambia de acuerdo a la hipótesis alternativa que se requiera
ob<-imc[imc>30]
length(ob)
## [1] 15
prop.test(length(ob),n=length(imc), p=0.3, alternative = "greater")
## 
##  1-sample proportions test with continuity correction
## 
## data:  length(ob) out of length(imc), null probability 0.3
## X-squared = 10.012, df = 1, p-value = 0.9992
## alternative hypothesis: true p is greater than 0.3
## 95 percent confidence interval:
##  0.09644405 1.00000000
## sample estimates:
##    p 
## 0.15

6.3 Prueba de aleatoriedad

Para determinar si una muestra tiene algún comportamiento que no es aleatorio, se utiliza la prueba de rachas, la cuál es una prueba no paramétrica. Consiste en contar el número de rachas (eventos iguales) en una sucesión ordenada con respecto a algún criterio.

Cuando la variable observa es cuantitativa, en general se puede dicotomizar con respecto a la mediana.

Los sistemas de hipótesis con los correspondientes test están dados por:

Sistemas de hipótesis y regiones de rechazo para la prueba de aleatoriedad

6.3.1 Ejemplo: Aplicación en R

#prueba de rachas
#recuerden instalar el la librería tseries antes de correr el código
library(tseries)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
#aleatorio
#generación de una variable dicotómica de forma aleatoria
x <- factor(sign(rnorm(100)))  
runs.test(x)
## 
##  Runs Test
## 
## data:  x
## Standard Normal = 0.43982, p-value = 0.6601
## alternative hypothesis: two.sided
#mezcla
#generación de una variable a partir de una secuencia determinada
x <- factor(rep(c(2,3),50))  
runs.test(x, alternative = "greater")
## 
##  Runs Test
## 
## data:  x
## Standard Normal = 9.8499, p-value < 2.2e-16
## alternative hypothesis: greater
#para variables cuantitativas
#generación de una variable con distribución normal
y<-rnorm(100)
runs.test(as.factor(y>median(y)))
## 
##  Runs Test
## 
## data:  as.factor(y > median(y))
## Standard Normal = 0.20102, p-value = 0.8407
## alternative hypothesis: two.sided

6.4 Algunas pruebas de bondad de ajuste

6.4.1 Prueba de Kolmogorov-Smirnov

Dada una muestra aleatoria \(X_1,X_2,...,X_1\) con función de distribución continua \(F\), se busca probar si dicha distribución se ajusta a un modelo de probabilidad conocido \(F_0\). El sistema de hipótesis está dado por:

\[H_0:F(x)=F_0(x)\text{ vs }H_1:F(x)\neq F_0(x)\] #### Ejemplo: Aplicación en R

# muestra aleatoria de tamaño 100 con distribución normal
x<- rnorm(100)
# muestra aleatoria de tamaño 100 con exponencial(25)
y<-rexp(100, 25)
#prueba de normalidad K-S para x
ks.test(x,pnorm)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  x
## D = 0.068077, p-value = 0.743
## alternative hypothesis: two-sided
#prueba K-S para verificar la distribución exponencial de y
ks.test(y,pexp,25)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  y
## D = 0.080772, p-value = 0.5316
## alternative hypothesis: two-sided

Retomando el ejemplo de los estudiantes de la Facultad de Medicina, es posible indagar sobre su normalidad así:

ks.test(imc,pnorm,mean(imc),sd(imc))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  imc
## D = 0.046907, p-value = 0.9804
## alternative hypothesis: two-sided

6.4.2 Test D’Agostino

El test D’Agostino se utiliza para verificar la normalidad de una muestra aleatoria, el sistema de hipótesis es el siguiente:

\[H_0:\text{Los datos tienen distribución normal vs }H_1:\text{Los datos no tienen distribución normal}\]

6.4.2.1 Ejemplo: Aplicación en R

Verificar la normalidad del índice de masa corporal para los estudiantes de la Facultad de Medicina

#test de agostino
#descargar el paquete antes
library(moments)
agostino.test(imc)
## 
##  D'Agostino skewness test
## 
## data:  imc
## skew = 0.22717, z = 0.97708, p-value = 0.3285
## alternative hypothesis: data have a skewness

6.4.3 Prueba de Shapiro Wilk

Al igual que la anterior, la prueba de Shapriro WIlk se utiliza para verificar normalidad:

\[H_0:\text{Los datos tienen distribución normal vs }H_1:\text{Los datos no tienen distribución normal}\] #### Ejemplo: Aplicación en R

shapiro.test(imc)
## 
##  Shapiro-Wilk normality test
## 
## data:  imc
## W = 0.99183, p-value = 0.8086

7 Problemas de dos muestras independientes

7.1 Igualdad de medias bajo normalidad

Dadas \(X_1,X_2,...,X_{n_1}\) una muestra aleatoria de una población \(N(\mu_1, \sigma_1^2)\) y \(Y_1,Y_2,...,Y_{n_2}\) una muestra aleatoria de una población \(N(\mu_2, \sigma_2^2)\), independientes, se tienen los siguientes sistemas de hipótesis y test:

Pruebas de hipótesis para comparación de promedios poblacionales. Tomado de: Mayorga, 2004

En caso de querer probar sobre la igualdad de las medias de las dos poblaciones, se toma \(\delta_0=0\)

7.1.1 Ejemplo: Aplicación en R-Problema de investigación

Supongamos que la efectividad de los tratamientos (dieta vs dieta + ejercicio) se evaluó a través de la diferencia entre el peso antes y el peso después, de tal forma que el sistema de hipótesis a contrastar es:

\[H_0:\mu_1-\mu2=0\text{ vs }H_1:\mu_1-\mu2\neq 0\]

Donde \(\mu_1\) es el valor esperado de la diferencia entre el peso antes y después para el grupo de solo dieta y \(\mu_2\) es el valor esperado de la diferencia entre el peso antes y después para el grupo de dieta y ejercicio.

#simulación de los pesos para los dos grupos
#grupo de solo dieta
dif1<-rnorm(150,0.8,1)
#grupo dieta + ejercicio
dif2<-rnorm(150,2,1.2)
boxplot(dif1,dif2, xlab="Tratamiento (dieta vs dieta+ejercicio)", ylab="Diferencia en Kg")

t.test(dif1,dif2)
## 
##  Welch Two Sample t-test
## 
## data:  dif1 and dif2
## t = -12.183, df = 278.19, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.727272 -1.246723
## sample estimates:
## mean of x mean of y 
## 0.5847155 2.0717133

7.2 Igualdad de distribuciones

La prueba de rachas de Wald-Wolfowitz, es una de las pruebas no paramétricas que se utilizan para determinar si dos muestras independientes \(X_1,X_2,...,X_{n_1}\) y \(Y_1,Y_2,...,Y_{n_2}\), provenientes de distribuciones continuas \(F\) y \(G\) respectivamente, tienen igual distribución. Esta prueba es muy similar a la prueba de rachas de una muestra, pero en este caso el evento dicotómico lo determina la pertenencia a cada grupo.

El sistema de hipótesis general está dado por:

\[H_0:F(x)=G(x),\forall x\text{ vs }H_1:F(x)\neq G(x)\text{para al menos un }x\]

7.2.1 Ejemplo: Aplicación en R-Problema de investigación

Se podría evaluar si los dos tratamientos son diferentes en efectividad con el siguiente sistema de hipótesis:

\[H_0:F(x)=G(x),\forall x\text{ vs }H_1:F(x)\neq G(x)\text{ para al menos un }x\] Donde \(F\) representa la distribución de la diferencia de peso en el grupo de solo dieta y \(G\) la distribución de la diferencia de peso en el grupo de dieta y ejercicio.

7.3 Prueba de Mann-Whitney-Wilcoxon (igualdad de medianas)

La prueba de Mann-Whitney-Wilcoxon es una prueba no paramétrica que permite compara dos poblaciones en términos de una variable cuantitativa u ordinal por medio de sus medianas. Dadas las muestras \(X_1,X_2,...,X_{n_1}\) y \(Y_1,Y_2,...,Y_{n_2}\) con medianas \(\theta_1\) y \(\theta_2\) respectivamente, la prueba de Mann-Whitney-Wilcoxon permite contrastar los siguientes sistemas de hipótesis:

Pruebas de hipótesis para comparación de medianas poblacionales

7.3.1 Ejemplo: Aplicación en R-Problema de investigación

En caso de contar con menos muestra y que no se verifique el supuesto de normalidad, se podría evaluar si los dos tratamientos son diferentes en efectividad con respecto a las medianas:

\[H_0:\theta_1=\theta_2\text{ vs }H_1:\theta_1\neq\theta_2\]

Donde \(F\) representa la distribución de la diferencia de peso en el grupo de solo dieta y \(G\) la distribución de la diferencia de peso en el grupo de dieta y ejercicio.

#simulación para el grupo de dieta
diff1<-rchisq(30,df=1)
#simulación para el grupo de dieta y ejercicio
diff2<-rchisq(30,df=2)
boxplot(diff1,diff2, xlab="Tratamiento (dieta vs dieta+ejercicio)", ylab="Diferencia en Kg")

wilcox.test(diff1,diff2)
## 
##  Wilcoxon rank sum test
## 
## data:  diff1 and diff2
## W = 211, p-value = 0.0002929
## alternative hypothesis: true location shift is not equal to 0

7.4 Para comparar variables categóricas-Prueba Ji cuadrado de independencia

La prueba de independencia ji-cuadrado se utiliza cuando se quiere probar si existe relación entre dos variables categóricas (\(X\) y \(Y\)), de tal forma que el sistema de hipótesis está dado por:

\[H_0:\text{Las variables son independientes}\] \[\text{frente a}\] \[H_1:\text{Las variables no son independientes (existe asociación)}\] Sea \(k\) el número de categorías de \(X\) y \(p\) el número de categorías de \(Y\), el estadístico de prueba está dado por:

\[\chi^2_c=\sum_{i=1}^{k}\sum_{j=1}^{p}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\] donde \(n_{ij}\) es el número de elementos que pertencen a la \(i\)-ésima categoría de \(X\) y a la \(j\)-ésima categoría de \(Y\), y \(e_{ij}=\frac{n_{i\bullet}n_{\bullet j}}{n_{\bullet\bullet}}\) es la frecuencia esperada bajo independencia.

El test está dado por:

\[\tau:\text{Rechazar }H_0\text{ si }\chi^2_c>\chi^2_{1-\alpha}(v), v=(k-1)\times (p-1)\] donde \(\chi^2_{1-\alpha}(v)\) es el percentil \(1-\alpha\) de una distribución ji-cuadrado con \(v\) grados de libertad.

Observación

Esta prueba se utiliza cuando todos los \(e_{ij}>5\), de lo contrario debe utilizarse la prueba exacta de Fisher.

7.4.1 Ejemplo

Se seleccionó una muestra de nacimientos para determinar si existe asociación entre el consumo de alcohol y la presencia o ausencia de bajo peso al nacer. Con base en los resultados de la tabla. Con un 10% de significancia, ¿qué puede concluir?

\(X\): Consumo de alcohol durante el embarazo \(Y\): Peso al nacer

\(X / Y\) Bajo peso:Si Bajo peso:No Total
Si 35 25 60
No 40 100 140

El sistema de hipótesis está dado por:

\[H_0:\text{No existe asociación entre el consumo de alcohol y el bajo peso al nacer}\] \[\text{frente a}\] \[H_1:\text{Existe asociación entre el consumo de alcohol y el bajo peso al nacer}\]

#tabla de frecuencias
tabla<-matrix(c(35,25,40,100),byrow = T,nc=2,nr=2)
colnames(tabla)<-c("Bajo peso: Si","Bajo peso:No")
row.names(tabla)<-c("Alcohol: Si", "Alcohol: No")
print(tabla)
##             Bajo peso: Si Bajo peso:No
## Alcohol: Si            35           25
## Alcohol: No            40          100
# prueba de hipótesis
chisq.test(tabla)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla
## X-squared = 14.629, df = 1, p-value = 0.0001309

Como valor p\(=0.00013<\alpha=0.1\), existe asociación entre el consumo de alcohol y el bajo peso al nacer.

8 Problemas de dos muestras pareadas

Este tipo de problemas surgen, en general, cuando nuestro estudio es del tipo antes-después,caso en el cual las muestras a comparar no son independientes y por lo tanto no podemos usar las pruebas vistas hasta el momento.

8.1 Bajo normalidad

Se tienen las muestras aleatorias \(X_1,X_2,...,X_{n}\) y \(Y_1,Y_2,...,Y_{n}\) correspondientes a mediciones antes y después sobre el mismo individuo, con distribuciones \(N(\mu_1, \sigma_1^2)\) y \(N(\mu_2, \sigma_2^2)\), respectivamente. El sistema de hipótesis a probar es:

\[H_0:\delta=0\text{ vs }H_1:\delta\neq 0\] donde \(\delta=\mu2-\mu1\).

8.1.1 Ejemplo: Aplicación en R

Supongamos que solamente tenemos un tipo de intervención a estudiar: “dieta+ejercicio” y queremos ver si dicha intervención tiene un efecto en la reducción del peso. \[H_0:\delta=0\text{ vs }H_1:\delta\neq 0\] donde \(\delta\) es la diferencia entre el peso antes y después.

#peso antes
pa<-rnorm(150,72,5)
#peso después
pd<-rnorm(150,68,6)
boxplot(pa,pd, xlab="Antes vs Después", ylab="Peso(Kg)")

#prueba de igualdad de medias
t.test(pa,pd, paired = T)
## 
##  Paired t-test
## 
## data:  pa and pd
## t = 7.6098, df = 149, p-value = 2.89e-12
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  3.272680 5.568431
## sample estimates:
## mean of the differences 
##                4.420555
#otra forma de hacerlo
t.test(pa-pd)
## 
##  One Sample t-test
## 
## data:  pa - pd
## t = 7.6098, df = 149, p-value = 2.89e-12
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  3.272680 5.568431
## sample estimates:
## mean of x 
##  4.420555

8.2 Si no se verifica el supuesto de normalidad

Cuando no se verifica el supuesto de normalidad, es posible utilizar la prueba de Wilcoxon, de tal forma que se parte de dos muestras \(X_1,X_2,...,X_{n}\) y \(Y_1,Y_2,...,Y_{n}\) pareadas, con \(\Delta_d\) la mediana de las diferencias de cada para (\(Y_i-X_i\)), el sistema de hipótesis está dado por:

\[H_0:\Delta_d=0\text{ vs }H_1:\Delta_d\neq 0\] ### Ejemplo: Aplicación en R Supongamos ahora que en el ejemplo anterior los datos no verifican los supuestos para aplicar la prueba t pareada, el sistema de hipótesis es:

\[H_0:\Delta_d=0\text{ vs }H_1:\Delta_d\neq 0\]

donde \(\Delta_d\) es la mediana de las diferencias entre el peso antes y el peso después.

#simulación para el peso antes
pa1<-rchisq(30,df=72)
#simulación para el peso después
pd1<-rchisq(30,df=68)
boxplot(pa1,pd1, labels=c("Antes", "Después"),xlab="Antes vs Después", ylab="Peso(Kg)")

wilcox.test(pa1,pd1, paired = T)
## 
##  Wilcoxon signed rank test
## 
## data:  pa1 and pd1
## V = 366, p-value = 0.005013
## alternative hypothesis: true location shift is not equal to 0
#otra forma de hacerlo
wilcox.test(pa1-pd1)
## 
##  Wilcoxon signed rank test
## 
## data:  pa1 - pd1
## V = 366, p-value = 0.005013
## alternative hypothesis: true location is not equal to 0

9 Bibliografía

  1. Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf

  2. Corzo, J. A. (2005). Notas de clase. Estadística no paramétrica (Métodos basados en rangos). Universidad Nacional de Colombia. Departamento de Estadística.

  3. Mayorga J.H. (2004). Inferencia estadística. Universidad Nacional de Colombia. Departamento de Estadística.