1 Introducción

Se consideran dos poblaciones, a saber, \(X\sim \textsf{N}(\mu_X,\sigma_X^2)\) y \(Y\sim \textsf{N}(\mu_Y,\sigma_Y^2)\), de las cuales se tienen muestras aleatorias independientes \(X_1,\ldots,X_{n_X}\) y \(Y_1,\ldots,Y_{n_Y}\), respectivamente.

El objetivo es comparar los parƔmetros de las dos poblaciones.

2 Para la diferencia de medias pobacional \(\mu_X - \mu_Y\)

El proceso de prueba para \(\mu_X - \mu_Y\) se puede resumir con el siguiente esquema:

donde

\[ f=\left\lceil {\frac{\left(\frac{s^2_{X}}{n_X}+\frac{s^2_{Y}}{n_Y} \right)^2 }{\frac{\left( \frac{s^2_{X}}{n_X}\right)^2 }{n_X-1}+\frac{\left( \frac{s^2_{Y}}{n_Y}\right)^2 }{n_Y-1}}} \right\rceil \]

y

\[ S_p=\sqrt{\frac{(n_X-1)S^2_{X}+(n_Y-1)S^2_{Y}}{n_X+n_Y-2}} \]

Cuando se quiere probar la igualdad de las medias se usa \(\delta_0=0\).

2.1 Ejemplo

Simular dos muestras aleatorias, una de tamaño \(n_X=25\) de una población Normal con media \(\mu_X=5\) y varianza \(\sigma_X^2=0.50\), y otra de tamaño \(n_Y=20\) de una población Normal con media \(\mu_Y=4\) y varianza \(\sigma_Y^2=0.25\). Usando estas muestras, probar al 95% de confianza el sistema de hipótesis

\[H_0:\mu_X-\mu_Y = 0\qquad\text{ frente a }\qquad H_1:\mu_X-\mu_Y\neq 0\,.\]

# simulacion de los datos
set.seed(1234)
x <- rnorm(n = 25, mean = 5, sd = 0.50)
y <- rnorm(n = 20, mean = 4, sd = 0.25)
# inspeccionar los datos
head(x)
## [1] 4.396467 5.138715 5.542221 3.827151 5.214562 5.253028
head(y)
## [1] 3.637949 4.143689 3.744086 3.996215 3.766013 4.275574
# tendencia
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.827   4.612   4.755   4.879   5.139   6.208
summary(y)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.455   3.727   3.804   3.847   3.927   4.362
# diagrama de caja
boxplot(x, y, border = c("darkblue","black"), col = "white", boxwex = 0.4, outline = F)
points(x = jitter(x = rep(1,25), amount = 0.08), y = x, pch = 16, col = adjustcolor("blue",  0.5))
points(x = jitter(x = rep(2,20), amount = 0.08), y = y, pch = 16, col = adjustcolor("black", 0.5))

# prueba normalidad
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.93222, p-value = 0.09781
shapiro.test(y)
## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.94453, p-value = 0.2916
# prueba de diferencia de medias
t.test(x = x, y = y, alternative = "two.sided", mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = 9.8489, df = 36.047, p-value = 9.186e-12
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.8197809 1.2449267
## sample estimates:
## mean of x mean of y 
##  4.879109  3.846755

Decisión: Rechazar \(H_0\).

3 Prueba de homocedasticidad

Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }\qquad H_0:\sigma_1^2=\sigma_2^2\qquad\text{ frente a }\qquad H_1:\sigma_1^2<\sigma_2^2\] \[\text{Sistema B: }\qquad H_0:\sigma_1^2=\sigma_2^2\qquad \text{ frente a }\qquad H_1:\sigma_1^2>\sigma_2^2\] \[\text{Sistema C: }\qquad H_0:\sigma_1^2=\sigma_2^2\qquad \text{ frente a }\qquad H_1:\sigma_1^2\neq\sigma_2^2\] El estadĆ­stico de prueba es

\[F=\frac{S^2_X}{S^2_Y}\]

y los tests son respectivamente:

\[\tau_A:\qquad \text{Rechazar }H_0\text{ si }f_c<\textsf{F}_{n_X-1,n_Y-1,\alpha}\]

\[\tau_B:\qquad \text{Rechazar }H_0\text{ si }f_c>\textsf{F}_{n_X-1,n_Y-1,1-\alpha}\]

\[\tau_C:\qquad \text{Rechazar }H_0\text{ si }f_c<\textsf{F}_{n_X-1,n_Y-1,\alpha/2}\text{ o } f_c>\textsf{F}_{n_X-1,n_Y-1,1-\alpha/2}\]

3.1 Ejemplo

Hacer la prueba de homocedasticidad a dos colas usando los datos de la simulación anterior.

var.test(x = x, y = y, ratio = 1, alternative = "two.sided", conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  x and y
## F = 4.3366, num df = 24, denom df = 19, p-value = 0.001858
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   1.768377 10.170061
## sample estimates:
## ratio of variances 
##           4.336629
# estadistico de prueba
est <- var(x)/var(y)
print(est)
## [1] 4.336629
# percentiles
qf(p = 0.025, df1 = 25-1, df2 = 20-1, lower.tail = TRUE )
## [1] 0.4264113
qf(p = 0.025, df1 = 25-1, df2 = 20-1, lower.tail = FALSE)
## [1] 2.452321
# valor p
p1 <- pf(q = est, df1 = 25-1, df2 = 20-1, lower.tail = TRUE )
p1
## [1] 0.9990709
p2 <- pf(q = est, df1 = 25-1, df2 = 20-1, lower.tail = FALSE)
p2
## [1] 0.000929077
p  <- 2*min(p1,p2)
p
## [1] 0.001858154

Decisión: Rechazar \(H_0\).

4 Para la diferencia de proporciones poblacional \(\pi_X-\pi_Y\)

aciones, a saber, \(X\sim Ber(\pi_X)\) y \(Y\sim Ber(\pi_Y)\), de las cuales se tienen las muestras aleatorias independientes** \(X_1,\ldots,X_{n_X}\) y \(Y_1,\ldots,Y_{n_Y}\), respectivamente.

Se tienen los siguientes sistemas de hipótesis:

\[\text{Sistema A: }\qquad H_0:\pi_X-\pi_Y=\delta_0\qquad\text{ frente a }\qquad H_1:\pi_X-\pi_Y<\delta_0\] \[\text{Sistema B: }\qquad H_0:\pi_X-\pi_Y=\delta_0\qquad \text{ frente a }\qquad H_1:\pi_X-\pi_Y>\delta_0\] \[\text{Sistema C: }\qquad H_0:\pi_X-\pi_Y=\delta_0\qquad \text{ frente a }\qquad H_1:\pi_X-\pi_Y\neq\delta_0\] El estadĆ­stico de prueba es

\[Z=\frac{(P_X-P_Y) - \delta_0}{\sqrt{\frac{P_X(1-P_X)}{n_X}+\frac{P_Y(1-P_Y)}{n_Y}}}\]

y los tests son respectivamente:

\[\tau_A:\qquad \text{Rechazar }H_0\text{ si }z_c<z_{\alpha}\]

\[\tau_B:\qquad \text{Rechazar }H_0\text{ si }z_c>z_{1-\alpha}\]

\[\tau_C:\qquad \text{Rechazar }H_0\text{ si }|z_c|>z_{1-\alpha/2}\]

4.1 Ejercicio

Los extractos de St.Ā John’s Wort se utilizan ampliamente para tratar la depresión. Un artĆ­culo del nĆŗmero del 18 de abril de 2001 del Journal of the American Medical Association, tĆ­tulado Effectiveness of St.Ā John’s Wort on Major Depression: A Randomized Controlled Trial, comparó la eficacia de un extracto estĆ”ndar de St.Ā John’s Wort con un placebo en 200 pacientes diagnosticados de depresión mayor.

Los pacientes fueron asignados aleatoriamente a dos grupos (50/50). Un grupo recibió la hierba y el otro recibió el placebo. DespuĆ©s de 8 semanas, 19 de los pacientes tratados con placebo mostraron una mejorĆ­a y 27 de los tratados con St.Ā John’s Wort mejoraron. ĀæExiste alguna razón para creer que el tratamiento es eficaz para tratar la depresión mayor? Use una confiabilidad del 95%.

5 Prueba de independencia entre dos variables categóricas

La prueba de independencia se utiliza cuando se quiere probar si existe una relación entre dos variables categóricas.

El sistema de hipótesis es:

\[H_0:\text{Las variables son independientes}\] \[\text{frente a}\] \[H_1:\text{Las variables no son independientes.}\]

El estadĆ­stico de prueba es:

\[\chi^2=\sum_{i=1}^{k}\sum_{j=1}^{p}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\] donde \(k\) es el número de categorías de \(X\), \(p\) es el número de categorías de \(Y\), \(n_{ij}\) es la frecuencia absoluta de la \(i\)-ésima categoría de \(X\) y la \(j\)-ésima categoría de \(Y\), y \(e_{ij}=\frac{n_{i\bullet}n_{\bullet j}}{n_{\bullet\bullet}}\) es la frecuencia esperada bajo la hipótesis de independencia.

El test es:

\[\tau:\qquad \text{Rechazar }H_0\text{ si }\chi^2_c>\chi^2_{(k-1)(p-1),1-\alpha}\]

5.1 Ejemplo

Tomado de: Barón F.J. Bioestadística. Universidad de MÔlaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf

Se seleccionó una muestra de 500 niños para determinar si existe una asociación entre el nivel socio-económico y la presencia o ausencia de un defecto de pronunciación. Con base en los resultados de la tabla, ¿qué se puede concluir utilizando un 5% de significancia?

\(X\): Defecto en la pronunciación.

\(Y\): Nivel socio-económico.

\(X / Y\) Alto Medio-alto Medio-bajo Bajo
SĆ­ 8 24 32 27
No 42 121 138 108

El sistema de hipótesis estÔ dado por:

\[H_0:\text{No existe una asociación entre el defecto en la pronunciación y el nivel socio-económico}\] \[\text{frente a}\] \[H_1:\text{Sí existe una asociación entre el defecto en la pronunciación y el nivel socio-económico}\]

#tabla de frecuencias
tabla <- matrix(data = c(8,24,32,27,42,121,138,108), nrow = 2, ncol = 4, byrow = T)
colnames(tabla) <- c("Alto","Medio-alto","Medio-bajo","Bajo")
rownames(tabla) <- c("Con defecto", "Sin defecto")
print(tabla)
##             Alto Medio-alto Medio-bajo Bajo
## Con defecto    8         24         32   27
## Sin defecto   42        121        138  108
# prueba de hipótesis
chisq.test(x = tabla)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 0.76536, df = 3, p-value = 0.8577
# percentil
qchisq(p = 0.05, df = 3, lower.tail = F)
## [1] 7.814728

Como el valor \(p=0.8577>0.05\), se concluye que no hay suficiente evidencia estadística para afirmar que existe una asociación entre el nivel socio-económico y tener un defecto de pronunciación.

6 Referencias