Prueba para muestras dependientes

Cuando los datos de un grupo están relacionados o emparejados con los de otro, como al medir a la misma persona en dos momentos distintos

La prueba t pareada que se describe en la sección “Pruebas de hipótesis de dos muestras: muestras dependientes” del capítulo 11, tiene dos requisitos. Primero, las muestras deben ser dependientes. Recuerde que estas se caracterizan por una medición, algún tipo de intervención y luego otra medición; por ejemplo, una compañía inició un programa de “bienestar” al inicio del año y 20 trabajadores se inscribieron para bajar de peso. Primero se pesó a todos los participantes, luego se pusieron a dieta, hicieron ejercicio, etc, para reducir de peso. Al final del programa, que duró seis meses, todos los participantes se pesaron de nuevo; la diferencia entre sus pesos al inicio y al final del programa es la variable de interés. Observe que hay una medición, una intervención y luego otra medición. El segundo requisito de la prueba t apareada es que la distribución de las diferencias tenga una distribución normal de probabilidad. En el ejemplo sobre el programa de bienestar, esto implicaría que las diferencias en los pesos de la población de participantes tuviera una distribución de probabilidad normal. Entonces, dicha suposición es razonable, sin embargo, hay casos en los que se busca estudiar las diferencias entre observaciones dependientes donde no es posible suponer que su distribución se aproxima a la normalidad.  


title: “Casas: Profesionales vs. Padres — Prueba apareada” author: “” output: html_document: toc: true toc_depth: 3 toc_float: true number_sections: true pdf_document: default ———————-

Un investigador desea comparar el tamaño (en pies cuadrados) de las viviendas de un grupo de profesionales con las viviendas de sus respectivos padres. Para cada familia se registra un par de observaciones: el área de la casa del profesional y el área de la casa de sus padres. Los datos son:

Familia Profesional Padres
Gordon 1725 1175
Sharkey 1310 1120
Uselding 1670 1420
Bell 1520 1640
Kuhlman 1290 1360
Welch 1880 1750
Anderson 1530 1440

#Hipotesis Sea \(D = \text{Profesionales} - \text{Padres}\).

Bilateral (two.sided):
\(H_0:\ \tilde{D} = 0 \quad \text{vs} \quad H_1:\ \tilde{D} \neq 0\)

Unilateral derecha (greater):
\(H_0:\ \tilde{D} \le 0 \quad \text{vs} \quad H_1:\ \tilde{D} > 0\)

Unilateral izquierda (less):
\(H_0:\ \tilde{D} \ge 0 \quad \text{vs} \quad H_1:\ \tilde{D} < 0\)

Objetivo

Comparar el tamaño de las casas (pies²) entre profesionales y sus padres para determinar si existen diferencias (bilateral) y, específicamente, si los profesionales viven en casas más grandes (unilateral derecha). El diseño es apareado (cada pareja pertenece a la misma familia).

Datos

prof   <- c(1725, 1310, 1670, 1520, 1290, 1880, 1530)
padres <- c(1175, 1120, 1420, 1640, 1360, 1750, 1440)

# Vector de diferencias: D = Prof - Padres
d <- prof - padres

data.frame(
  pareja = c("Gordon","Sharkey","Uselding","Bell","Kuhlman","Welch","Anderson"),
  profesionales = prof,
  padres = padres,
  diferencia = d
)
##     pareja profesionales padres diferencia
## 1   Gordon          1725   1175        550
## 2  Sharkey          1310   1120        190
## 3 Uselding          1670   1420        250
## 4     Bell          1520   1640       -120
## 5  Kuhlman          1290   1360        -70
## 6    Welch          1880   1750        130
## 7 Anderson          1530   1440         90

Conjunto de hipótesis

Sea \(D = \text{Prof} - \text{Padres}\).

Bilateral (two.sided): \(H_0: \text{Mediana}(D) = 0\) vs. \(H_1: \text{Mediana}(D) \neq 0\).

Unilateral derecha (greater): \(H_0: \text{Mediana}(D) \le 0\) vs. \(H_1: \text{Mediana}(D) > 0\).

Unilateral izquierda (less): \(H_0: \text{Mediana}(D) \ge 0\) vs. \(H_1: \text{Mediana}(D) < 0\).

Nota: Si asumimos normalidad en \(D\), podríamos usar t pareada sobre la media; con Wilcoxon trabajamos sobre la mediana.

Gráficas exploratorias

old_par <- par(mfrow = c(1,3))

# Boxplot por grupo
boxplot(list(Profesionales = prof, Padres = padres),
        main = "Boxplots por grupo",
        ylab = "Tamaño (pies²)")

# Histograma de diferencias
hist(d, freq = FALSE, main = "Histograma de D = Prof - Padres",
     xlab = "Diferencia (pies²)")
lines(density(d), lwd = 2)
abline(v = 0, lty = 2, col = "red")

# QQ-plot de diferencias
qqnorm(d, main = "QQ-plot de diferencias")
qqline(d, col = "red")

par(old_par)

# Unir en un data frame
df <- data.frame(
  Tamaño = c(prof, padres),
  Grupo  = rep(c("Profesionales", "Padres"), each = length(prof))
)

# Diagrama de bigotes
boxplot(Tamaño ~ Grupo, data = df,
        main = "Diagrama de bigotes: Profesionales vs Padres",
        ylab = "Tamaño de casa (pies²)",
        col = c("skyblue", "lightgreen"))

Chequeo de normalidad

Con \(n=7\), verificamos normalidad de \(D\) (Shapiro–Wilk) para decidir entre t pareada o Wilcoxon.

shapiro.test(d)
## 
##  Shapiro-Wilk normality test
## 
## data:  d
## W = 0.94139, p-value = 0.6512

Criterio: Si no se rechaza normalidad (p > 0.05), t pareada es válida; si se rechaza o preferimos robustez, usamos Wilcoxon apareada.

Pruebas de hipótesis

Establecemos \(\alpha = 0.05\).

1) Wilcoxon apareada (bilateral)

 wilcox.test(prof, padres, paired = TRUE, alternative = "two.sided")
## 
##  Wilcoxon signed rank exact test
## 
## data:  prof and padres
## V = 24, p-value = 0.1094
## alternative hypothesis: true location shift is not equal to 0

Interpretación: Si p-value > 0.05, no hay evidencia suficiente de diferencia (en cualquier sentido) entre medianas.

2) Wilcoxon apareada (unilateral derecha)

Hipótesis: los profesionales viven en casas más grandes (\(\text{Mediana}(D) > 0\)).

wilcox_greater <- wilcox.test(prof, padres, paired = TRUE, alternative = "greater")
print(wilcox_greater)
## 
##  Wilcoxon signed rank exact test
## 
## data:  prof and padres
## V = 24, p-value = 0.05469
## alternative hypothesis: true location shift is greater than 0

Interpretación: Si p-value ≤ 0.05, concluimos que la mediana de \(D\) es mayor que 0.

3) (Opcional) t de Student pareada

Solo como referencia si \(D\) es aproximadamente normal.

t_paired <- t.test(prof, padres, paired = TRUE, alternative = "greater")
t_paired
## 
##  Paired t-test
## 
## data:  prof and padres
## t = 1.7335, df = 6, p-value = 0.06686
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  -17.62833       Inf
## sample estimates:
## mean difference 
##        145.7143

Conclusiones