Cuando los datos de un grupo están relacionados o emparejados con los de otro, como al medir a la misma persona en dos momentos distintos
La prueba t pareada que se describe en la sección “Pruebas de hipótesis de dos muestras: muestras dependientes” del capítulo 11, tiene dos requisitos. Primero, las muestras deben ser dependientes. Recuerde que estas se caracterizan por una medición, algún tipo de intervención y luego otra medición; por ejemplo, una compañía inició un programa de “bienestar” al inicio del año y 20 trabajadores se inscribieron para bajar de peso. Primero se pesó a todos los participantes, luego se pusieron a dieta, hicieron ejercicio, etc, para reducir de peso. Al final del programa, que duró seis meses, todos los participantes se pesaron de nuevo; la diferencia entre sus pesos al inicio y al final del programa es la variable de interés. Observe que hay una medición, una intervención y luego otra medición. El segundo requisito de la prueba t apareada es que la distribución de las diferencias tenga una distribución normal de probabilidad. En el ejemplo sobre el programa de bienestar, esto implicaría que las diferencias en los pesos de la población de participantes tuviera una distribución de probabilidad normal. Entonces, dicha suposición es razonable, sin embargo, hay casos en los que se busca estudiar las diferencias entre observaciones dependientes donde no es posible suponer que su distribución se aproxima a la normalidad.
title: “Casas: Profesionales vs. Padres — Prueba apareada” author: “” output: html_document: toc: true toc_depth: 3 toc_float: true number_sections: true pdf_document: default ———————-
Un investigador desea comparar el tamaño (en pies cuadrados) de las viviendas de un grupo de profesionales con las viviendas de sus respectivos padres. Para cada familia se registra un par de observaciones: el área de la casa del profesional y el área de la casa de sus padres. Los datos son:
Familia | Profesional | Padres |
---|---|---|
Gordon | 1725 | 1175 |
Sharkey | 1310 | 1120 |
Uselding | 1670 | 1420 |
Bell | 1520 | 1640 |
Kuhlman | 1290 | 1360 |
Welch | 1880 | 1750 |
Anderson | 1530 | 1440 |
#Hipotesis Sea \(D = \text{Profesionales} - \text{Padres}\).
Bilateral (two.sided):
\(H_0:\ \tilde{D} = 0 \quad \text{vs} \quad
H_1:\ \tilde{D} \neq 0\)
Unilateral derecha (greater):
\(H_0:\ \tilde{D} \le 0 \quad \text{vs} \quad
H_1:\ \tilde{D} > 0\)
Unilateral izquierda (less):
\(H_0:\ \tilde{D} \ge 0 \quad \text{vs} \quad
H_1:\ \tilde{D} < 0\)
Comparar el tamaño de las casas (pies²) entre profesionales y sus padres para determinar si existen diferencias (bilateral) y, específicamente, si los profesionales viven en casas más grandes (unilateral derecha). El diseño es apareado (cada pareja pertenece a la misma familia).
prof <- c(1725, 1310, 1670, 1520, 1290, 1880, 1530)
padres <- c(1175, 1120, 1420, 1640, 1360, 1750, 1440)
# Vector de diferencias: D = Prof - Padres
d <- prof - padres
data.frame(
pareja = c("Gordon","Sharkey","Uselding","Bell","Kuhlman","Welch","Anderson"),
profesionales = prof,
padres = padres,
diferencia = d
)
## pareja profesionales padres diferencia
## 1 Gordon 1725 1175 550
## 2 Sharkey 1310 1120 190
## 3 Uselding 1670 1420 250
## 4 Bell 1520 1640 -120
## 5 Kuhlman 1290 1360 -70
## 6 Welch 1880 1750 130
## 7 Anderson 1530 1440 90
Sea \(D = \text{Prof} - \text{Padres}\).
Bilateral (two.sided): \(H_0: \text{Mediana}(D) = 0\) vs. \(H_1: \text{Mediana}(D) \neq 0\).
Unilateral derecha (greater): \(H_0: \text{Mediana}(D) \le 0\) vs. \(H_1: \text{Mediana}(D) > 0\).
Unilateral izquierda (less): \(H_0: \text{Mediana}(D) \ge 0\) vs. \(H_1: \text{Mediana}(D) < 0\).
Nota: Si asumimos normalidad en \(D\), podríamos usar t pareada sobre la media; con Wilcoxon trabajamos sobre la mediana.
old_par <- par(mfrow = c(1,3))
# Boxplot por grupo
boxplot(list(Profesionales = prof, Padres = padres),
main = "Boxplots por grupo",
ylab = "Tamaño (pies²)")
# Histograma de diferencias
hist(d, freq = FALSE, main = "Histograma de D = Prof - Padres",
xlab = "Diferencia (pies²)")
lines(density(d), lwd = 2)
abline(v = 0, lty = 2, col = "red")
# QQ-plot de diferencias
qqnorm(d, main = "QQ-plot de diferencias")
qqline(d, col = "red")
par(old_par)
# Unir en un data frame
df <- data.frame(
Tamaño = c(prof, padres),
Grupo = rep(c("Profesionales", "Padres"), each = length(prof))
)
# Diagrama de bigotes
boxplot(Tamaño ~ Grupo, data = df,
main = "Diagrama de bigotes: Profesionales vs Padres",
ylab = "Tamaño de casa (pies²)",
col = c("skyblue", "lightgreen"))
Con \(n=7\), verificamos normalidad de \(D\) (Shapiro–Wilk) para decidir entre t pareada o Wilcoxon.
shapiro.test(d)
##
## Shapiro-Wilk normality test
##
## data: d
## W = 0.94139, p-value = 0.6512
Criterio: Si no se rechaza normalidad (p > 0.05), t pareada es válida; si se rechaza o preferimos robustez, usamos Wilcoxon apareada.
Establecemos \(\alpha = 0.05\).
wilcox.test(prof, padres, paired = TRUE, alternative = "two.sided")
##
## Wilcoxon signed rank exact test
##
## data: prof and padres
## V = 24, p-value = 0.1094
## alternative hypothesis: true location shift is not equal to 0
Interpretación: Si p-value > 0.05
,
no hay evidencia suficiente de diferencia (en cualquier sentido) entre
medianas.
Hipótesis: los profesionales viven en casas más grandes (\(\text{Mediana}(D) > 0\)).
wilcox_greater <- wilcox.test(prof, padres, paired = TRUE, alternative = "greater")
print(wilcox_greater)
##
## Wilcoxon signed rank exact test
##
## data: prof and padres
## V = 24, p-value = 0.05469
## alternative hypothesis: true location shift is greater than 0
Interpretación: Si p-value ≤ 0.05
,
concluimos que la mediana de \(D\) es
mayor que 0.
Solo como referencia si \(D\) es aproximadamente normal.
t_paired <- t.test(prof, padres, paired = TRUE, alternative = "greater")
t_paired
##
## Paired t-test
##
## data: prof and padres
## t = 1.7335, df = 6, p-value = 0.06686
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## -17.62833 Inf
## sample estimates:
## mean difference
## 145.7143
p > 0.05
.p ≤ 0.05
,
concluimos que los profesionales viven en casas más grandes en mediana;
si p > 0.05
, no hay evidencia suficiente.