Dos medias son dependientes o pareadas cuando proceden de grupos o muestras dependientes, esto es, cuando existe una relación entre las observaciones de las muestras. Este escenario ocurre a menudo cuando los resultados se generan a partir de los mismos individuos bajo dos condiciones distintas. Por ejemplo, si se quiere comprobar el resultado de dos tipos de exámenes (lectura y escritura) sobre los alumnos de un colegio, es de esperar que alumnos que obtienen una alta calificación en un examen también lo hagan en el otro. Otro caso similar son los estudios médicos en los que se compara una característica pre-tratamiento y post-tratamiento sobre los mismos individuos.

Para poder determinar si los individuos (observaciones) han sufrido una diferencia significativa entre las condiciones X, se calcula para cada uno de ellos el cambio en la magnitud estudiada di=xi−yi.

A pesar de que no exista diferencia entre las dos condiciones (por ejemplo, que la presión sanguínea es igual antes y después del tratamiento), al calcular la diferencia entre el antes y después de cada individuo probablemente el valor no sea exactamente cero, ya que debido a la variabilidad se van a producir desviaciones por encima y por debajo de cero. Sin embargo, el promedio de todas las diferencias tenderá a cero (compensación de desviaciones).

Los test dependientes o pareados tienen la ventaja frente a los independientes de que se puede controlar mejor la variacién no sistematica (la producida por variables no contempladas en el estudio), ya que se bloquean al estar examinado los mismos individuos dos veces, no dos grupos de individuos distintos.

2.- Condiciones

3.- EJERCICIO 1

Un equipo de atletismo ha decidido contratar a un nuevo entrenador. Para decidir si al cabo de un año mantienen su contrato se selecciona aleatoriamente a 10 miembros del equipo y se cronometran sus tiempos en 100 metros lisos al inicio del año, al final del año se volverá a cronometrar a esos mismos 10 corredores. En vista de los datos obtenidos ¿Hay diferencia significativa entre el rendimiento de los corredores tras un año de entrenar con el nuevo instructor?

datos <- data.frame(
          corredor = c(1:10),
          antes = c(12.9, 13.5, 12.8, 15.6, 17.2, 19.2, 12.6, 15.3, 14.4, 11.3),
          despues = c(12.7, 13.6, 12.0, 15.2, 16.8, 20.0, 12.0, 15.9, 16.0, 11.1)
        )
head(datos, 4)
##   corredor antes despues
## 1        1  12.9    12.7
## 2        2  13.5    13.6
## 3        3  12.8    12.0
## 4        4  15.6    15.2
diferencia <- datos$despues-datos$antes 
datos2 <- cbind(datos, diferencia)
datos2
##    corredor antes despues diferencia
## 1         1  12.9    12.7       -0.2
## 2         2  13.5    13.6        0.1
## 3         3  12.8    12.0       -0.8
## 4         4  15.6    15.2       -0.4
## 5         5  17.2    16.8       -0.4
## 6         6  19.2    20.0        0.8
## 7         7  12.6    12.0       -0.6
## 8         8  15.3    15.9        0.6
## 9         9  14.4    16.0        1.6
## 10       10  11.3    11.1       -0.2
colMeans(datos2[,-1])
##      antes    despues diferencia 
##      14.48      14.53       0.05

La media de la diferencia es 0.05

3.1.-Condiciones

3.1.1.- Normalidad

par(mar = c(2,2,2,2))
par(mfrow = c(1, 2))

qqnorm(datos$despues, xlab = "x", ylab="y", main = "Después")
qqline(datos$despues)

qqnorm(datos$antes, xlab = "x", ylab="y", main = "Después")
qqline(datos$antes)

shapiro.test(datos$despues)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$despues
## W = 0.93638, p-value = 0.5135

El p valor es 0.51 > 0.05. Tenemos evidencia suficiente para aceptar la hipótesis de normalidad.

shapiro.test(datos$antes)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$antes
## W = 0.94444, p-value = 0.6033

El p valor es 0.60 > 0.05. Tenemos evidencia suficiente para aceptar la hipótesis de normalidad.

En ambos caso se acepta la hipótesis nula de normalidad.

sd(datos2$diferencia)
## [1] 0.7412452

La desviación típica de la diferencia es0.7412452

Estadístico T = median D-0 / SE (D)

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.2.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
estadistico = mean(datos2$diferencia/sd(datos2$diferencia/sqrt(10)))
estadistico
## [1] 0.2133085
pt(q = -0.2133085, df = 9) + (1 - pt(q = 0.2133085, df = 9))
## [1] 0.83584

El p valor es 0.83 > 0.05. Tenemos evidencia empírica suficiente para aceptar la hipótesis de igualdad de medias.

No se va a renovar el contrato, pues el promedio es similar antes y después del entrenamiento con el entrenador actual.

4.- EJERCICIO 2

Un equipo de atletismo ha decidido contratar a un nuevo entrenador. Para decidir si al cabo de un año mantienen su contrato se selecciona aleatoriamente a 10 miembros del equipo y se cronometran sus tiempos en 100 metros lisos al inicio del año, al final del año se volverá a cronometrar a esos mismos 10 corredores. En vista de los datos obtenidos ¿Hay diferencia significativa entre el rendimiento de los corredores tras un año de entrenar con el nuevo instructor?

t.test(
  x                  = datos$despues,
  y                  = datos$antes,
  alternative        = "two.sided",
  mu                 = 0,
  paired             = TRUE,
  conf.level         = 0.95
)
## 
##  Paired t-test
## 
## data:  datos$despues and datos$antes
## t = 0.21331, df = 9, p-value = 0.8358
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  -0.4802549  0.5802549
## sample estimates:
## mean difference 
##            0.05

El estadístico del contraste asciende a 0.21 con un p valor de 0.83 > 0.05. Tenemos evidencia empírica suficiente para aceptar la hipótesis nula de igualdad de medias.

No se va a renovar el contrato, pues el promedio es similar antes y después del entrenamiento con el entrenador actual.

El intervalo de confianza para la diferencia de medias poblacionales al 95% nos proporciona una estimación de -0.48; 0.58. Dado que el valor de cero es compatible, se acepta que la diferencia de medias poblacionales es nula; por tanto, las medias poblacionales son similares.

library(effsize)
## Warning: package 'effsize' was built under R version 4.2.3
cohen.d(d=datos$despues, f=datos$antes, paired = TRUE)
## 
## Cohen's d
## 
## d estimate: 0.0169815 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.1502851  0.1842481

El tamaño del efecto es insignificante, por este motivo existe una alta probabilidad de aceptar la hipótesis nula (alto p valor).

t.test(
  x                  = datos$despues,
  y                  = datos$antes,
  alternative        = "two.sided",
  mu                 = 0,
  paired             = FALSE,
  conf.level         = 0.95
)
## 
##  Welch Two Sample t-test
## 
## data:  datos$despues and datos$antes
## t = 0.043323, df = 17.653, p-value = 0.9659
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.378112  2.478112
## sample estimates:
## mean of x mean of y 
##     14.53     14.48

El estadístico del contraste asciende a 0.04 con un p valor de 0.96 > 0.05. Tenemos evidencia empírica suficiente para aceptar la hipótesis nula de igualdad de medias.

No se va a renovar el contrato, pues el promedio es similar antes y después del entrenamiento con el entrenador actual.

El intervalo de confianza para la diferencia de medias poblacionales al 95% nos proporciona una estimación de -2.37; 2.47. Dado que el valor de cero es compatible, se acepta que la diferencia de medias poblacionales es nula; por tanto, las medias poblacionales son similares.

cohen.d(d=datos$despues, f=datos$antes, paired = FALSE)
## 
## Cohen's d
## 
## d estimate: 0.01937485 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.9202081  0.9589578

El tamaño del efecto es insignificante, por este motivo existe una alta probabilidad de aceptar la hipótesis nula (alto p valor).

5.- INFORME DE LA SESIÓN

sesion_info <- devtools::session_info()
dplyr::select(
  tibble::as_tibble(sesion_info$packages),
  c(package, loadedversion, source)
)
## # A tibble: 59 × 3
##    package  loadedversion source        
##    <chr>    <chr>         <chr>         
##  1 bslib    0.4.2         CRAN (R 4.2.2)
##  2 cachem   1.0.6         CRAN (R 4.2.2)
##  3 callr    3.7.3         CRAN (R 4.2.3)
##  4 cli      3.6.0         CRAN (R 4.2.2)
##  5 crayon   1.5.2         CRAN (R 4.2.3)
##  6 devtools 2.4.5         CRAN (R 4.2.3)
##  7 digest   0.6.31        CRAN (R 4.2.2)
##  8 dplyr    1.1.2         CRAN (R 4.2.3)
##  9 effsize  0.8.1         CRAN (R 4.2.3)
## 10 ellipsis 0.3.2         CRAN (R 4.2.2)
## # ℹ 49 more rows