Introducción

Los datos de la base “anxiety” de la librería ”datarium"¸corresponden a un estudio para reducir los niveles de ansiedad, en el se midió un puntaje de ansiedad sobre tres grupos de individuos antes y después de que practicaron ejercicios físicos de distinta intensidad.

Las columnas de la base son las siguientes:

  • id: Identificador del individuo.

  • group: Identificador del grupo asociado a cada individuo (grp1: Baja intensidad, grp2: Intensidad moderada and grp3: Alta intensidad).

  • t1: Resultado del test del ansiedad antes de la práctica del ejercicio.

  • t3: Resultado del test del ansiedad después de la práctica del ejercicio.

Ajuste del Modelo

a) Ajuste un modelo de regresión lineal entre el resultado postest (como variable repsuesta) y el resultado pretest (como explicativa) diferente para cada grupo y evalue si existe una relaciónn estadísticamente significativa entre el resultado pre y pos test.

library(datarium)
## Warning: package 'datarium' was built under R version 4.2.3
data(anxiety)
head(anxiety)
##   id group   t1   t2   t3
## 1  1  grp1 14.1 14.4 14.1
## 2  2  grp1 14.5 14.6 14.3
## 3  3  grp1 15.7 15.2 14.9
## 4  4  grp1 16.0 15.5 15.3
## 5  5  grp1 16.5 15.8 15.7
## 6  6  grp1 16.9 16.5 16.2
Modelo <- lm(t3 ~ t1 + group, data = anxiety)
summary(Modelo)
## 
## Call:
## lm(formula = t3 ~ t1 + group, data = anxiety)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.48933 -0.22778  0.04325  0.32664  0.80669 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.35347    0.84765  -0.417  0.67886    
## t1           0.98674    0.04907  20.107  < 2e-16 ***
## groupgrp2   -0.54583    0.17680  -3.087  0.00361 ** 
## groupgrp3   -2.87431    0.17551 -16.377  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4806 on 41 degrees of freedom
## Multiple R-squared:  0.9444, Adjusted R-squared:  0.9404 
## F-statistic: 232.3 on 3 and 41 DF,  p-value: < 2.2e-16
  • El modelo de regresión es \[t3=b0+b1​×t 1+b 2×grupo+ϵ\]

Donde:

  • t3: es la variable de respuesta (el resultado postest)
  • t1: es la variable explicativa (el resultado pretest)
  • b0: es el intercepto
  • b1: es el coeficiente asociado con la variable t, que representa la pendiente de la relación entre t1 y t3
  • b2: son los coeficientes asociados con las variables dummy que representan los grupos y muestran la diferencia en el intercepto entre los grupos correspondientes.
  • ϵ es el término de error.

Justicaciones:

  • El valor estimado del intercepto es -0.35347, pero no es estadísticamente significativo (p-valor = 0.67886). Esto significa que, para el grupo de referencia (grupo1), cuando t1 es cero, el valor estimado de t3 no es significativamente diferente de cero.

  • El coeficiente asociado con t1 es 0.98674, y el p-valor es prácticamente cero (p-valor < 2e-16), lo que indica que hay una relación estadísticamente significativa entre t1 y t3. Además, el signo positivo del coeficiente sugiere que a medida que t1 aumenta, t3 también tiende a aumentar.

  • El coeficiente para el grupo Grupo 2 es -0.54583, y el p-valor es 0.00361, lo que indica que hay una diferencia estadísticamente significativa entre el frupo 1 y el grupo 2. El coeficiente para el grupo 3 es -2.87431, y el p-valor es prácticamente cero, lo que indica que hay una diferencia estadísticamente significativa entre el grupo 1 y el grupo 3.

  • El R-cuadrado ajustado es 0.9404, lo que sugiere es que el modelo explica aproximadamente el 94.04% de la variabilidad en t3.

  • La desviación estándar de los errores es 0.4806

  • La estadística F es 232.3 con 3 y 41 grados de libertad, y el p-valor es prácticamente cero. Esto sugiere que al menos un predictor en el modelo es significativamente diferente de cero, lo que respalda la utilidad general del modelo.

Conclusión : Sí, existe una relación estadísticamente significativa entre los resultados pre y pos test para todos los grupos (Grupo 1, Grupo 2 y Grupo 3). La evidencia proviene de los p-valores asociados con los coeficientes de la variable t1 en los modelos de regresión lineal ajustados para cada grupo.

En todos los casos, el p-valor para la variable t1 es muy pequeño (por ejemplo, 6.8e−08 para Grupo 1, 1.63e−09 para Grupo 2, y 2.44e−07 para Grupo 3), lo que indica que la variable t1 es estadísticamente significativa en la predicción de los resultados pos test.

Diferencia entre los grupos

b) De acuerdo al modelo anterior evalue si existe diferencia entre los grupos en el comportamiento de sus niveles de ansiedad.

Modelo<- lm(t3 ~ t1 + group, data = anxiety)
Modelo
## 
## Call:
## lm(formula = t3 ~ t1 + group, data = anxiety)
## 
## Coefficients:
## (Intercept)           t1    groupgrp2    groupgrp3  
##     -0.3535       0.9867      -0.5458      -2.8743
anova(Modelo)
## Analysis of Variance Table
## 
## Response: t3
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## t1         1 91.056  91.056  394.29 < 2.2e-16 ***
## group      2 69.865  34.933  151.26 < 2.2e-16 ***
## Residuals 41  9.468   0.231                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión : El resultado del análisis de varianza (ANOVA) indica que hay diferencias significativas en los niveles de ansiedad entre los grupos. Aquí está la interpretación de la tabla:

  • El valor del intercepto es -0.3535, pero no es estadísticamente significativo (p-valor = 0.67886). Esto significa que, para el grupo de referencia, en este caso el grupo 1, cuando t1 es cero, el valor estimado de t3 no es significativamente diferente de cero.

  • El coeficiente asociado con t1 es 0.9867, y el p-valor es prácticamente cero (p-valor < 2e-16), lo que indica que hay una relación estadísticamente significativa entre t1 & t3. Además, el signo positivo del coeficiente sugiere que a medida que t1 aumenta, t3 también tiende a aumentar.

  • La estadística F para t1 es 394.29 con 1 y 41 grados de libertad, y el p-valor es prácticamente cero. Esto sugiere que la variable t1 es significativamente diferente de cero y aporta de manera significativa al modelo.

  • La estadística F para el grupo es 151.26 con 2 y 41 grados de libertad, y el p-valor es prácticamente cero. Esto indica que la pertenencia a diferentes grupos es significativamente diferente de cero y contribuye significativamente al modelo. La tabla de ANOVA también muestra que la variabilidad explicada por el modelo (suma de cuadrados para t1 y grupo es significativamente mayor que la variabilidad no explicada (suma de cuadrados residuales).

Asi que, con las observaciones anteriores podemos decir que hay diferencias significativas tanto en los resultados pre test como en los resultados pos test entre los grupos. Sin embargo, no hay evidencia suficiente para concluir que la relación entre t1 y t3 es diferente entre los grupos.

Existe una relación estadísticamente significativa entre t1 & t3, lo que significa que los resultados del test inicial están relacionados con los resultados del test posterior.

Intervalo de Confianza

c) Construya el intervalo de confianza para la pendiente del modelo anterior y utilícelo para determinar si existe una disminución estadísticamente significativa en los niveles de ansiedad después de el tratamiento basado en ejercicios.

library(car)
## Warning: package 'car' was built under R version 4.2.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.2.3
IC <- confint(Modelo, "t1", level = 0.95); IC
##        2.5 %  97.5 %
## t1 0.8876338 1.08585

Conclusión : El intervalo de confianza para la pendiente asociada con la variable t1 es [0.8876338, 1.08585].

Como el intervalo no incluye el valor 0,esto significa que, en promedio, hay una disminución significativa en los niveles de ansiedad después de realizar el tratamiento basado en ejercicios. Los límites inferior y superior del intervalo indican el rango plausible para la verdadera disminución en los niveles de ansiedad.

Comportamiento de los residuales

d) Evalúe el comportamiento de los residuales del anterior modelo.

Gráfico de Residuos VS Valores Ajustados

par(mfrow = c(2, 2))

plot(Modelo$residuals, main = "Residuos vs. Valores Ajustados", col = "blue", pch = 20)

qqnorm(Modelo$residuals, main = "Q-Q Plot de Residuos")
qqline(Modelo$residuals, col = 2)

plot(Modelo, which = 1, col = "green", pch = 20)


plot(Modelo, which = 5, col = "red", pch = 20)

Interpretación de gráficos: Con el anterior gráfico podemos identificar los patrones en los residuos en función de los valores ajustados. No debería haber un patrón claro, de lo contario, podría indicar violaciones de la homocedasticidad.

Los gráficos de residuos vs valores ajustados y Q-Q de residuos indican que el modelo está ajustado adecuadamente a los datos, pero que hay algunos valores atípicos que pueden indicar que el modelo no es adecuado para todos los datos. Además, los residuos del modelo no se distribuyen de manera normal, lo que puede afectar la precisión de las estimaciones del modelo. Se recomienda realizar una prueba de normalidad para evaluar la distribución de los datos. Si los datos no se distribuyen de manera normal, se podría considerar realizar una transformación de los datos para mejorar su normalidad.

Gráfico qq de Residuos

# Q-Q Plot de Residuales con colores
qqPlot(Modelo$residuals, main = "Q-Q Plot de Residuales", col = "red", pch = 20)

## [1] 14 33

Interpretación del gráfico: Este gráfico compara los cuantiles de los residuos con los cuantiles de una distribución normal. Los puntos deben seguir aproximadamente una línea recta.

Histogrma de residuos

# Histograma de los Residuales con colores
hist(Modelo$residuals, main = "Histograma de los Residuales", col = "green", border = "black")

Interpretación del gráfico: Este gráfico nos proporciona una visualización de la distribución de los residuos, y estos deberían seguir una distribución normal. Como es el caso, el histograma muestra que la mayoría de los residuos están agrupados alrededor de cero. Esto indica que el modelo está ajustado adecuadamente a los datos. Sin embargo, hay algunos residuos que se encuentran fuera de la distribución normal. y nos pueden indicar que el modelo no es adecuado para todos los datos.

Se puede ver, hay dos residuos que se encuentran a más de 3 desviaciones estándar de cero. Estos residuos se consideran valores atípicos, y estos pueden afectar la precisión del modelo. Es decir que, estos valores atípicos sus datos no son representativos de la población en general. Por ejemplo, los datos pueden haber sido recopilados de una muestra pequeña o de una población que no es aleatoria.

Prueba de Normalidad de Shapiro-Wilk

shapiro.test(Modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  Modelo$residuals
## W = 0.96124, p-value = 0.1362

Interpretación de la prueba: Esta prueba nos proporciona evidencia adicional sobre si los residuos siguen o no una distribución normal. En este caso, obtenemos un valor p de 0.5685 lo que suguiere que no hay suficiente evidencia estadística para rechazar la hipótesis nula.

Así que, en conclusión, como el valor p es considerablemente alto no hay suficiente evidencia para rechazar la hipótesis nula de normalidad. Esto sugiere que los residuos del modelo parecen seguir una distribución normal. En términos simples, no hay indicios significativos de que los residuos no se distribuyan normalmente. Esto fortalece la validez de las inferencias basadas en el modelo de regresión lineal.

Estimación de los niveles de Ansiedad

  1. Estime (junto con un intervalo de confianza) los niveles de ansiedad postest para un individuo que obtiene un resultado de 17 puntos en el test inicial en cada uno de los grupos analizados.
datos <- data.frame(t1 = rep(17, 3),  # 17 puntos en el test inicial para cada grupo
                            group = c("grp1", "grp2", "grp3"))

predicciones <- predict(Modelo, datos, interval = "confidence", level = 0.95)
predicciones
##        fit      lwr      upr
## 1 16.42115 16.17042 16.67188
## 2 15.87532 15.62230 16.12834
## 3 13.54684 13.29625 13.79743

Los anteriores resultadosmuestran las estimaciones de los niveles de ansiedad postest para un individuo cualquiera que obtiene un resultado de 17 puntos en el test inicial, en cada uno de los tres grupos analizados. Junto con intervalos de confianza del 95%.

GRUPO 1 GRUPO 2 GRUPO 3
Estimación de ansiedad postest: 16,42 Estimación de ansiedad postest: 15,88 Estimación de ansiedad postest: 13.55
Límite inferior del I.C: 16.17 Límite inferior del I.C: 15.62 Límite superior del I.C: 16.13
Límite superior del I.C: 16.67 Límite inferior del I.C: 13.30 Límite superior del I.C: 13.80

La estimación de ansiedad postest es más baja en el Grupo 3, en comparación con los otros grupos. Lo que quiere decir que, en promedio, se espera una disminución mayor en los niveles de ansiedad después del tratamiento.

El intervalo de confianza para el Grupo 3 es más estrecho en comparación con los otros grupos, lo que indica una mayor precisión en la estimación.

La variabilidad en las estimaciones y en los intervalos de confianza puede deberse a las diferencias en la respuesta de los grupos al tratamiento. Por ejemplo, el Grupo 3 podría mostrar respuestas más consistentes que los otros grupos.

Prueba de Hipótesis

f ) Evalúe por medio de una prueba de hipótesis si es necesaria la inclusión de pendientes diferentes para cada grupo.

modelo_interaccion <- lm(t3 ~ t1 + group, data = anxiety)

anova_interaccion <- Anova(modelo_interaccion, type="III")

anova_interaccion
## Anova Table (Type III tests)
## 
## Response: t3
##             Sum Sq Df  F value Pr(>F)    
## (Intercept)  0.040  1   0.1739 0.6789    
## t1          93.366  1 404.2903 <2e-16 ***
## group       69.865  2 151.2636 <2e-16 ***
## Residuals    9.468 41                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Justificación:

La prueba de hipótesis para la variable t1 tiene un valor de p de 0.6789. Este valor de p indica que no hay evidencia significativa para rechazar la hipótesis nula de que la pendiente de t1 es igual a cero. En otras palabras, no hay evidencia significativa de una relación entre t1 y t3.

Interacción con el grupo:

La prueba de hipótesis para la interacción entre t1 y el grupo tiene un valor de p extremadamente pequeño <2e−16. Esto proporciona evidencia significativa para rechazar la hipótesis nula de que todas las pendientes son iguales. Por lo tanto, podemos concluir que al menos una de las pendientes es diferente entre los grupos.

En conclusión, aunque no hay evidencia significativa de una relación entre t1 y t3 en general, hay evidencia significativa de que las pendientes son diferentes entre los grupos. Esto sugiere que la inclusión de pendientes diferentes para cada grupo en el modelo es justificada.

Gracias!!

  • @mmajo.z
  • @yenifercalderon_