Supóngase un estudio clínico que analiza la eficacia de un medicamento teniendo en cuenta dos factores, el sexo (masculino y femenino) y la juventud (joven, adulto). Se quiere analizar si el efecto es diferente entre alguno de los niveles de cada variable por si sola o en combinación.

Este estudio implica comprobar si el efecto medio del fármaco es significativamente distinto entre alguno de los siguientes grupos: hombres, mujeres, jóvenes, adultos, hombres jóvenes, hombres adultos, mujeres jóvenes y mujeres adultas.

library(readxl)
Datos <- read_excel("Datos.xlsx")
  1. Genere los diagramas “Box-plot” para identificar posibles diferencias significativas, asimetrías, valores atípicos y homogeneidad de varianza entre los distintos niveles. Se acompaña a los gráficos de la media y varianza de cada grupo.
library(ggplot2)
ggplot(Datos, aes(x = age, y = result)) +
      geom_boxplot() +
      theme_bw()

library(ggplot2)
ggplot(Datos, aes(x = sex, y = result)) +
      geom_boxplot() +
      theme_bw()

library(ggplot2)
ggplot(Datos, aes(x = age, y = result, colour = sex)) +
      geom_boxplot() +
      theme_bw()

##   hombre    mujer 
##  9918226 10212784
##    joven    viejo 
## 10117077 10033570
##           joven    viejo
## hombre  9977473  9885311
## mujer  10186879 10255958
  1. A partir de la representación gráfica y el cálculo de las medias responda:

Es posible identificar posibles interacciones de los dos factores de forma gráfica mediante lo que se conocen como “gráficos de interacción” * ¿como se interpreta un grafico de interaccion ? Se interpreta mediante las líneas no paralelas, ya que nos indican la interacción entre los factores evaluados.

¿Qué interpreta de estos gráficos?

Ya que las líneas no son paralelas, se puede se puede decir que hay una interacción entre los dos factores. Por lo cual se puede observar que el farmaco tiene mayor efecto en mujeres adultas que en jovenes, contrario a lo que sucede con los hombres, pues tiene un mayor efecto son jovenes que cuando son adultos.

Si bien la significancia se tendrá que confirmar con el ANOVA. La distribución de las observaciones de cada nivel parece simétrica con la presencia de un único valor atípico. A priori parece que se satisfacen las condiciones necesarias para un ANOVA, aunque habrá que confirmarlas estudiando los residuos.

##             Df    Sum Sq   Mean Sq F value Pr(>F)  
## sex          1 6.478e+11 6.478e+11   4.603 0.0414 *
## age          1 1.986e+08 1.986e+08   0.001 0.9703  
## sex:age      1 4.500e+10 4.500e+10   0.320 0.5766  
## Residuals   26 3.660e+12 1.408e+11                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##               eta.sq  eta.sq.part
## sex     1.368649e-01 1.399943e-01
## age     4.561951e-05 5.425551e-05
## sex:age 1.033795e-02 1.214630e-02

Para poder dar por válidos los resultados del ANOVA es necesario verificar que se satisfacen las condiciones de un ANOVA.