Vamos a investigar el crecimiento de los dientes de Guinea Pigs usando un tratamiento basado en la Vitamica C. Para ello vamos a suministrar a cada ‘individuo’, si se les puede llamar asi, diferentes dosis de dos componentes con alto contenido de Vitamica C, por un lado Zumo de Naranja, y por otro Ácido Ascorbico. Las conclusiones las podremos ver al final del informe. Vamos a usar las siguientes herramientas: Plots, Confidence interval and Hypothesis Test.
Vamos a echar un vistazo a los datos, para ver la manera de enfocar la investigación.
datos <- ToothGrowth
str(datos)
## 'data.frame': 60 obs. of 3 variables:
## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ...
## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ...
## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ...
summary(datos)
## len supp dose
## Min. : 4.20 OJ:30 Min. :0.500
## 1st Qu.:13.07 VC:30 1st Qu.:0.500
## Median :19.25 Median :1.000
## Mean :18.81 Mean :1.167
## 3rd Qu.:25.27 3rd Qu.:2.000
## Max. :33.90 Max. :2.000
table(datos$dose, datos$supp)
##
## OJ VC
## 0.5 10 10
## 1 10 10
## 2 10 10
A simple vista podemos ver 3 variables: Longitud del diente, con un valor continuo y numérico, El tipo de tratamiento, que es un factor con 2 posibles valores (Procedo a cambiar los levels por valores mas explicativos) y por ultimo la dosis del tratamiento con 3 valores diferentes (Procedo a convertirla en factor). Podemos enfocar la investigación de dos maneras diferentes, relacionando la longitud del diente a la dosis, o relacionando la longitud del diente al tipo de tratamiento. Vamos a verlo graficamente para elegir la mejor manera.
levels(datos$supp) <- c("Orange Juice", "Ascorbic Acid")
datos$dose <- as.factor(datos$dose)
g <- ggplot(datos, aes(x = factor(dose), y = len))
g <- g + facet_grid(.~supp)
g <- g + geom_boxplot(aes(fill = supp))
g <- g + labs(title = "Tooth Length by Dosage")
g <- g + labs(x = "Dosis", y = "Length")
g
Podemos observar en general que el crecimiento de los dientes es mejor o mayor para dosis mas altas.
g <- ggplot(datos, aes(x = supp, y = len))
g <- g + facet_grid(.~dose)
g <- g + geom_boxplot(aes(fill = dose))
g <- g + labs(title = "Tooth Length by Supplement")
g <- g + labs(x = "Supplement", y = "Length")
g
Podemos observar tambien en general que el crecimiento de los dientes es mejor para Orange Juice que para Ascorbic Acid en las dosis mas bajas, siento muy similar en la dosis mas alta. Tambien podemos ver que las varianzas son bastante heterogeneas y no tenemos la informacion suficiente para considerar los datos paired, puesto que los resultados son anonimos.
Vamos a hacer varios Hypothesis Tests, uno por cada dosis, comparando los 2 tratamientos y observando las diferencias entre ellos. La null Hypothesis va a ser que la diferencia entre tratamientos es cero. Y la Hypothesis alternativa va a ser que la diferencia entre tratamientos es distinta de cero, lo que es lo mismo, que uno de los tratamientos para una dosis determinada es mas efectivo que el otro.
1.- Dosis 0.5. Orange Juice - Ascorbic Acid
datos.aa.0.5 <- subset(datos, as.character(dose) == "0.5")
datos.aa.0.5 <- subset(datos.aa.0.5, as.character(supp) == "Ascorbic Acid")
datos.oj.0.5 <- subset(datos, as.character(dose) == "0.5")
datos.oj.0.5 <- subset(datos.oj.0.5, as.character(supp) != "Ascorbic Acid")
datos.0.5 <- t.test(datos.oj.0.5$len, datos.aa.0.5$len, paired = FALSE, var.equal = FALSE)
datos.0.5$conf.int
## [1] 1.719057 8.780943
## attr(,"conf.level")
## [1] 0.95
datos.0.5$p.value
## [1] 0.006358607
Como el p-value es menor que 0.05 (5%) podemos considerar rechazar la null hypothesis, como ya sabiamos podemos asegurar que los efectos de los 2 tratamientos son diferentes, de hecho podemos hasta asegurar que el Orange Juice hace crecer mas los dientes que el Ascorbic Acid, en dosis de 0.5 mg/day.
2.- Dosis 1. Orange Juice - Ascorbic Acid
datos.aa.1 <- subset(datos, as.character(dose) == "1")
datos.aa.1 <- subset(datos.aa.1, as.character(supp) == "Ascorbic Acid")
datos.oj.1 <- subset(datos, as.character(dose) == "1")
datos.oj.1 <- subset(datos.oj.1, as.character(supp) != "Ascorbic Acid")
datos.1 <- t.test(datos.oj.1$len, datos.aa.1$len, paired = FALSE, var.equal = FALSE)
datos.1$conf.int
## [1] 2.802148 9.057852
## attr(,"conf.level")
## [1] 0.95
datos.1$p.value
## [1] 0.001038376
Como el p-value es menor que 0.05 (5%) podemos considerar rechazar la null hypothesis, como ya sabiamos podemos asegurar que los efectos de los 2 tratamientos son diferentes, de hecho podemos hasta asegurar que el Orange Juice hace crecer mas los dientes que el Ascorbic Acid, en dosis de 1 mg/day.
3.- Dosis 2. Orange Juice - Ascorbic Acid
datos.aa.2 <- subset(datos, as.character(dose) == "2")
datos.aa.2 <- subset(datos.aa.2, as.character(supp) == "Ascorbic Acid")
datos.oj.2 <- subset(datos, as.character(dose) == "2")
datos.oj.2 <- subset(datos.oj.2, as.character(supp) != "Ascorbic Acid")
datos.2 <- t.test(datos.oj.2$len, datos.aa.2$len, paired = FALSE, var.equal = FALSE)
datos.2$conf.int
## [1] -3.79807 3.63807
## attr(,"conf.level")
## [1] 0.95
datos.2$p.value
## [1] 0.9638516
Aqui la cosa cambia, como el valor del p-value es bastante mayor que 0.05 (5%) no podemos considerar rechazar la null hypothesis, como ya suponiamos podemos asegurar que los efectos de los 2 tratamientos son muy similares, en dosis de 2 mg/day. Solo quiero añadir que sospecho que para dosis mayores de 2 mg/day el comportamiento de Ascorbic Acid seguramente sea mejor que el del Orange Juice, puesto que su varianza es mucho mas alta. Esto lo podemos observar en los graficos.
Las conclusiones ya han ido saliendo a lo largo del informe, pero perocedo a resumirlas: - Para dosis bajas (0.5 y 1 mg/day) el Orange Juice es mas efectivo que el Ascorbic Acid. - Para dosis medias (2 mg/day) el comportamiento de los 2 supplements es similar en valores medios. - Para dosis altas (> 2 mg/day) ‘sospecho’ que el Ascorbic Acid va a ser mas efectivo que el Orange Juice a juzgar por la diferencia existente entre sus varianzas.