Pruebas de Contraste de Hipótesis para dos Muestras


Estadística descriptiva

Usaremos el data frame ToothGrowth que contiene la informacion del efecto de la vitamina C en el crecimiento de los dientes en cobayos. La respuesta es la longitud de los odontoblastos (células responsables del crecimiento de los dientes) en 60 cobayos. Cada animal recibió uno de los tres niveles de dosis de vitamina C (0,5, 1 y 2 mg/día) mediante uno de los dos métodos de administración, jugo de naranja o ácido ascórbico (una forma de vitamina C y codificada como VC).

[,1] len Longitud del diente

[,2] supp Tipo de suplemento (VC o OJ).

[,3] dose Dosis en miligramos/día

¿Hay diferencia en el crecimiento de los dientes si se administra Jugo de naranja o Vitamina C?

datos=ToothGrowth

#Construcción de Gráfico de Caja
library("ggplot2")
g=ggplot(datos, aes(supp,len)) +  geom_boxplot(fill = "paleturquoise", color = "cadetblue4") + 
  labs(x="Suplemento", y="Longitud del diente") +
  theme_bw() +
  theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank()) + theme(text = element_text(size = 12)) 
plot(g)

#Medidas estadísticas
library("psych")
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
estadisticos=describeBy(datos$len, datos$supp, mat = F)
print(estadisticos)
## 
##  Descriptive statistics by group 
## group: OJ
##    vars  n  mean   sd median trimmed  mad min  max range  skew kurtosis   se
## X1    1 30 20.66 6.61   22.7   21.04 5.49 8.2 30.9  22.7 -0.52    -1.03 1.21
## ------------------------------------------------------------ 
## group: VC
##    vars  n  mean   sd median trimmed  mad min  max range skew kurtosis   se
## X1    1 30 16.96 8.27   16.5   16.58 9.27 4.2 33.9  29.7 0.28    -0.93 1.51

Evaluación de supuestos paramétricos

library("nortest")
# Conjunto completo
t1a=lillie.test(datos$len)
t1b=shapiro.test(datos$len)
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$len
## D = 0.097092, p-value = 0.172
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$len
## W = 0.96743, p-value = 0.1091

# Jugo de naranja
t1a=lillie.test(datos$len[which(datos$supp=="OJ")])
t1b=shapiro.test(datos$len[which(datos$supp=="OJ")])
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$len[which(datos$supp == "OJ")]
## D = 0.13823, p-value = 0.1517
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$len[which(datos$supp == "OJ")]
## W = 0.91784, p-value = 0.02359

# Vitamina C
t1a=lillie.test(datos$len[which(datos$supp=="VC")])
t1b=shapiro.test(datos$len[which(datos$supp=="VC")])
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$len[which(datos$supp == "VC")]
## D = 0.083756, p-value = 0.8537
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$len[which(datos$supp == "VC")]
## W = 0.96567, p-value = 0.4284

#QQplot
qqnorm(datos$len, pch = 19, col = "gray50")
qqline(datos$len)


Evaluación de homocedasticidad

#Prueba F
t1 = var.test(datos$len[which(datos$supp=="OJ")],datos$len[which(datos$supp=="VC")],conf.level=0.95)
print(t1)
## 
##  F test to compare two variances
## 
## data:  datos$len[which(datos$supp == "OJ")] and datos$len[which(datos$supp == "VC")]
## F = 0.6386, num df = 29, denom df = 29, p-value = 0.2331
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.3039488 1.3416857
## sample estimates:
## ratio of variances 
##          0.6385951

Prueba de contraste de hipótesis para dos muestras.

#Prueba t-test no pareada

res = t.test(len ~ supp, data = datos,conf.level = 0.9,paired = F)
print(res)
## 
##  Welch Two Sample t-test
## 
## data:  len by supp
## t = 1.9153, df = 55.309, p-value = 0.06063
## alternative hypothesis: true difference in means between group OJ and group VC is not equal to 0
## 90 percent confidence interval:
##  0.4682687 6.9317313
## sample estimates:
## mean in group OJ mean in group VC 
##         20.66333         16.96333

Podemos concluir que con un 95% de confianza no habria diferencia, por lo tanto se rechazaria la hipotesis. Solo se podria aceptar con un 90% de confianza