# ANÁLISIS EXPLORATORIO
antes <- c(25,20,25,28,30,30,26,15,10,22)
despues <- c(30,25,28,29,30,31,24,22,25,27)
dif <- antes - despues
boxplot(dif, col='green', horizontal = T)
summary(dif)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -15 -5 -4 -4 -1 2
x_dif <- mean(dif)
sd_dif <- sd(dif)
print (sd_dif)
## [1] 4.760952
n <- length(dif)
Como podemos ver en el resumen de los datos, la media y la mediana son iguales, por lo que podemos decir que la distribución tiene simetría. La media es de -4 con una desviación estándar de 4.76. La mediana es de -4 con un rango interquartil que va de -5 a -4, donde el 50% de los datos se encuentran allí.
# PRUEBAS DE NORMALIDAD:
shapiro.test(dif)
##
## Shapiro-Wilk normality test
##
## data: dif
## W = 0.89136, p-value = 0.1756
Como resultado de la prueba de Shapiro-Wilk tenemos que la distribución de los datos es normal. Debido a que n < 30, entonces usaremos la distribución t-student para calcular la diferencia de medias.
# INTERVALO DE CONFIANZA:
t_critico <- qt(0.99, n-1)
print(t_critico)
## [1] 2.821438
err_muestral <- sd_dif/sqrt(n)
err_estandar <- t_critico*err_muestral
lim_inf <- x_dif - err_estandar
lim_sup <- x_dif + err_estandar
print(lim_inf)
## [1] -8.247803
print(lim_sup)
## [1] 0.2478026
Como el intervalo nos dió con el límite inferior negativo y el límite superior positivo, lo que nos indica que el cero pertenece al intervalo, nos permite concluir que no hubo una diferencia significativa entre las medias de producción antes y después de tratar a los árboles con el fertilizante.
# ANÁLISIS EXPLORATORIO
lujo <- c(39,39,45,38,40,39,35)
boxplot(lujo, col='green', horizontal = T)
summary(lujo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 35.00 38.50 39.00 39.29 39.50 45.00
x1 <- mean(lujo)
sd1 <- sd(lujo)
print (sd1)
## [1] 2.984085
n <- length(lujo)
# ANÁLISIS EXPLORATORIO
estandar <- c(27,28,35,30,30,24,29)
boxplot(estandar, col='blue', horizontal = T)
summary(estandar)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 24.0 27.5 29.0 29.0 30.0 35.0
x2 <- mean(estandar)
sd2 <- sd(estandar)
print (sd2)
## [1] 3.366502
n <- length(estandar)
# PRUEBA DE SHAPIRO WILK PARA NORMALIDAD
shapiro.test(lujo)
##
## Shapiro-Wilk normality test
##
## data: lujo
## W = 0.87492, p-value = 0.2049
shapiro.test(estandar)
##
## Shapiro-Wilk normality test
##
## data: estandar
## W = 0.95191, p-value = 0.747
Como podemos ver los datos presentan una distribución normal. Como n es menor a 30 usaremos una distribución t-student.
# PRUEBA DE LEVENE PARA IGUALDAD DE VARIANZAS
precio <- c(lujo, estandar)
grupo <- c(rep(1,n), rep(2,n))
grupo <- as.factor(grupo)
leveneTest(precio,grupo)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.2115 0.6539
## 12
Los datos presentan igualdad de varianzas. POr lo que calcularemos la desviación combinada.
# CALCULAMOS EL INTERVALO DE CONFIANZA AL 95%:
# A mano:
dif_x <- x1 - x2
gl <- n + n - 2
t <- qt(0.025, gl)
sd <- (((n-1)*sd1) + ((n-1)*sd2)) / (n+n-2)
print(t)
## [1] -2.178813
error_max <- sqrt(((sd^2)/n))
print(error_max)
## [1] 1.200148
intervalo_inf <- dif_x - t*error_max
intervalo_sup <- dif_x + t*error_max
print(paste("[", intervalo_inf, ",", intervalo_sup, "]"))
## [1] "[ 12.900612197305 , 7.67081637412358 ]"
Como podemos ver, el límite inferior es positivo y el límite superior es positivo. Eso lo que quiere decir es que la media del precio de lujo es mayor a la media del precio de estándar