Un jefe de ventas de una empresa de fertilizantes estaba interesado en comparar las “ventas” de “tres productos” (A,B y C). Para controlar sistemáticamente los efectos de la “región” y la “temporada en las ventas” de los productos, se realizó un diseño experimental de “cuadrado latino”. Los datos sobre ingresos por ventas (en miles de dólares) se dan en la Tabla .Analice los datos y saque las conclusiones apropiadas. Use α = 0.05.
##Instalar readxl para importar datos de excel y cargarlo.
library(readxl)
# Usamos la funcion "file.choose" para encontrar el archivo y lo copiamos en la sig
ruta_excel4= ("C:\\Users\\LENOVO\\Desktop\\UN Materias\\Unal 2023-1\\DISEÑO EXPERIMENTOS\\Taller parcial diseño.xlsx")
excel_sheets(ruta_excel4)
## [1] "Hoja 1" "Hoja 2" "Hoja 3" "Hoja 4" "Hoja 6" "Hoja 5"
data_excel4= read_excel(ruta_excel4, sheet = "Hoja 4")
print(data_excel4)
## # A tibble: 9 × 4
## Producto Region Estacion Ventas
## <chr> <chr> <chr> <dbl>
## 1 C R1 EI 256
## 2 B R1 EII 410
## 3 A R1 EIII 220
## 4 A R2 EI 280
## 5 C R2 EII 300
## 6 B R2 EIII 384
## 7 B R3 EI 360
## 8 A R3 EII 240
## 9 C R3 EIII 251
\[Y_{ijk}=\mu + \tau_i+\beta_j+\delta_k+\epsilon_{ijk}\] ### Arbol de desicion
library(collapsibleTree)
collapsibleTreeSummary(data_excel4, c("Producto","Region","Estacion", "Ventas"), collapsed = FALSE)
#Incluimos las repeticiones para que muestre todos los datos
Grafico de barras.
-En este representamos el eje x la Sitio, y Tiempo
library(lattice)
bwplot(Ventas ~ Region|Estacion + Region, data_excel4)
-De esta manera concluimos que para la “Region (R3)” en la “EI (Estacion
1) se generan la mayores ventas -De esta manera concluimos que para
la”Region (R2)” en la “EIII (Estacion 3) se generan la mayores ventas
-De esta manera concluimos que para la”Region (R1)” en la “EII (Estacion
2) se generan la mayores ventas
Boxplot
data_excel4$Producto=as.factor(data_excel4$Producto)
library(ggplot2)
ggplot(data_excel4)+ aes(Producto , Ventas, fill=Producto)+
geom_boxplot() +
xlab("Producto")+ ylab("Ventas")
Observamos que el producto que mayormente se vende es el “B”, además
estos valores presentan distribuación asimétrica.
P=Producto
\[H_0: \mu_{p_1}=\mu_{p_2}=\mu_{p_3}\] ### TABLA DE ANOVA.
mod= aov(Ventas~Producto+ Region + Estacion, data_excel4)
summary(mod)
## Df Sum Sq Mean Sq F value Pr(>F)
## Producto 2 32922 16461 39.814 0.0245 *
## Region 2 2231 1115 2.698 0.2704
## Estacion 2 1514 757 1.830 0.3533
## Residuals 2 827 413
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
pvalor(Pr(>F)) < 0.05, por tanto, se rechaza la hipotesis nula. Las medias por “productos” son diferentes.
prueba de normalidad:
#1. Estraemos los residuales
res_mod=mod$residuals
#2. Prueba de Normalidad
shapiro.test(res_mod)
##
## Shapiro-Wilk normality test
##
## data: res_mod
## W = 0.61728, p-value = 0.0001526
-No se cumple supuesto de normalidad debido a p-value > 5%
### Prueba Homocedasticidad {data-width=5}
bartlett.test(res_mod, data_excel4$Producto)
##
## Bartlett test of homogeneity of variances
##
## data: res_mod and data_excel4$Producto
## Bartlett's K-squared = -2.9068e-15, df = 2, p-value = 1
Se cumple supuesto de normalidad debido a p-value > 5
PRUEBA DE TUKEY.
library(TukeyC)
tt = TukeyC(mod, "Producto")
plot(tt)
No hay diferencias entre el “Producto C-A”, siendo el producto B el mas
vendido TUKEY 2.
TukeyHSD(mod, conf.level = 0.95)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Ventas ~ Producto + Region + Estacion, data = data_excel4)
##
## $Producto
## diff lwr upr p adj
## B-A 138.00000 40.20115 235.79885 0.0257570
## C-A 22.33333 -75.46552 120.13218 0.5015094
## C-B -115.66667 -213.46552 -17.86782 0.0362657
##
## $Region
## diff lwr upr p adj
## R2-R1 26.00000 -71.79885 123.79885 0.4261806
## R3-R1 -11.66667 -109.46552 86.13218 0.7862772
## R3-R2 -37.66667 -135.46552 60.13218 0.2616060
##
## $Estacion
## diff lwr upr p adj
## EII-EI 18.00000 -79.79885 115.79885 0.6074682
## EIII-EI -13.66667 -111.46552 84.13218 0.7284184
## EIII-EII -31.66667 -129.46552 66.13218 0.3337824
No hay diferencias entre los Los productos C-A. Ya que el pvalor es mayor al 0.05 en esta comparación.
INTERPRETACION BIOLOGICA:
Los productos SI influye en las ventas, los analisis muestran que el “B” generan mayores Ventas
REVISION DE DATOS ATIPICOS.
#Instalamos libreria
#Valor #Valor p ≤ α: Existe un valor atípico (Rechaza H0)
library(outliers)
grubbs.test(mod$residuals)
##
## Grubbs test for one outlier
##
## data: mod$residuals
## G.9 = 1.3333, U = 0.7500, p-value = 0.7671
## alternative hypothesis: highest value 13.5555555555555 is an outlier
En este caso pvalor > 0.05, no existen datos atípicos. No es necesario imputar (ver clase 12).
Oneway Test.
mod1v = oneway.test(Ventas~Producto, data_excel4)
mod1v
##
## One-way analysis of means (not assuming equal variances)
##
## data: Ventas and Producto
## F = 19.935, num df = 2.0000, denom df = 3.9744, p-value = 0.008473
Test de Kruskal-Wallis.
mod2v = kruskal.test(Ventas~Producto, data_excel4)
mod2v
##
## Kruskal-Wallis rank sum test
##
## data: Ventas by Producto
## Kruskal-Wallis chi-squared = 5.9556, df = 2, p-value = 0.05091
Analisis varianza permutacional.
library(RVAideMemoire)
## *** Package RVAideMemoire v 0.9-82-2 ***
##
## Attaching package: 'RVAideMemoire'
## The following object is masked from 'package:TukeyC':
##
## cv
perm1<-perm.anova(Ventas~Producto,data= data_excel4, nperm = 1000, progress = F)
perm1
## Permutation Analysis of Variance Table
##
## Response: Ventas
## 1000 permutations
## Sum Sq Df Mean Sq F value Pr(>F)
## Producto 32922 2 16460.8 21.605 0.01399 *
## Residuals 4571 6 761.9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1