Un jefe de ventas de una empresa de fertilizantes estaba interesado en comparar las “ventas” de “tres productos” (A,B y C). Para controlar sistemáticamente los efectos de la “región” y la “temporada en las ventas” de los productos, se realizó un diseño experimental de “cuadrado latino”. Los datos sobre ingresos por ventas (en miles de dólares) se dan en la Tabla .Analice los datos y saque las conclusiones apropiadas. Use α = 0.05.

##Instalar readxl para importar datos de excel y cargarlo.
library(readxl)

# Usamos la funcion "file.choose" para encontrar el archivo y lo copiamos en la sig

ruta_excel4= ("C:\\Users\\LENOVO\\Desktop\\UN Materias\\Unal 2023-1\\DISEÑO EXPERIMENTOS\\Taller parcial diseño.xlsx")

excel_sheets(ruta_excel4)
## [1] "Hoja 1" "Hoja 2" "Hoja 3" "Hoja 4" "Hoja 6" "Hoja 5"
data_excel4= read_excel(ruta_excel4, sheet = "Hoja 4")
print(data_excel4)
## # A tibble: 9 × 4
##   Producto Region Estacion Ventas
##   <chr>    <chr>  <chr>     <dbl>
## 1 C        R1     EI          256
## 2 B        R1     EII         410
## 3 A        R1     EIII        220
## 4 A        R2     EI          280
## 5 C        R2     EII         300
## 6 B        R2     EIII        384
## 7 B        R3     EI          360
## 8 A        R3     EII         240
## 9 C        R3     EIII        251

Modelo

\[Y_{ijk}=\mu + \tau_i+\beta_j+\delta_k+\epsilon_{ijk}\] ### Arbol de desicion

library(collapsibleTree)
collapsibleTreeSummary(data_excel4, c("Producto","Region","Estacion", "Ventas"), collapsed = FALSE)
#Incluimos las repeticiones para que muestre todos los datos

ANALISIS DESCRIPTIVO.

Grafico de barras.

-En este representamos el eje x la Sitio, y Tiempo

library(lattice)
bwplot(Ventas ~ Region|Estacion + Region, data_excel4)

-De esta manera concluimos que para la “Region (R3)” en la “EI (Estacion 1) se generan la mayores ventas -De esta manera concluimos que para la”Region (R2)” en la “EIII (Estacion 3) se generan la mayores ventas -De esta manera concluimos que para la”Region (R1)” en la “EII (Estacion 2) se generan la mayores ventas

Boxplot

data_excel4$Producto=as.factor(data_excel4$Producto)
library(ggplot2)

ggplot(data_excel4)+ aes(Producto , Ventas, fill=Producto)+ 
 geom_boxplot() +
 xlab("Producto")+ ylab("Ventas")

Observamos que el producto que mayormente se vende es el “B”, además estos valores presentan distribuación asimétrica.

HIPOTESIS.

P=Producto

\[H_0: \mu_{p_1}=\mu_{p_2}=\mu_{p_3}\] ### TABLA DE ANOVA.

mod= aov(Ventas~Producto+ Region + Estacion, data_excel4)
summary(mod)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Producto     2  32922   16461  39.814 0.0245 *
## Region       2   2231    1115   2.698 0.2704  
## Estacion     2   1514     757   1.830 0.3533  
## Residuals    2    827     413                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

pvalor(Pr(>F)) < 0.05, por tanto, se rechaza la hipotesis nula. Las medias por “productos” son diferentes.

REVISION DE SUPUESTOS.

prueba de normalidad:

#1. Estraemos los residuales
res_mod=mod$residuals

#2. Prueba de Normalidad
shapiro.test(res_mod)
## 
##  Shapiro-Wilk normality test
## 
## data:  res_mod
## W = 0.61728, p-value = 0.0001526

-No se cumple supuesto de normalidad debido a p-value > 5%

### Prueba Homocedasticidad {data-width=5}
bartlett.test(res_mod, data_excel4$Producto)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  res_mod and data_excel4$Producto
## Bartlett's K-squared = -2.9068e-15, df = 2, p-value = 1

Se cumple supuesto de normalidad debido a p-value > 5

PRUEBA DE TUKEY.

library(TukeyC)

tt = TukeyC(mod, "Producto")
plot(tt)

No hay diferencias entre el “Producto C-A”, siendo el producto B el mas vendido TUKEY 2.

TukeyHSD(mod, conf.level = 0.95)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Ventas ~ Producto + Region + Estacion, data = data_excel4)
## 
## $Producto
##           diff        lwr       upr     p adj
## B-A  138.00000   40.20115 235.79885 0.0257570
## C-A   22.33333  -75.46552 120.13218 0.5015094
## C-B -115.66667 -213.46552 -17.86782 0.0362657
## 
## $Region
##            diff        lwr       upr     p adj
## R2-R1  26.00000  -71.79885 123.79885 0.4261806
## R3-R1 -11.66667 -109.46552  86.13218 0.7862772
## R3-R2 -37.66667 -135.46552  60.13218 0.2616060
## 
## $Estacion
##               diff        lwr       upr     p adj
## EII-EI    18.00000  -79.79885 115.79885 0.6074682
## EIII-EI  -13.66667 -111.46552  84.13218 0.7284184
## EIII-EII -31.66667 -129.46552  66.13218 0.3337824

No hay diferencias entre los Los productos C-A. Ya que el pvalor es mayor al 0.05 en esta comparación.

INTERPRETACION BIOLOGICA:

Los productos SI influye en las ventas, los analisis muestran que el “B” generan mayores Ventas

REVISION DE DATOS ATIPICOS.

#Instalamos libreria
#Valor #Valor p ≤ α: Existe un valor atípico (Rechaza H0)
library(outliers)
grubbs.test(mod$residuals)
## 
##  Grubbs test for one outlier
## 
## data:  mod$residuals
## G.9 = 1.3333, U = 0.7500, p-value = 0.7671
## alternative hypothesis: highest value 13.5555555555555 is an outlier

En este caso pvalor > 0.05, no existen datos atípicos. No es necesario imputar (ver clase 12).

MODALIDADES DE ANALISIS DE VARIANZA:

Oneway Test.

mod1v = oneway.test(Ventas~Producto, data_excel4)
mod1v
## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Ventas and Producto
## F = 19.935, num df = 2.0000, denom df = 3.9744, p-value = 0.008473

Test de Kruskal-Wallis.

mod2v = kruskal.test(Ventas~Producto, data_excel4)
mod2v
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Ventas by Producto
## Kruskal-Wallis chi-squared = 5.9556, df = 2, p-value = 0.05091

Analisis varianza permutacional.

library(RVAideMemoire)
## *** Package RVAideMemoire v 0.9-82-2 ***
## 
## Attaching package: 'RVAideMemoire'
## The following object is masked from 'package:TukeyC':
## 
##     cv
perm1<-perm.anova(Ventas~Producto,data= data_excel4, nperm = 1000, progress = F)
perm1
## Permutation Analysis of Variance Table
## 
## Response: Ventas
## 1000 permutations
##           Sum Sq Df Mean Sq F value  Pr(>F)  
## Producto   32922  2 16460.8  21.605 0.01399 *
## Residuals   4571  6   761.9                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1