Extraemos la base Retail

df<- read_excel("Base Taller 3.xlsx")

dim(df)
## [1] 1844    8
glimpse(df)
## Rows: 1,844
## Columns: 8
## $ `#`           <chr> "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "1...
## $ Mes           <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,...
## $ Urg           <dbl> 10, 9, 8, 6, 2, 2, 1, 1, 1, 1, 1, 19, 19, 15, 13, 9, ...
## $ `NRO VISITAS` <dbl> 1, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 3, 1, 3, 3, 3, 2, 1,...
## $ Prov_num      <dbl> 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,...
## $ Éxito         <dbl> 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1,...
## $ CAPITAL       <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,...
## $ Eficiencia    <dbl> 0.262017961, 0.008333333, 0.008333333, 0.002020202, 0...
df$Éxito<-as.factor(df$Éxito)
df$Prov_num<-as.factor(df$Prov_num)
df$CAPITAL<-as.factor(df$CAPITAL)
str(df)
## tibble [1,844 x 8] (S3: tbl_df/tbl/data.frame)
##  $ #          : chr [1:1844] "1" "2" "3" "4" ...
##  $ Mes        : num [1:1844] 6 6 6 6 6 6 6 6 6 6 ...
##  $ Urg        : num [1:1844] 10 9 8 6 2 2 1 1 1 1 ...
##  $ NRO VISITAS: num [1:1844] 1 3 3 3 1 1 1 1 1 1 ...
##  $ Prov_num   : Factor w/ 2 levels "0","1": 2 1 1 2 2 1 1 2 1 1 ...
##  $ Éxito      : Factor w/ 2 levels "0","1": 1 1 2 2 2 2 2 2 2 2 ...
##  $ CAPITAL    : Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 1 2 ...
##  $ Eficiencia : num [1:1844] 0.26202 0.00833 0.00833 0.00202 0.00202 ...

(a) Realiza un Análisis de Componentes Principales con los datos de retail. Justifica el uso de la matriz de covarianzas o de la matriz de correlaciones muestrales para llevar a cabo el análisis.

Normalmente las componentes principales se calculan sobre las variables originales estandarizadas.

Teniendo en cuenta que las variables son con \(\mu=0\) y \(\sigma^2=1\). Para que estén estandarizados estos datos se deben hacer con la matriz de correlaciones y no con la matriz de covarianzas.

La matriz de correlaciones se utiliza para tener las mismas escalas en todas las variables de la muestra, ya que tienen distintas unidades de medidas.

Seleccionamos únicamente las variables numéricas

dvars <- colnames(df)

vnum <- colnames(df[, dvars])[unname(sapply(df[, dvars], class))=="numeric"]

decla<-df%>%select(all_of(vnum))

skim(decla)
Data summary
Name decla
Number of rows 1844
Number of columns 4
_______________________
Column type frequency:
numeric 4
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Mes 0 1 7.37 3.80 1 5 9 10.00 12 ▅▁▃▅▇
Urg 0 1 8.84 7.52 1 3 6 13.00 42 ▇▂▁▁▁
NRO VISITAS 0 1 1.53 0.73 1 1 1 2.00 3 ▇▁▃▁▂
Eficiencia 0 1 0.01 0.03 0 0 0 0.01 1 ▇▁▁▁▁
  • Mes: asigna un número del 1 al 12 correspondiente al mes en el que se realizó la venta del Chip.
  • Urg: es una variable numérica que indica el número de días transcurridos desde la venta hasta la fecha de cierre de proceso.
  • NRO VISITAS: es el número de visitas que realizó el courier antes de tener una respuesta definitiva por parte del cliente (Recibimiento-Entrega o Rechazo-Devolución).
  • Eficiencia: es el porcentaje de eficiencia que tiene la provincia destino del chip.
dim(decla)
## [1] 1844    4
round(cor(decla),2)
##              Mes  Urg NRO VISITAS Eficiencia
## Mes         1.00 0.14        0.04       0.00
## Urg         0.14 1.00        0.45       0.08
## NRO VISITAS 0.04 0.45        1.00      -0.01
## Eficiencia  0.00 0.08       -0.01       1.00

Entre las 4 variables analizadas se observa la tabla de correlaciones correspondiente.

La variables urgencia( Urg) y Número de visitas( Nro VISITAS) tienen una correlación positiva del 0.45, esto implica que mientras el número de visitas a los clientes aumente , el valor de urgencia aumenta generando que la entrega no se efectivice.

Esto se corrobora con la correlación de las variables de Eficiencia y Número de visitas, las cuales tienen una correlación negativa. Indicando que a mayor número de visitas menor será la eficiencia de entrega del chip.

# Ahora analizamos el tipo de variables 

split <- splitmix(decla)
X1 <- split$X.quanti 
X2 <- split$X.quali 

# En caso de que existan variables qualitativas ACP Mixto
### test.pcamix <- PCAmix(X.quanti=X1, X.quali=X2,rename.level=TRUE,               graph=FALSE)
### test.pcamix 

# Si solo existen quantitativas 

test.pca<- princomp(decla,cor = T) 
test.pca
## Call:
## princomp(x = decla, cor = T)
## 
## Standard deviations:
##    Comp.1    Comp.2    Comp.3    Comp.4 
## 1.2193970 1.0023585 0.9883664 0.7290270 
## 
##  4  variables and  1844 observations.
par(mfrow=c(1,2))

screeplot(test.pca,type = "lines",main ="Componentes principales de Retail",col="green")

screeplot(test.pca,col="darkblue",main="Componentes principales de Retail",xlab="componentes")

En el gráfico se observa que el primer y segundo componentes principales tienen valores propios mayores que 1.

La gráfica de sedimentación muestra que los valores propios comienzan a bajar después del primer componente principal.Por lo tanto, se observa que el valor de las componentes va descendiendo a medida que se aumenta de componente.

La proporción se utiliza para determinar cuáles componentes principales explican la mayor parte de la variabilidad en los datos. Cuanto mayor sea la proporción, en mayor cantidad explicará ese componente principal la variabilidad. El tamaño de la proporción puede ayudar a decidir si el componente principal es suficientemente importante para conservarlo.

(b) Haz una interpretación de las dos primeras componentes principales. ¿Cuál es la proporción de variabilidad explicada por las dos primeras componentes principales?

summary(test.pca)
## Importance of components:
##                           Comp.1    Comp.2    Comp.3    Comp.4
## Standard deviation     1.2193970 1.0023585 0.9883664 0.7290270
## Proportion of Variance 0.3717322 0.2511806 0.2442170 0.1328701
## Cumulative Proportion  0.3717322 0.6229129 0.8671299 1.0000000

Entre las 3 primeras componentes principales la proporción de variabilidad explicada se acumula en un 86%. De estas las dos primeras tienen el nivel de proporción más alto siendo 37.17% la primera y 25.11% la segunda componente.

En este caso las dos primeras componentes principales tienen una proporción de 0.621, esto indica que explican 62.1% de la variabilidad en los datos. Por lo tanto, es importante incluir estos componentes. El cuarto componente tiene una proporción de 0.13, es decir, explica solo 13% de la variabilidad de los datos.

test.pca$sdev^2 #las varianzas de las componentes, que son los autovalores
##    Comp.1    Comp.2    Comp.3    Comp.4 
## 1.4869289 1.0047226 0.9768682 0.5314803
loadings(test.pca)
## 
## Loadings:
##             Comp.1 Comp.2 Comp.3 Comp.4
## Mes          0.254  0.134  0.946  0.152
## Urg          0.698               -0.712
## NRO VISITAS  0.663  0.126 -0.304  0.673
## Eficiencia         -0.982         0.135
## 
##                Comp.1 Comp.2 Comp.3 Comp.4
## SS loadings      1.00   1.00   1.00   1.00
## Proportion Var   0.25   0.25   0.25   0.25
## Cumulative Var   0.25   0.50   0.75   1.00

En la tabla de la importancia de componentes se observa que la primera componente tiene asociaciones altas con “Urg” y “NRO DE VISITAS” de 0.698 y 0.663 respectivamente. La segunda componente tiene solo una asociación alta negativa con “EFICIENCIA” siendo su valor de -0.982. La componente 3 tiene a la variable “Mes” como una asociación alta de 0.946.

También se puede mencionar que la primera componente principal tiene todas sus coordenadas positivas y se puede interpretar como un factor global.

(c) Realiza el biplot correspondiente y comenta la gráfica obtenida.

biplot(test.pca, xlim =c(-0.2,1.1),ylim=c(-1,0.2), expand = 10)

En la gráfica se muestran las puntuaciones de la segunda componente principal contra las puntuaciones de la primera componente principal, así como las influencias de ambas componentes en las variables.

En esta gráfica se puede notar que las variables URG y NRO.VISITAS tienen influencias positivas grandes en la componente 1. Cabe resaltar que Eficiencia y Mes también tienen una influencia positiva en la componente 1.

Sin embargo, para la componente 2, notamos que Eficiencia tiene una influencia negativa grande, mientras que las variables Mes y NRO.VISITAS tienen una influencia positiva pero pequeña. Además la influencia de la variable URG es negativa pero sin mayor representatividad.