df<- read_excel("Base Taller 3.xlsx")
dim(df)
## [1] 1844 8
glimpse(df)
## Rows: 1,844
## Columns: 8
## $ `#` <chr> "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "1...
## $ Mes <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,...
## $ Urg <dbl> 10, 9, 8, 6, 2, 2, 1, 1, 1, 1, 1, 19, 19, 15, 13, 9, ...
## $ `NRO VISITAS` <dbl> 1, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 3, 1, 3, 3, 3, 2, 1,...
## $ Prov_num <dbl> 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,...
## $ Éxito <dbl> 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1,...
## $ CAPITAL <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,...
## $ Eficiencia <dbl> 0.262017961, 0.008333333, 0.008333333, 0.002020202, 0...
df$Éxito<-as.factor(df$Éxito)
df$Prov_num<-as.factor(df$Prov_num)
df$CAPITAL<-as.factor(df$CAPITAL)
str(df)
## tibble [1,844 x 8] (S3: tbl_df/tbl/data.frame)
## $ # : chr [1:1844] "1" "2" "3" "4" ...
## $ Mes : num [1:1844] 6 6 6 6 6 6 6 6 6 6 ...
## $ Urg : num [1:1844] 10 9 8 6 2 2 1 1 1 1 ...
## $ NRO VISITAS: num [1:1844] 1 3 3 3 1 1 1 1 1 1 ...
## $ Prov_num : Factor w/ 2 levels "0","1": 2 1 1 2 2 1 1 2 1 1 ...
## $ Éxito : Factor w/ 2 levels "0","1": 1 1 2 2 2 2 2 2 2 2 ...
## $ CAPITAL : Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 1 2 ...
## $ Eficiencia : num [1:1844] 0.26202 0.00833 0.00833 0.00202 0.00202 ...
dvars <- colnames(df)
vnum <- colnames(df[, dvars])[unname(sapply(df[, dvars], class))=="numeric"]
decla<-df%>%select(all_of(vnum))
skim(decla)
| Name | decla |
| Number of rows | 1844 |
| Number of columns | 4 |
| _______________________ | |
| Column type frequency: | |
| numeric | 4 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Mes | 0 | 1 | 7.37 | 3.80 | 1 | 5 | 9 | 10.00 | 12 | ▅▁▃▅▇ |
| Urg | 0 | 1 | 8.84 | 7.52 | 1 | 3 | 6 | 13.00 | 42 | ▇▂▁▁▁ |
| NRO VISITAS | 0 | 1 | 1.53 | 0.73 | 1 | 1 | 1 | 2.00 | 3 | ▇▁▃▁▂ |
| Eficiencia | 0 | 1 | 0.01 | 0.03 | 0 | 0 | 0 | 0.01 | 1 | ▇▁▁▁▁ |
dim(decla)
## [1] 1844 4
round(cor(decla),2)
## Mes Urg NRO VISITAS Eficiencia
## Mes 1.00 0.14 0.04 0.00
## Urg 0.14 1.00 0.45 0.08
## NRO VISITAS 0.04 0.45 1.00 -0.01
## Eficiencia 0.00 0.08 -0.01 1.00
Entre las 4 variables analizadas se observa la tabla de correlaciones correspondiente.
La variables urgencia( Urg) y Número de visitas( Nro VISITAS) tienen una correlación positiva del 0.45, esto implica que mientras el número de visitas a los clientes aumente , el valor de urgencia aumenta generando que la entrega no se efectivice.
Esto se corrobora con la correlación de las variables de Eficiencia y Número de visitas, las cuales tienen una correlación negativa. Indicando que a mayor número de visitas menor será la eficiencia de entrega del chip.
# Ahora analizamos el tipo de variables
split <- splitmix(decla)
X1 <- split$X.quanti
X2 <- split$X.quali
# En caso de que existan variables qualitativas ACP Mixto
### test.pcamix <- PCAmix(X.quanti=X1, X.quali=X2,rename.level=TRUE, graph=FALSE)
### test.pcamix
# Si solo existen quantitativas
test.pca<- princomp(decla,cor = T)
test.pca
## Call:
## princomp(x = decla, cor = T)
##
## Standard deviations:
## Comp.1 Comp.2 Comp.3 Comp.4
## 1.2193970 1.0023585 0.9883664 0.7290270
##
## 4 variables and 1844 observations.
par(mfrow=c(1,2))
screeplot(test.pca,type = "lines",main ="Componentes principales de Retail",col="green")
screeplot(test.pca,col="darkblue",main="Componentes principales de Retail",xlab="componentes")
En el gráfico se observa que el primer y segundo componentes principales tienen valores propios mayores que 1.
La gráfica de sedimentación muestra que los valores propios comienzan a bajar después del primer componente principal.Por lo tanto, se observa que el valor de las componentes va descendiendo a medida que se aumenta de componente.
La proporción se utiliza para determinar cuáles componentes principales explican la mayor parte de la variabilidad en los datos. Cuanto mayor sea la proporción, en mayor cantidad explicará ese componente principal la variabilidad. El tamaño de la proporción puede ayudar a decidir si el componente principal es suficientemente importante para conservarlo.
summary(test.pca)
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4
## Standard deviation 1.2193970 1.0023585 0.9883664 0.7290270
## Proportion of Variance 0.3717322 0.2511806 0.2442170 0.1328701
## Cumulative Proportion 0.3717322 0.6229129 0.8671299 1.0000000
Entre las 3 primeras componentes principales la proporción de variabilidad explicada se acumula en un 86%. De estas las dos primeras tienen el nivel de proporción más alto siendo 37.17% la primera y 25.11% la segunda componente.
En este caso las dos primeras componentes principales tienen una proporción de 0.621, esto indica que explican 62.1% de la variabilidad en los datos. Por lo tanto, es importante incluir estos componentes. El cuarto componente tiene una proporción de 0.13, es decir, explica solo 13% de la variabilidad de los datos.
test.pca$sdev^2 #las varianzas de las componentes, que son los autovalores
## Comp.1 Comp.2 Comp.3 Comp.4
## 1.4869289 1.0047226 0.9768682 0.5314803
loadings(test.pca)
##
## Loadings:
## Comp.1 Comp.2 Comp.3 Comp.4
## Mes 0.254 0.134 0.946 0.152
## Urg 0.698 -0.712
## NRO VISITAS 0.663 0.126 -0.304 0.673
## Eficiencia -0.982 0.135
##
## Comp.1 Comp.2 Comp.3 Comp.4
## SS loadings 1.00 1.00 1.00 1.00
## Proportion Var 0.25 0.25 0.25 0.25
## Cumulative Var 0.25 0.50 0.75 1.00
En la tabla de la importancia de componentes se observa que la primera componente tiene asociaciones altas con “Urg” y “NRO DE VISITAS” de 0.698 y 0.663 respectivamente. La segunda componente tiene solo una asociación alta negativa con “EFICIENCIA” siendo su valor de -0.982. La componente 3 tiene a la variable “Mes” como una asociación alta de 0.946.
También se puede mencionar que la primera componente principal tiene todas sus coordenadas positivas y se puede interpretar como un factor global.
biplot(test.pca, xlim =c(-0.2,1.1),ylim=c(-1,0.2), expand = 10)
En la gráfica se muestran las puntuaciones de la segunda componente principal contra las puntuaciones de la primera componente principal, así como las influencias de ambas componentes en las variables.
En esta gráfica se puede notar que las variables URG y NRO.VISITAS tienen influencias positivas grandes en la componente 1. Cabe resaltar que Eficiencia y Mes también tienen una influencia positiva en la componente 1.
Sin embargo, para la componente 2, notamos que Eficiencia tiene una influencia negativa grande, mientras que las variables Mes y NRO.VISITAS tienen una influencia positiva pero pequeña. Además la influencia de la variable URG es negativa pero sin mayor representatividad.