Dataset
#install.packages("PerformanceAnalytics")
library(readr)
library(dplyr)
data <- read.csv("C:/Users/ander/Desktop/Kpis_SLA_meli.csv", header =TRUE, sep=",")
#Elimino la variable del SLA, para quedarme con dataset para analizar Backlog
data2 <- data[,c(2:15)]
head(data2)
Matriz de Correlación
#escala todas las variables para que tengan media = 0 y desviación estÔndar = 1
data <- data%>% mutate_all (~ ( scale (.)%>% as.vector ))
data2 <- data2%>% mutate_all (~ ( scale (.)%>% as.vector ))
library(PerformanceAnalytics)
x <- data[,c( "SLA","VOLUMEN.RECIBIDO","BACKLOG", "Ausentismo","Ausentismo.NP", "Horas.trabajadas", "Hora.espera.promedio", "DESVIO.CAPACIDAD.vs.RECIBIDO", "BACKLOG_t1")]
chart.Correlation(x, histogram = TRUE, method = "pearson")

#install.packages("leaps")
require(leaps)
# Prueba todos los posibles modelos y se queda con los mejores
#NO puede haber datos faltantes para aplicar lo que sigue:
mejores_modelos_back <- regsubsets(BACKLOG ~ ., data = data2, nvmax = 5)
mejores_modelos_sla <- regsubsets(SLA ~ ., data = data, nvmax = 5)
Selección de variables
#install.packages("leaps")
require(leaps)
# Prueba todos los posibles modelos y se queda con los mejores
#NO puede haber datos faltantes para aplicar lo que sigue:
mejores_modelos_back <- regsubsets(BACKLOG ~ ., data = data2, nvmax = 7)
mejores_modelos_sla <- regsubsets(SLA ~ ., data = data, nvmax = 7)
library(ggplot2)
p <- ggplot(data = data.frame(n_predictores = 1:7, R_ajustado = summary(mejores_modelos_back)$adjr2), aes(x = n_predictores, y = R_ajustado)) +
geom_line() +
geom_point()
# Se identifica en rojo el mƔximo
p <- p + geom_point(aes(x=n_predictores[which.max(summary(mejores_modelos_back)$adjr2)], y=R_ajustado[which.max(summary(mejores_modelos_back)$adjr2)]), colour = "red", size = 3)
p <- p + scale_x_continuous(breaks = c(0:6)) + theme_bw() +
labs(title = "R2_ajustado vs nĆŗmero de predictores", x = "nĆŗmero predictores")
p

################################################################
p1 <- ggplot(data = data.frame(n_predictores = 1:7, R_ajustado = summary(mejores_modelos_sla)$adjr2), aes(x = n_predictores, y = R_ajustado)) +
geom_line() +
geom_point()
# Se identifica en rojo el mƔximo
p1 <- p1 + geom_point(aes(x=n_predictores[which.max(summary(mejores_modelos_sla)$adjr2)], y=R_ajustado[which.max(summary(mejores_modelos_sla)$adjr2)]), colour = "red", size = 3)
p1 <- p1 + scale_x_continuous(breaks = c(0:5)) + theme_bw() +
labs(title = "R2_ajustado vs nĆŗmero de predictores", x = "nĆŗmero predictores")
p1
Mejor modelo para Backlog
coef(object = mejores_modelos_back, id = 5)
## (Intercept) CAPACIDAD VOLUMEN.RECIBIDO BACKLOG_t1
## -4.510281e-17 -2.855217e-01 8.143013e-01 5.490245e-01
## Ausentismo.NP Reencaminado
## 2.465519e-01 -3.021792e-01
Mejor modelo para SLA
coef(object = mejores_modelos_sla, id = 3)
## (Intercept) VOLUMEN.RECIBIDO BACKLOG Citados_confirmados
## -3.452100e-16 1.266789e-01 -9.456872e-01 8.757600e-02
Todas las combinaciones
Selecciona el subconjunto de predictores que alcanzan mayor R2 o
menor MSE, Mallowās Cp o AIC, etc.
library(olsrr)
lm.fit1 <- lm(BACKLOG ~ ., data = data2)
k_best <- ols_step_best_subset(lm.fit1)
k_best
plot(k_best)# el eje horizontal representa la cantidad de variables utilizadas en cada modelo.


lm.fit2 <- lm(SLA ~ ., data = data)
k_best <- ols_step_best_subset(lm.fit2)
k_best
plot(k_best)# el eje horizontal representa la cantidad de variables utilizadas en cada modelo.


Modelos Finales
Modelo Backlog
model_Backlog <- lm(BACKLOG ~ CAPACIDAD + VOLUMEN.RECIBIDO + BACKLOG_t1 +Ausentismo.NP + Reencaminado , data = data2)
summary(model_Backlog)
##
## Call:
## lm(formula = BACKLOG ~ CAPACIDAD + VOLUMEN.RECIBIDO + BACKLOG_t1 +
## Ausentismo.NP + Reencaminado, data = data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.42503 -0.40659 -0.02751 0.39744 1.40309
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.264e-17 7.028e-02 0.000 1.00000
## CAPACIDAD -2.855e-01 9.035e-02 -3.160 0.00247 **
## VOLUMEN.RECIBIDO 8.143e-01 1.109e-01 7.345 6.46e-10 ***
## BACKLOG_t1 5.490e-01 7.516e-02 7.305 7.54e-10 ***
## Ausentismo.NP 2.466e-01 7.609e-02 3.240 0.00195 **
## Reencaminado -3.022e-01 1.032e-01 -2.929 0.00480 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5709 on 60 degrees of freedom
## Multiple R-squared: 0.6991, Adjusted R-squared: 0.674
## F-statistic: 27.88 on 5 and 60 DF, p-value: 1.764e-14
Modelo SLA
model_sla <- lm(SLA ~ VOLUMEN.RECIBIDO + BACKLOG + Citados_confirmados , data=data)
summary(model_sla)
##
## Call:
## lm(formula = SLA ~ VOLUMEN.RECIBIDO + BACKLOG + Citados_confirmados,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.81131 -0.22906 0.04872 0.31298 1.02202
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.435e-16 5.658e-02 0.000 1.0000
## VOLUMEN.RECIBIDO 1.267e-01 6.842e-02 1.851 0.0689 .
## BACKLOG -9.457e-01 6.860e-02 -13.786 <2e-16 ***
## Citados_confirmados 8.758e-02 5.728e-02 1.529 0.1314
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4597 on 62 degrees of freedom
## Multiple R-squared: 0.7985, Adjusted R-squared: 0.7887
## F-statistic: 81.87 on 3 and 62 DF, p-value: < 2.2e-16
Se usa el criterio del vif para verificar la multicolinealidad un vif
bajo o menor a 5 es criterio suficiente para descartar
multicolinealidad
library(car)
car::vif(model_Backlog)
## CAPACIDAD VOLUMEN.RECIBIDO BACKLOG_t1 Ausentismo.NP
## 1.627691 2.451276 1.126340 1.154621
## Reencaminado
## 2.121876
AnÔlisis de normalidad, homocedasticidad y autocorrelación de los
residuos.
#install.packages("lmtest")
library(lmtest)
shapiro.test(model_sla$residuals)
##
## Shapiro-Wilk normality test
##
## data: model_sla$residuals
## W = 0.93513, p-value = 0.001882
bptest(model_sla)
##
## studentized Breusch-Pagan test
##
## data: model_sla
## BP = 6.3412, df = 3, p-value = 0.09614
dwtest(model_sla)
##
## Durbin-Watson test
##
## data: model_sla
## DW = 1.5639, p-value = 0.02968
## alternative hypothesis: true autocorrelation is greater than 0
par(mfrow=c(2,2))
plot(model_Backlog)
### Distancia Cook
dcook<-cooks.distance(model_sla)
influenceIndexPlot(model_sla, vars='Cook', las=1,col='blue')

dcook<-cooks.distance(model_Backlog)
influenceIndexPlot(model_Backlog, vars='Cook', las=1,col='blue')

qqPlot(model_Backlog$residuals, pch=19,
main="QQplot para los residuos del Modelo Lineal",
xlab="Cuantiles te“oricos",
ylab="Cuantiles muestrales")

## [1] 59 11
---
title: "Modelo Lineal Multivariado SLA"
author: "Customer Intelligence"
date: "23/11/2022"
output:
   html_document:
     toc: yes
     code_folding: show
     toc_float: yes
     df_print: paged
     theme: united
     code_download: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
setwd("C:/Users/ander/Desktop")
```


## Dataset

```{r, echo=TRUE, warning=FALSE,message=FALSE}
#install.packages("PerformanceAnalytics")
library(readr)
library(dplyr)

data <- read.csv("C:/Users/ander/Desktop/Kpis_SLA_meli.csv", header =TRUE, sep=",")

#Elimino la variable del SLA, para quedarme con dataset para analizar Backlog
data2 <- data[,c(2:15)]
head(data2)

```
### <span style="color:darkred">Matriz de Correlación</span>

```{r, echo=TRUE, warning=FALSE,message=FALSE}


#escala todas las variables para que tengan media = 0 y desviación estándar = 1 
data <- data%>% mutate_all (~ ( scale (.)%>% as.vector ))
data2 <- data2%>% mutate_all (~ ( scale (.)%>% as.vector ))


```

<br>


```{r, warning=FALSE, echo=TRUE, message=FALSE}


library(PerformanceAnalytics)
x <- data[,c( "SLA","VOLUMEN.RECIBIDO","BACKLOG", "Ausentismo","Ausentismo.NP", "Horas.trabajadas", "Hora.espera.promedio", "DESVIO.CAPACIDAD.vs.RECIBIDO", "BACKLOG_t1")]
chart.Correlation(x, histogram = TRUE, method = "pearson")
```

```{r, echo=TRUE, warning=FALSE,message=FALSE}


#install.packages("leaps")

require(leaps) 

# Prueba todos los posibles modelos y se queda con los mejores
#NO puede haber datos faltantes para aplicar lo que sigue:
mejores_modelos_back <- regsubsets(BACKLOG ~ ., data = data2, nvmax = 5) 
mejores_modelos_sla <- regsubsets(SLA ~ ., data = data, nvmax = 5) 


```

<br>


### <span style="color:darkred">Selección de variables</span>

```{r, echo=TRUE, warning=FALSE,message=FALSE}


#install.packages("leaps")

require(leaps) 

# Prueba todos los posibles modelos y se queda con los mejores
#NO puede haber datos faltantes para aplicar lo que sigue:
mejores_modelos_back <- regsubsets(BACKLOG ~ ., data = data2, nvmax = 7) 
mejores_modelos_sla <- regsubsets(SLA ~ ., data = data, nvmax = 7) 


```

<br>


```{r}

library(ggplot2) 
p <- ggplot(data = data.frame(n_predictores = 1:7, R_ajustado = summary(mejores_modelos_back)$adjr2), aes(x = n_predictores, y = R_ajustado)) + 
  geom_line() + 
  geom_point() 
# Se identifica en rojo el máximo 
p <- p + geom_point(aes(x=n_predictores[which.max(summary(mejores_modelos_back)$adjr2)], y=R_ajustado[which.max(summary(mejores_modelos_back)$adjr2)]), colour = "red", size = 3) 
p <- p + scale_x_continuous(breaks = c(0:6)) + theme_bw() + 
  labs(title = "R2_ajustado vs número de predictores", x = "número predictores") 
p



################################################################


p1 <- ggplot(data = data.frame(n_predictores = 1:7, R_ajustado = summary(mejores_modelos_sla)$adjr2), aes(x = n_predictores, y = R_ajustado)) + 
  geom_line() + 
  geom_point() 
# Se identifica en rojo el máximo 
p1 <- p1 + geom_point(aes(x=n_predictores[which.max(summary(mejores_modelos_sla)$adjr2)], y=R_ajustado[which.max(summary(mejores_modelos_sla)$adjr2)]), colour = "red", size = 3) 
p1 <- p1 + scale_x_continuous(breaks = c(0:5)) + theme_bw() + 
  labs(title = "R2_ajustado vs número de predictores", x = "número predictores") 
p1



```
<br>

### <span style="color:darkred">Mejor modelo para Backlog</span>

<br>

```{r, echo=TRUE, warning=FALSE,message=FALSE}

coef(object = mejores_modelos_back, id = 5)
```
<br>

### <span style="color:darkred">Mejor modelo para SLA</span>

<br>

```{r, echo=TRUE, warning=FALSE,message=FALSE}

coef(object = mejores_modelos_sla, id = 3)
```


<br>

### <span style="color:darkred">Todas las combinaciones</span>

<br>

Selecciona el subconjunto de predictores que alcanzan mayor R2 o menor MSE, Mallow’s Cp o AIC, etc.

```{r, echo=TRUE, warning=FALSE,message=FALSE}
library(olsrr)
lm.fit1 <- lm(BACKLOG ~ ., data = data2)
k_best <- ols_step_best_subset(lm.fit1)
k_best

plot(k_best)# el eje horizontal representa la cantidad de variables utilizadas en cada modelo.


```


<br>

```{r, echo=TRUE, warning=FALSE,message=FALSE}


lm.fit2 <- lm(SLA ~ ., data = data)
k_best <- ols_step_best_subset(lm.fit2)
k_best

plot(k_best)# el eje horizontal representa la cantidad de variables utilizadas en cada modelo.


```

<br>

## Modelos Finales
### <span style="color:darkred">Modelo Backlog</span>

<br>

```{r, warning=FALSE, echo=TRUE, message=FALSE}
model_Backlog <- lm(BACKLOG ~ CAPACIDAD  + VOLUMEN.RECIBIDO  + BACKLOG_t1 +Ausentismo.NP  + Reencaminado , data = data2)
summary(model_Backlog)
```

<br>

### <span style="color:darkred">Modelo SLA</span>

<br>

```{r, warning=FALSE, echo=TRUE, message=FALSE}
model_sla <- lm(SLA ~ VOLUMEN.RECIBIDO     +   BACKLOG + Citados_confirmados  , data=data)
summary(model_sla)

```

<br>

Se usa el criterio del vif para verificar la multicolinealidad un vif bajo o menor a 5 es criterio suficiente para descartar multicolinealidad

<br>

```{r, warning=FALSE, echo=TRUE,message=FALSE}
library(car)
car::vif(model_Backlog)
```


## Análisis de normalidad, homocedasticidad y autocorrelación de los residuos.
```{r}
#install.packages("lmtest")
library(lmtest)


shapiro.test(model_sla$residuals)

bptest(model_sla)

dwtest(model_sla)
```

```{r, echo=TRUE}
par(mfrow=c(2,2))
plot(model_Backlog)

```
### <span style="color:darkred">Distancia Cook</span>


```{r, echo=TRUE}
dcook<-cooks.distance(model_sla)
influenceIndexPlot(model_sla, vars='Cook', las=1,col='blue')
```


```{r, echo=TRUE}
dcook<-cooks.distance(model_Backlog)
influenceIndexPlot(model_Backlog, vars='Cook', las=1,col='blue')
```


```{r, echo=TRUE}

qqPlot(model_Backlog$residuals, pch=19,
main="QQplot para los residuos del Modelo Lineal",
xlab="Cuantiles te´oricos",
ylab="Cuantiles muestrales")
```
