Cargar datos

library(readxl)
ventas = read_excel("~/Descargas/ventas.xlsx")
ventas
## # A tibble: 15 x 3
##    vendedor clientes ventas
##       <dbl>    <dbl>  <dbl>
##  1        1       96     41
##  2        2       40     41
##  3        3      104     51
##  4        4      128     60
##  5        5      164     61
##  6        6       76     29
##  7        7       72     39
##  8        8       80     50
##  9        9       36     28
## 10       10       84     43
## 11       11      180     70
## 12       12      132     56
## 13       13      120     45
## 14       14       44     31
## 15       15       84     30

Se observa que la BD contiene información sobre el registro de ventas (y) de unos vendedores de acuerdo al total de clientes que contactó (x).

Análisis Exploratorio

Se observa que el promedio de clientes que contacta un vendedor es de 96 y las ventas promedio son de 45.

summary(ventas$clientes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      36      74      84      96     124     180
summary(ventas$ventas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    28.0    35.0    43.0    45.0    53.5    70.0
hist(ventas$clientes, col="orange")

Veamos la correlación entre clientes y ventas. De este análisis se observa que a mayor número de clientes, mayor serán las ventas. Además de esto, la relación entre las variables es lineal fuerte de acuerdo al coeficiente de Pearson.

plot(ventas$clientes, ventas$ventas)

cor(ventas$clientes, ventas$ventas)
## [1] 0.8646318

Estimación del Modelo Lineal Simple

Se observa que el coeficiente \(\beta_0\) no se debe interpretar porque no se observan valores de clientes en cero. Por otro lado \(\beta_1\) nos indica que por cada cliente adicional que se contacte, las ventas se incrementan en 0.26. Adicionalmente se observa que el coeficiente es significativamente distinto de cero. También se observa que el ajuste del modelo es de \(R^2=0.7476\), es decir, que el modelo explica el 74% de la variabilidad del las ventas.

attach(ventas)
## The following object is masked _by_ .GlobalEnv:
## 
##     ventas
mod = lm(ventas~clientes, data=ventas)
summary(mod)
## 
## Call:
## lm(formula = ventas ~ clientes, data = ventas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.873  -2.861   0.255   3.511  10.595 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  19.9800     4.3897   4.552 0.000544 ***
## clientes      0.2606     0.0420   6.205 3.19e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared:  0.7476, Adjusted R-squared:  0.7282 
## F-statistic:  38.5 on 1 and 13 DF,  p-value: 3.193e-05

Validación de Supuestos

Podemos observar respecto a los supuestos sobre el error \(e_i\) lo siguiente:

  1. Media cero: se cumple por defecto.
  2. Varianza constante: de la gráfica 1, se observa que el comportamiento es aleatorio y no tiene alguna tendencia que genere problemas, es decir, se valida gráficamente.
  3. Normalidad: de la gráfica 2 se observan que los datos se ajustan adecuadamente a la línea de normalidad.
  4. Independencia: se valida por definición de los tipos de datos.
par(mfrow=c(2,2))
plot(mod)

## Prediciones con el Modelo Estimado ¿Cuáles serían las ventas promedio esperados para un vendedor que logre contactar a 60 clientes? R/a: de acuerdo con el modelo las ventas promedio serían de 35

Si este vendedor logra un total de 50 ventas, ¿Considera que esto es destacado en comparación con otros posibles vendedores? R/a: teniendo en cuenta que un vendedor que contacta 60 clientes obtiene unas ventas promedio entre 30 y 40, entonces sí se podría considerar que este vendedor tiene un éxito mayor en ventas en términos de clientes contactados, es decir, tiene un mejor rendimiento.

predict(mod, list(clientes=60))
##       1 
## 35.6175
predict(mod, list(clientes=60), interval = "confidence", level = 0.95)
##       fit      lwr      upr
## 1 35.6175 30.64529 40.58971