##Cargar datos

library(readxl)
ventas = read_excel("C:/Users/AsusPC/Desktop/universidad/5 semestre/ESTADISTICA 2/ventas.xlsx")
ventas            #para visualizar base de datos
## # A tibble: 15 x 3
##    vendedor clientes ventas
##       <dbl>    <dbl>  <dbl>
##  1        1       96     41
##  2        2       40     41
##  3        3      104     51
##  4        4      128     60
##  5        5      164     61
##  6        6       76     29
##  7        7       72     39
##  8        8       80     50
##  9        9       36     28
## 10       10       84     43
## 11       11      180     70
## 12       12      132     56
## 13       13      120     45
## 14       14       44     31
## 15       15       84     30
#y=ventas realizadas
#x=clientes contactados

#analisis de regresión de ventas totales en función de cuantos clientes contacta el asesor

#hipotesis: a mayor cantidad de clientes contacte mayor cantidad de ventas (sirve también para hacer predicciones de ventas de cada vendedor)

Se observa que la base de datos contiene información sobre el registro de las ventas (y) de unos asesore de acuerdo al total de clientes (x) que contactó.

##Análsis exploratorio

Se observa que el promedio de clientes que contacta un asesor es de 96, mientras que el promedio de ventas es de 45 productos.

attach(ventas)
## The following object is masked _by_ .GlobalEnv:
## 
##     ventas
summary(ventas)
##     vendedor       clientes       ventas    
##  Min.   : 1.0   Min.   : 36   Min.   :28.0  
##  1st Qu.: 4.5   1st Qu.: 74   1st Qu.:35.0  
##  Median : 8.0   Median : 84   Median :43.0  
##  Mean   : 8.0   Mean   : 96   Mean   :45.0  
##  3rd Qu.:11.5   3rd Qu.:124   3rd Qu.:53.5  
##  Max.   :15.0   Max.   :180   Max.   :70.0
hist(clientes,col="gray")

Veamos la correlación entre clientes y ventas: Se observa que a mayor cantidad de clientes contactados las ventas aumentan y su relación es fuerte de acuerdo con el coeficiente de correlación de Pearson (0.86)

plot(clientes,ventas$ventas)    #como la base de datos también se llama                                          hacemos la aclaración para lamar a la columna                                   ventas

cor(clientes,ventas$ventas)   # coeficiente de correlación para ver la fuerza
## [1] 0.8646318
                              #que es de 0.86

##Estimación del MODELO LINEAL SIMPLE

Se observa que el coeficiente \(\beta_0\) no se debe interpretar porque no se observan valores de clientes 0, por otro lado el \(\beta_1\) nos indica que por cada cliente adicional que se contacte las ventas se incrementan 0.26 Contactar un cliente implica 0.26 de la venta masomenos 1/4, así necesito contactar 4 clientes para tener un venta efectiva. Adicionalmente se observa que el coeficiente es significativamente distinto de 0 porque el P-value lo indica, se rechaza hipotésisi nula.

Se observa que el ajuste del modelo es de \(R^2=0.7476\) es decir que el modelo explica el 74% de la variabilidad de las ventas.

mod=lm(ventas~clientes,data=ventas)
summary(mod)
## 
## Call:
## lm(formula = ventas ~ clientes, data = ventas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.873  -2.861   0.255   3.511  10.595 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  19.9800     4.3897   4.552 0.000544 ***
## clientes      0.2606     0.0420   6.205 3.19e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared:  0.7476, Adjusted R-squared:  0.7282 
## F-statistic:  38.5 on 1 and 13 DF,  p-value: 3.193e-05
#b0 no es interpretable poruqe ningún asesor contrata 0 clientes.

#Validación de supuestos

Podemos observar respecto a los supuestos sobre el error \(e_i\) lo siguiente:

1.Media cero: se cumple por defecto.

2.Homogeneidad de varianza o varianza constante: Se observa en la gráfica 1 de residuales vs ajustados que el comportamiento es aleatorio, no con alguna tendencia en particular que indique problemas, se valida gráficamente.

3.Normalidad: Se observa que en la gráfica que los datos se ajustan bien a la línea de normalidad en el qqplot.Es decir se valida gráficamente.

4.Independencia: Dado que todos estos registros no corresponden a datos en el tiempo, no se tiene un orden para realizar la validación de este supuesto. Se valida por definición del tipo de datos de corte transversal.

par(mfrow=c(2,2))
plot(mod)                    #homogeneidad de varianza y normalidad

##Predicciones con el Modelo Estimado

¿Cuál sería las ventas promedio esperadas para un vendedor que logre contactar un total de 60 clientes?

De acuerdo con el modelo las ventas promedio estimadas para este asesor son de 35

¿Si este asesor logra un total de $0 ventas, considera que esto es destacado en comparación con otros posibles asesores?

Teniendo en cuenta que un asesor que contacta 60 clientes en promedio logra ventas entre 30 y 40 productos podemos destacar el éxito que tiene este asesor al lograr un total de 50, es decir se puede considerar como un asesor que tiene un éxito mayor en ventas en términos de celintes contactados (rendimiento).

predict(mod,list(clientes=60))
##       1 
## 35.6175
predict(mod,list(clientes=60),interval="confidence",level=0.95)
##       fit      lwr      upr
## 1 35.6175 30.64529 40.58971
#Intervalo de confianza con su respectivo nivel de confianza