Datos

library(readxl)
datos_ventas <- read_excel("Angie Herrera/2021-1/Bioestadistica/datos_ventas.xlsx")
datos_ventas
## # A tibble: 15 x 3
##    vendedor clientes ventas
##       <dbl>    <dbl>  <dbl>
##  1        1       96     41
##  2        2       40     41
##  3        3      104     51
##  4        4      128     60
##  5        5      164     61
##  6        6       76     29
##  7        7       72     39
##  8        8       80     50
##  9        9       36     28
## 10       10       84     43
## 11       11      180     70
## 12       12      132     56
## 13       13      120     45
## 14       14       44     31
## 15       15       84     30

Exploración de datos

attach(datos_ventas)
summary(clientes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      36      74      84      96     124     180
summary(ventas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    28.0    35.0    43.0    45.0    53.5    70.0

Se puede decir que los asesores hablan con 96 clientes en promedio por día y venden 45 productos en promedio, de lo cual se puede inferir que menos de la mitad de las personas con las que se comunican, realizan al menos una compra.

Correlación existente entre clientes y ventas:

plot( clientes, ventas)

cor(clientes, ventas) #función para hallar el coeficiente de correlación
## [1] 0.8646318

El coeficiente de correlación que arrojan los datos es de 0.86, lo cuál nos hacer rectificar que es un regresión positiva, el eje “x” y “y” suelen incrementar al tiempo.

Estimación del modelo de regresión lineal simple

model<- lm( ventas~clientes)
summary(model)
## 
## Call:
## lm(formula = ventas ~ clientes)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.873  -2.861   0.255   3.511  10.595 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  19.9800     4.3897   4.552 0.000544 ***
## clientes      0.2606     0.0420   6.205 3.19e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared:  0.7476, Adjusted R-squared:  0.7282 
## F-statistic:  38.5 on 1 and 13 DF,  p-value: 3.193e-05

La formula de la regresión lineal estaría expresada de la siguiente manera: y= 19.9800+0.2606(clientes). Además, \(\beta_0=19.9800\) no puede ser interpretado por no estar presente en el rango de los clientes en la gráfica de dispersión que se realizó anteriormente.

Interpretación del \(R^2\) que hace referencia al porcentaje de variación de la variable que es trazada por el modelo lineal en los datos. \(R^2= 0.7476\) El modelo explica el 74,76% de la variabilidad de los datos en torno a su media.

Validación de supuestos

par(mfrow=c(2,2)) #función para dividir un gráfico en filas y columnas.
plot(model)

1. Media cero: Se cumple por defecto 2. Varianza constante: (graf 1) Se puede observar que no existe un patrón en específico, por lo tanto la varianza es constante. 3. Normalidad: (graf 2) Se puede observar en la gráfica que los puntos se situan por encima de la línea de normalidad, por lo tanto sí se cumple. 4. Independencia: Se valida por definición.

Predicciones con el modelo estimado

¿Cuáles serían las ventas promedio esperadas para un asesor que logre contactar a 60 clientes?

predict(model, list(clientes=60)) #función que permite realizar predicciones a partir de un modelo de regresión lineal ajustado (para obtener los valores de "y")
##       1 
## 35.6175

Un asesor que logre contactar a 60 clientes, haría 35 ventas en promedio.

Si un asesor logra un total de 50 ventas, ¿se considera que esto es destacado en comparación con otros posibles asesores?