library(readxl)
datos_ventas <- read_excel("Angie Herrera/2021-1/Bioestadistica/datos_ventas.xlsx")
datos_ventas
## # A tibble: 15 x 3
## vendedor clientes ventas
## <dbl> <dbl> <dbl>
## 1 1 96 41
## 2 2 40 41
## 3 3 104 51
## 4 4 128 60
## 5 5 164 61
## 6 6 76 29
## 7 7 72 39
## 8 8 80 50
## 9 9 36 28
## 10 10 84 43
## 11 11 180 70
## 12 12 132 56
## 13 13 120 45
## 14 14 44 31
## 15 15 84 30
attach(datos_ventas)
summary(clientes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 36 74 84 96 124 180
summary(ventas)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 28.0 35.0 43.0 45.0 53.5 70.0
Se puede decir que los asesores hablan con 96 clientes en promedio por día y venden 45 productos en promedio, de lo cual se puede inferir que menos de la mitad de las personas con las que se comunican, realizan al menos una compra.
Correlación existente entre clientes y ventas:
plot( clientes, ventas)
cor(clientes, ventas) #función para hallar el coeficiente de correlación
## [1] 0.8646318
El coeficiente de correlación que arrojan los datos es de 0.86, lo cuál nos hacer rectificar que es un regresión positiva, el eje “x” y “y” suelen incrementar al tiempo.
model<- lm( ventas~clientes)
summary(model)
##
## Call:
## lm(formula = ventas ~ clientes)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.873 -2.861 0.255 3.511 10.595
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.9800 4.3897 4.552 0.000544 ***
## clientes 0.2606 0.0420 6.205 3.19e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared: 0.7476, Adjusted R-squared: 0.7282
## F-statistic: 38.5 on 1 and 13 DF, p-value: 3.193e-05
La formula de la regresión lineal estaría expresada de la siguiente manera: y= 19.9800+0.2606(clientes). Además, \(\beta_0=19.9800\) no puede ser interpretado por no estar presente en el rango de los clientes en la gráfica de dispersión que se realizó anteriormente.
Interpretación del \(R^2\) que hace referencia al porcentaje de variación de la variable que es trazada por el modelo lineal en los datos. \(R^2= 0.7476\) El modelo explica el 74,76% de la variabilidad de los datos en torno a su media.
par(mfrow=c(2,2)) #función para dividir un gráfico en filas y columnas.
plot(model)
1. Media cero: Se cumple por defecto 2. Varianza constante: (graf 1) Se puede observar que no existe un patrón en específico, por lo tanto la varianza es constante. 3. Normalidad: (graf 2) Se puede observar en la gráfica que los puntos se situan por encima de la línea de normalidad, por lo tanto sí se cumple. 4. Independencia: Se valida por definición.
¿Cuáles serían las ventas promedio esperadas para un asesor que logre contactar a 60 clientes?
predict(model, list(clientes=60)) #función que permite realizar predicciones a partir de un modelo de regresión lineal ajustado (para obtener los valores de "y")
## 1
## 35.6175
Un asesor que logre contactar a 60 clientes, haría 35 ventas en promedio.
Si un asesor logra un total de 50 ventas, ¿se considera que esto es destacado en comparación con otros posibles asesores?