El dueño de la empresa Starbucks, con el objetivo de probar que existe relación lineal entre los ingresos mensuales y la cantidad de tarjeta prepagada, ha obtenido la siguiente información mensual:
IngresosMensuales: 20 35 30 30 25 60 30 35 25 20 40 40 50 30 80 30 35 25 35 45 35 35 45 55 30
CantTarjetaPrepagada: 5 25 10 5 15 50 10 15 5 5 20 35 40 15 200 15 40 5 30 100 30 25 25 50 15
Se desea realizar un modelo de regresión, de tal manera que permita predecir eventos futuros
Ingresamos los datos
Starbucks <- data.frame(IngresosMensuales=c(20, 35, 30, 30, 25, 60, 30, 35, 25, 20, 40, 40, 50, 30, 80, 30, 35, 25, 35, 45, 35, 35, 45, 55, 30), CantTarjetaPrepagada=c(5, 25, 10, 5, 15, 50, 10, 15, 5, 5, 20, 35, 40, 15, 200, 15, 40, 5, 30, 100, 30, 25, 25, 50, 15))
Starbucks
Pasos para construir un modelo de regresión:
Paso 1: Determinar las variables X,Y
Paso 2: Evaluar la relación entre variables (Correlación) graficamente
# Gráfico con plot
plot(x=Starbucks$CantTarjetaPrepagada,y=Starbucks$IngresosMensuales)
# Gráfico con pairs
pairs(Starbucks)
Interpretación: Según los resultados, hay relación lineal positiva en los Ingresos mensuales y una lineal negativa en la Cantidad de Tarjeta Prepagada.
# Mediante la función cor
cor(Starbucks) # Matriz de correlaciones
## IngresosMensuales CantTarjetaPrepagada
## IngresosMensuales 1.0000000 0.8500323
## CantTarjetaPrepagada 0.8500323 1.0000000
Coeficiente de correlación:
r = 0.8500323
Interpretación: Existe correlación positiva mul alta entre los Ingresos Mensuales y la Cantidad de Tarjeta Prepagada.
Como en este caso el coeficiente de correlación es superior a 0.35, es viable la regresión.
Paso 3: Regresión
Modelo general $ = b_o + b_1X $
Modelo para el caso: \(\hat{IngresosMensuales} = b_0 + b_1 CantidadTarjetaPrepagada\)
Para obtener el modelo, se va a utilizar una función de R > lm
modelo <- lm(IngresosMensuales ~ CantTarjetaPrepagada, data=Starbucks)
# Resumen de resultados
summary(modelo)
##
## Call:
## lm(formula = IngresosMensuales ~ CantTarjetaPrepagada, data = Starbucks)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.964 -4.154 -1.352 2.247 18.045
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.9465 1.8452 15.146 1.87e-13 ***
## CantTarjetaPrepagada 0.2802 0.0362 7.739 7.53e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.239 on 23 degrees of freedom
## Multiple R-squared: 0.7226, Adjusted R-squared: 0.7105
## F-statistic: 59.9 on 1 and 23 DF, p-value: 7.534e-08
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.9465 1.8452 15.146 1.87e-13 ***
## CantTarjetaPrepagada 0.2802 0.0362 7.739 7.53e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.239 on 23 degrees of freedom
## Multiple R-squared: 0.7226, Adjusted R-squared: 0.7105
## F-statistic: 59.9 on 1 and 23 DF, p-value: 7.534e-08
Modelo final con los resultados:
Modelo general
$ = 27.9465 + 0.2802 X $
Modelo para el caso:
\(\hat{IngresosMensuales} = 27.9465 + 0.2802 CantidadTarjetaPrepagada\)
Paso1: Variable X,Y
Paso2: Correlación entre variable
Método Gráfico - Diagrama de dispersión
Método del coeficiente - r
Paso3: Modelo Regresión lineal simple