El gerente de Starbucks, con el objetivo de evaluar la relación entre los ingresos anuales (en miles de dólares) y variables como la cantidad de tarjetas prepagadas utilizadas, la edad de los clientes, la frecuencia mensual de visitas a Starbucks, la cantidad diaria de tazas de café consumidas e ingresos en unidades de mil, ha recopilado el siguiente conjunto de datos:
Ingresos Anuales (Y) 20 35 30 30 25 60 30 35 25 20 …
Variables Predictivas (X):
Se busca desarrollar un modelo de regresión que permita predecir los ingresos anuales basándose en estas variables predictoras. El objetivo es entender cómo estas características influyen en los ingresos de la empresa y utilizar el modelo para hacer proyecciones sobre eventos futuros. Este análisis puede proporcionar información valiosa para la toma de decisiones estratégicas en Starbucks, desde la planificación de recursos hasta la mejora de la experiencia del cliente.
starbucks<-read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Estadistica-R/master/starbucks.csv", sep = ";", encoding = "latin1", stringsAsFactors = T)
head(starbucks)
## Cantidad.de.tarjeta.prepagada.... Edad DÃ.as.por.mes.en.Starbucks
## 1 5 25 4
## 2 25 30 12
## 3 10 27 10
## 4 5 42 8
## 5 15 29 11
## 6 50 25 12
## Tazas.de.cafÃ..por.dÃ.a Ingresos....1000.
## 1 1 20
## 2 5 35
## 3 4 30
## 4 5 30
## 5 8 25
## 6 5 60
# Paso 1: Determinar las variables X,Y
modelo_starbucks <- starbucks[, c("Ingresos....1000.", "Cantidad.de.tarjeta.prepagada....")]
# Renombrar las columnas para mayor claridad
colnames(modelo_starbucks) <- c("Ingresos", "Cantidad_Tarjetas_Prepagadas")
# Visualizar el nuevo conjunto de datos
head(modelo_starbucks)
## Ingresos Cantidad_Tarjetas_Prepagadas
## 1 20 5
## 2 35 25
## 3 30 10
## 4 30 5
## 5 25 15
## 6 60 50
# Diagrama de dispersión
plot(x = starbucks$Cantidad.de.tarjeta.prepagada....,
y = starbucks$Ingresos....1000.,
main = "Diagrama de Dispersión",
xlab = "Cantidad de Tarjetas Prepagadas",
ylab = "Ingresos Anuales")
# Diagrama de dispersión con pairs
pairs(starbucks[, c("Cantidad.de.tarjeta.prepagada....", "Ingresos....1000.")])
Interpretación: Según los resultados obtenidos para el conjunto de datos de Starbucks, se observa un claro patrón de relación lineal positiva entre la cantidad de tarjetas prepagadas utilizadas y los ingresos anuales. Esto sugiere que a medida que aumenta la cantidad de tarjetas prepagadas en uso, tiende a haber un aumento en los ingresos anuales de Starbucks. La dirección positiva en el diagrama de dispersión y la matriz de dispersión indican una asociación creciente entre estas dos variables, lo que respalda la idea de una conexión lineal positiva entre la cantidad de tarjetas prepagadas y los ingresos de la empresa.
# Coeficiente de correlación
cor(starbucks$Cantidad.de.tarjeta.prepagada...., starbucks$Ingresos....1000.)
## [1] 0.8500323
Coeficiente de correlación:
r = 0.8500323
Interpretación: Existe una correlación positiva bastante alta entre la cantidad de tarjetas prepagadas utilizadas y los ingresos anuales de Starbucks. La magnitud del coeficiente de correlación sugiere una fuerte relación positiva, indicando que a medida que aumenta la cantidad de tarjetas prepagadas en uso, hay un aumento considerable en los ingresos anuales de la empresa.
En términos generales, un coeficiente de correlación de 0.85 indica una asociación significativa y sugiere que la relación entre estas dos variables es bastante robusta. Este resultado respalda la idea de que la cantidad de tarjetas prepagadas está fuertemente relacionada con los ingresos de Starbucks.
¡Entendido! Si estás buscando la notación en LaTeX para representar el modelo de regresión lineal simple con el conjunto de datos de Starbucks, aquí está la sintaxis:
Paso 3: Regresión
Modelo general \(\hat{Y} = \beta_0 + \beta_1X\)
Modelo para el caso en LaTeX \(\hat{\text{Ingresos}} = \beta_0 + \beta_1 \cdot \text{Cantidad\_de\_tarjeta\_prepagada}\)
Para obtener el modelo, se va a utilizar una función de R > lm
# Ajuste del modelo de regresión lineal simple
modelo_starbucks <- lm(Ingresos....1000. ~ Cantidad.de.tarjeta.prepagada...., data = starbucks)
# Resumen de resultados
summary(modelo_starbucks)
##
## Call:
## lm(formula = Ingresos....1000. ~ Cantidad.de.tarjeta.prepagada....,
## data = starbucks)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.964 -4.154 -1.352 2.247 18.045
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.9465 1.8452 15.146 1.87e-13 ***
## Cantidad.de.tarjeta.prepagada.... 0.2802 0.0362 7.739 7.53e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.239 on 23 degrees of freedom
## Multiple R-squared: 0.7226, Adjusted R-squared: 0.7105
## F-statistic: 59.9 on 1 and 23 DF, p-value: 7.534e-08
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.9465 1.8452 15.146 1.87e-13 ***
## Cantidad.de.tarjeta.prepagada.... 0.2802 0.0362 7.739 7.53e-08 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 7.239 on 23 degrees of freedom
## Multiple R-squared: 0.7226, Adjusted R-squared: 0.7105
## F-statistic: 59.9 on 1 and 23 DF, p-value: 7.534e-08
Modelo general $ = 27.9465 +0.2802 X $
Modelo para el caso: \(\hat{Ingresos} = 27.9465 + 0.2802 \cdot \text Cantidad\_de\_tarjeta\_prepagada\)