Paso 1: Determinar las variables X, Y
Variable independiente (X): Publicidad
Variable dependiente (Y): Ganancia
# Tarea
nuevo_ejemplo <- data.frame(ganancia=c(30, 35, 45, 40, 42, 43, 50, 48, 55, 52, 58, 30),
publicidad=c(3, 5, 6, 4, 7, 6, 8, 9, 10, 8, 10, 3))
nuevo_ejemplo
# Grafico con plot
plot(x=nuevo_ejemplo$publicidad, y=nuevo_ejemplo$ganancia)
# También se puede utilizar la función pairs
pairs(nuevo_ejemplo)
Interpretación: Según los resultados, hay una relación positiva o directa entre la inversión en publicidad y la ganancia
# Mediante la función cor
cor(nuevo_ejemplo) # Matriz de correlaciones
## ganancia publicidad
## ganancia 1.0000000 0.9450652
## publicidad 0.9450652 1.0000000
Coeficiente de correlación: r = 0.9476214
Interpretación: Existe una correlación positiva muy alta entre la inversión en publicidad y la ganancia.
Recordar: Si r es mayor que 0.35 (o algún otro umbral definido), puede ser viable la regresión.
Modelo general: \(\hat{Y} = b_0 + b_1X\)
Modelo para el caso: \(\hat{ganancia} = b_0 + b_1 \cdot \text{Publicidad}\)
# lm, notación: Y ~ X, data=
nuevo_modelo <- lm(ganancia ~ publicidad, data=nuevo_ejemplo)
# Resumen de resultados
summary(nuevo_modelo)
##
## Call:
## lm(formula = ganancia ~ publicidad, data = nuevo_ejemplo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.3809 -2.0411 0.0871 2.3691 4.9589
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.1693 2.6575 7.966 1.22e-05 ***
## publicidad 3.4680 0.3793 9.143 3.59e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.149 on 10 degrees of freedom
## Multiple R-squared: 0.8931, Adjusted R-squared: 0.8825
## F-statistic: 83.59 on 1 and 10 DF, p-value: 3.592e-06
Modelo final con los resultados sería:
Modelo general: \(\hat{y} = 22.6661 + 4.2952 X\)
Modelo para el caso: \(\hat{ganancia} = 22.6661 + 4.2952 \cdot \text{Publicidad}\)