El vicepresidente de la empresa Computadoras S.A., con el objetivo de probar que existe relación lineal entre las ganancias anuales y la inversión en investigación y desarrollo (ID) en miles de dólares, ha obtenido la siguiente información mensual: Ganancia anual (Y) 20 25 34 30 33 34 36 35 40 37 41 20 Inversión en ID (X) 2 4 5 4 6 5 5 7 8 7 8 2
Se desea realizar un modelo de regresion e de tal manera que pueda predecir eventos futuros
ejemplo1 <- data.frame(ganancia=c(20,25,34,30,33,34,36,35,40,37,41,20),
inversion=c(2,4,5,4,6,5,5,7,8,7,8,2))
ejemplo1
Pasos para construir un modelo de regresion:
Paso 1: Determinar las variables X, Y
Paso 2: Evaluar la realacion entre variables(Correlacion)graficamente
# Grafico con plot
plot(x=ejemplo1$inversion, y=ejemplo1$ganancia)
# También se puede utilizar la función pairs
pairs(ejemplo1)
Interpretación: Según los resultados hay relacion positiva o directa entre la inversión y la ganancia.
# Mediante la funcion cor
cor(ejemplo1) # Matriz de correlaciones
## ganancia inversion
## ganancia 1.0000000 0.9369924
## inversion 0.9369924 1.0000000
Coeficiente de correlacion: r = 0.9369924
Interpretación: Existe correlacion positiva muy alta entre la inversion y la ganancia
Recordar(si r es mejor que 0.35 para algunos autores, no es viable la regresion, para otros autores se puede probar la hipotesis)
Paso 3: Regresion
Modelo general: \(\hat{Y} = b_o +
b_1X\)
Modelo para el caso: \(\hat{ganancia} = b_0 +
B_1 Inversión\)
# lm, notación: Y ~ X, data=
modelo1 <- lm(ganancia ~ inversion, data=ejemplo1)
# Resumen de resultados
summary(modelo1)
##
## Call:
## lm(formula = ganancia ~ inversion, data = ejemplo1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0631 -1.6306 -0.8198 2.1329 4.7207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.1982 2.1254 7.151 3.10e-05 ***
## inversion 3.2162 0.3792 8.482 7.03e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared: 0.878, Adjusted R-squared: 0.8658
## F-statistic: 71.94 on 1 and 10 DF, p-value: 7.032e-06
##
## Call:
## lm(formula = ganancia ~ inversion, data = ejemplo1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0631 -1.6306 -0.8198 2.1329 4.7207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.1982 2.1254 7.151 3.10e-05 ***
## inversion 3.2162 0.3792 8.482 7.03e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared: 0.878, Adjusted R-squared: 0.8658
Modelo fnal con los resultados sería:
Modelo general:
\(\hat{y} = 15.1982 + 3.2162
X\)
Modelo para el caso:
\(\hat{ganancia} = 15.1982 + 3.2162 Inversión\)