El vicepresidente de la empresa Tecnología S.A., con el objetivo de probar que existe relación lineal entre los ingresos anuales y la inversión en innovación y desarrollo (I&D) en miles de dólares, ha obtenido la siguiente información mensual:
Ganancia anual (Y) 22 27 36 32 35 36 38 37 42 39 43 22
Inversión en ID (X) 5 5 6 5 7 6 6 8 9 8 9 3
Se desea realizar un modelo de regresión, de tal manera que permita predecir eventos futuros
Ingresamos los datos
nuevos_datos <- data.frame(ganancia=c(22,27,36,32,35,36,38,37,42,39,43,22),
inversion=c(5,5,6,5,7,6,6,8,9,8,9,3))
nuevos_datos
Pasos para construir un modelo de regresión:
Paso 1: Determinar las variables X,Y
Paso 2: Evaluar la relación entre variables (Correlación) graficamente
# Gráfico con plot
plot(x=nuevos_datos$inversion, y=nuevos_datos$ganancia)
# Gráfico con pairs
pairs(nuevos_datos)
Interpretación: Según los resultados, hay relación lineal positiva o directa entre la inversión y la ganancia.
# Mediante la función cor
cor(nuevos_datos) # Matriz de correlaciones
## ganancia inversion
## ganancia 1.0000000 0.8783825
## inversion 0.8783825 1.0000000
Coeficiente de correlación:
r = 0.8655788
Interpretación: Existe correlación positiva mul alta entre la inversión y la ganancia.
(Recordar: Si el r en menor que 0.35 para algunos autores, no es viable la regresión, para otros autores se debe probar hipótesis)
Como en este caso el coeficiente de correlación es superior a 0.35, es viable la regresión.
Paso 3: Regresión
Modelo general $ = b_o + b_1X $
Modelo para el caso: \(\hat{ganancia} = b_0 + b_1 Inversión\)
Para obtener el modelo, se va a utilizar una función de R > lm
# lm, notación: Y ~ X, data=
modelo_nuevos_datos <- lm(ganancia ~ inversion, data=nuevos_datos)
# Resumen de resultados
summary(modelo_nuevos_datos)
##
## Call:
## lm(formula = ganancia ~ inversion, data = nuevos_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3025 -1.3646 -0.4898 2.8538 5.3228
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.4289 3.8628 3.218 0.00921 **
## inversion 3.3747 0.5807 5.812 0.00017 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.528 on 10 degrees of freedom
## Multiple R-squared: 0.7716, Adjusted R-squared: 0.7487
## F-statistic: 33.77 on 1 and 10 DF, p-value: 0.0001703
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.4289 3.8628 3.218 0.00921 **
## inversion 3.3747 0.5807 5.812 0.00017 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.528 on 10 degrees of freedom
## Multiple R-squared: 0.7716, Adjusted R-squared: 0.7487
## F-statistic: 33.77 on 1 and 10 DF, p-value: 0.0001703
Modelo final con los resultados:
Modelo general
$ = 12.4289 +3.3747 X $
Modelo para el caso:
\(\hat{ganancia} = 12.4289 + 3.3747 Inversión\)
Paso 3: Modelo Regresión lineal simple