Por ejemplo: El vicepresidente de la empresa Computadoras S.A., con el objetivo de probar que existe relación lineal entre las ganancias anuales y la inversión en investigación y desarrollo (ID) en miles de dólares, ha obtenido la siguiente información mensual: Ganancia anual (Y) 20 25 34 30 33 34 36 35 40 37 41 20 Inversión en ID (X) 2 4 5 4 6 5 5 7 8 7 8 2
Para evaluar si existe relación entre las variables, procedemos a ingresar a RStudio y generar el diagrama de dispersión.
Ingresamos los datos
ejemplo1 <- data.frame(ganancia=c(20,25,34,30,33,34,36,35,40,37,41,20),
inversion=c(2,4,5,4,6,5,5,7,8,7,8,2))
Pasos para construir un modelo de regresion
Paso 1: Determinar las variables X,Y
Graficamos mediante un diagrama de dispersión
# Grafico con plot
plot(x=ejemplo1$inversion, y=ejemplo1$ganancia)
# Grafico con pairs
pairs(ejemplo1)
Interpretacion: Segun los resultados, hay relacion lineal positiva o directa entre la invercion y ganancias
# Mediante la funcion cor
cor(ejemplo1) # Matriz de correlaciones
## ganancia inversion
## ganancia 1.0000000 0.9369924
## inversion 0.9369924 1.0000000
Coeficiente de correlacion:
r = 0.9369924
Interpretacion: Exixte correlacion positiva muy alta entre la invercion y la ganancia.
(Recordar: Si el r es menor que 0.35 para algunos autores, no es viable la regresion, para otros autores se debe probar hipotesis)
Como en este caso el coeficiente de correlacion es superior de 0.35, es viable la regresion.
Paso 3: Regresion
\(\hat{Y}= b_0 + b_1\)
Modelo para el caso \(\hat{ganancia} = b_0 + b_1 Invercion\)
Para obtener el modelo, se va a utilizar una funcion de R > lm
# lm, notacion: Y ~ X, data=
modelo1 <- lm(ganancia ~ inversion, data=ejemplo1)
# Resumen de resultados
summary(modelo1)
##
## Call:
## lm(formula = ganancia ~ inversion, data = ejemplo1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0631 -1.6306 -0.8198 2.1329 4.7207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.1982 2.1254 7.151 3.10e-05 ***
## inversion 3.2162 0.3792 8.482 7.03e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared: 0.878, Adjusted R-squared: 0.8658
## F-statistic: 71.94 on 1 and 10 DF, p-value: 7.032e-06
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.1982 2.1254 7.151 3.10e-05 ***
## inversion 3.2162 0.3792 8.482 7.03e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared: 0.878, Adjusted R-squared: 0.8658
## F-statistic: 71.94 on 1 and 10 DF, p-value: 7.032e-06
Modelo final con resultados:
Modelo general: \(\hat{Y} = 15.1982 + 3.2162 X\)
Modelo para el caso: \(\hat{ganancias} = 15.1982 + 3.2162 Inversion\)