El vicepresidente de la empresa Computadoras S.A., con el objetivo de probar que existe relación lineal entre las ganancias anuales y la inversión en investigación y desarrollo (ID) en miles de dólares, ha obtenido la siguiente información mensual: Ganancia anual (Y) 20 25 34 30 33 34 36 35 40 37 41 20 Inversión en ID (X) 2 4 5 4 6 5 5 7 8 7 8 2
Para evaluar si existe relación entre las variables, procedemos a ingresar a RStudio y generar el diagrama de dispersión.
Ingresamos los datos se desea realizar un mmodelo de regresion, que tal manera permita predecir eventos futuros
ejemplo1 <- data.frame(ganancia=c(20,25,34,30,33,34,36,35,40,37,41,20),
inversion=c(2,4,5,4,6,5,5,7,8,7,8,2))
ejemplo1
pasos para construir un modelo de regresion:
paso 1 : determinar las variables * variable independiente (x)= Inversion * Variable dependiente (Y)= Ganancia paso 2: Evaluar la relacion entre variables (correlacion) graficamente
# Gráfico con plot
plot(x=ejemplo1$inversion, y=ejemplo1$ganancia)
# Grafico con pairs
pairs(ejemplo1)
Interpretacion: Segun los resultados, hay relacion lineal positiva o
directa entre la invercion y ganancias
# Mediante a función cor
cor(ejemplo1) #Matriz de correlaciones
## ganancia inversion
## ganancia 1.0000000 0.9369924
## inversion 0.9369924 1.0000000
Coeficiente de correlacion:
r = 0.9369924
Interpretacion: Exixte correlacion positiva muy alta entre la invercion y la ganancia.
(Recordar: Si el r es menor que 0.35 para algunos autores, no es viable la regresion, para otros autores se debe probar hipotesis)
Como en este caso el coeficiente de correlacion es superior de 0.35, es viable la regresion.
Paso 3: Regresion
Modelo General
$ = b_0 + b_1X$
Modelo para el caso
\(\hat{ganacia} = b_0 +b_1 Inversion\)
Para obtener el modelo, se va a utilizar la función de R > lm
# lm, notación : Y ~ X, data=
modelo1 <- lm(ganancia ~ inversion, data=ejemplo1)
# Resumen de resultados
summary(modelo1)
##
## Call:
## lm(formula = ganancia ~ inversion, data = ejemplo1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0631 -1.6306 -0.8198 2.1329 4.7207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.1982 2.1254 7.151 3.10e-05 ***
## inversion 3.2162 0.3792 8.482 7.03e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared: 0.878, Adjusted R-squared: 0.8658
## F-statistic: 71.94 on 1 and 10 DF, p-value: 7.032e-06
##
## Call:
## lm(formula = ganancia ~ inversion, data = ejemplo1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0631 -1.6306 -0.8198 2.1329 4.7207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.1982 2.1254 7.151 3.10e-05 ***
## inversion 3.2162 0.3792 8.482 7.03e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared: 0.878, Adjusted R-squared: 0.8658
## F-statistic: 71.94 on 1 and 10 DF, p-value: 7.032e-06
Modelo final con los resultados:
Modelo General:
\(\hat{Y} = 15 .1982 + 3.2162 X\)
Modelo para el caso:
\(\hat{ganancia} =15.1882 + 3.2162 Inversion\)