Por ejemplo: El vicepresidente de la empresa Computadoras S.A., con el objetivo de probar que existe relacion lineal entre las ganancias anuales y la inversión en investigacion y desarrollo (ID) en miles de dolares, ha obtenido la siguiente información mensual:

Ganancia anual (Y) 20 25 34 30 33 34

Inversión en ID (X) 2 4 5 4 6 5 5 7 8 7 8 2

Se desea realizar un modelo de regresión, de tal manera que permita predecir eventos futuros

Ingresamos los datos

ejemplo1 <- data.frame(ganancia=c(20,25,34,30,33,34,36,35,40,37,41,20),
                       inversion=c(2,4,5,4,6,5,5,7,8,7,8,2))
ejemplo1
##    ganancia inversion
## 1        20         2
## 2        25         4
## 3        34         5
## 4        30         4
## 5        33         6
## 6        34         5
## 7        36         5
## 8        35         7
## 9        40         8
## 10       37         7
## 11       41         8
## 12       20         2

Pasos para construir un modelo de regresión:

Paso 1: Determinar las variables X, Y

Paso 2: Evaluar la relacion entre variables (Correlacion) Graficamente

Diagrama de dispersíon o puntos

# Gráfico con plot
plot(x=ejemplo1$inversion, y=ejemplo1$ganancia)

# Gráfico con pairs
pairs(ejemplo1)

Interpretación: Según los resultados se observa que hay correlación directa o positiva entre la inversión en investigación y desarrollo y la ganancia anual.

Covarianza de correlacion

# Mediante la función cor
cor(ejemplo1) # Matriz de correlaciones
##            ganancia inversion
## ganancia  1.0000000 0.9369924
## inversion 0.9369924 1.0000000

Coeficiente de correlación:

r = 0.9369924

Interpretación: Existe correlación positiva mul alta entre la inversión y la ganancia.

(Recordar: Si el r en menor que 0.35 para algunos autores, no es viable la regresión, para otros autores se debe probar hipótesis)

Como en este caso el coeficiente de correlacion es superior a 0.35, es viable la regresión.

Paso 3: Regresión

Regesión lineal simple

Modelo general

\(\hat{Y} = b_o + b_1X\)

Modelo para el caso:

\(\hat{ganancia} = b_0 + b_1 inversion\)

Para obtener el modelo, se va a utilizar una funcion de R > lm

# lm, notacion: Y ~ X, data=
modelo1 <- lm(ganancia ~ inversion, data=ejemplo1)

# Resumen de resultados
summary(modelo1)
## 
## Call:
## lm(formula = ganancia ~ inversion, data = ejemplo1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.0631 -1.6306 -0.8198  2.1329  4.7207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  15.1982     2.1254   7.151 3.10e-05 ***
## inversion     3.2162     0.3792   8.482 7.03e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.579 on 10 degrees of freedom
## Multiple R-squared:  0.878,  Adjusted R-squared:  0.8658 
## F-statistic: 71.94 on 1 and 10 DF,  p-value: 7.032e-06

Modelo final con los resultados:

Modelo general

$ = 15.1982 +3.2162 X $

Modelo para el caso:

\(\hat{ganancia} = 15.1982 +3.2162 inversion\)