Preguntas

Inciso a: Escriba la ecuación del modelo de regresión lineal simple.

Solución:

Se cargan los datos con las siguientes variables:

Y=c(236460, 260100, 286000, 309000, 332000, 358000, 381500, 408000, 433700, 
461500, 496900, 515000, 535600, 566700, 589500, 616027, 644350)

X=c(9.23, 8.75, 7.65, 6.99, 6.49, 5.50, 4.85, 4.48, 5.69, 7.67, 2.00, 3.17, 
3.73, 2.44,  1.94, 3.66, 6.77)

Se puede observar que la base de datos cuenta con dos variables cuantitativas continuas llamadas \(Y\)=SALARIO MINIMO LEGAL MENSUAL (SMLM) y \(X\)=INFLACION con un total de 18 observaciones.

Estimación del modelo de regresión lineal simple

## 
## Call:
## lm(formula = Y ~ X)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75463 -63456 -42854  17623 263207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   648486      58947   11.00  1.4e-08 ***
## X             -39489      10151   -3.89  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared:  0.5022, Adjusted R-squared:  0.469 
## F-statistic: 15.13 on 1 and 15 DF,  p-value: 0.00145

El modelo estimado de regresión lineal simple presenta la siguiente ecuación para la variable de respuesta (SALARIO MINIMO LEGAL MENSUAL (SMLM): y) en función la variable predictora (INFLACION: x) \(y=β_0+β_1x+e\), reemplazando los coeficientes se obtiene: \(y=648486-39489x+e\).

Inciso b) Plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto.

Inferencia sobre el modelo

Intervalo de confianza (95%) para el coeficiente \(β_1\)

##       2.5 %    97.5 %
## X -61126.55 -17852.11

Con un nivel de significancia del \(5\%\) se estima que por cada aumento unitario en la variable INFLACIÓN se espera una disminución en la variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) entre \(-61126.55\) y \(-17852.11\), con lo que se puede concluir que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.

Prueba de Hipótesis

Ahora se realiza una prueba de hipótesis con \(H_0: β_1=0\) y \(H_a: β_1≠0\), con igual nivel de significancia igual al intervalo de confianza, el modelo muestra que el p-valor \(0.00145\) está por debajo del \(5\%\), por lo que estadísticamente no se puede rechazar la hipótesis alternativa, concluyendo que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.

Inciso c) indique e interprete el coeficiente de correlación del modelo propuesto.

Según el resumen anterior del modelo, se puede observar los siguientes valores para el coeficiente de determinación y el ajustado: \(R^2=0.5022\), esto quiere decir, que la bondad del ajuste de la recta de regresión explica el \(50.22\%\) de la variable Precio de las Acciones de Ecopetrol en COP con respecto al Precio del Petróleo en dólares.

El coeficiente de correlación se calcula sacando la raíz cuadrada, por lo que se obtiene: \(r=0.7086\), concluyendo que la relación lineal es buena.

Inciso d) Interprete cada uno de los coeficientes del modelo propuesto:

El coeficiente \(β_0=648486\) indica el valor de SALARIO MINIMO LEGAL MENSUAL (SMLM) en caso de tener INFLACIÓN nula.

El coeficiente \(β_1=-39489\) corresponde al valor estimado de la pendiente de la línea recta que modela la relación entre las variables, significa que por cada aumento unitario en la variable predictora “INFLACIÓN” hay una disminución de \(-39489\) en la variable de respuesta “SALARIO MINIMO LEGAL MENSUAL (SMLM)”.

Inciso e) Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto.

Validación de supuestos del modelo de regresión lineal

Según el gráfico de Residuales vs Valores Ajustados, se observa un patrón diferente a una aleatoriedad, por lo que puede existir una transformación sobre la variables que mejore los indicadores del modelo.

El gráfico normal QQ muestra que los puntos están bien ajustado a la linea recta, por lo que la normalidad parece razonable.

anova(modelo)
## Analysis of Variance Table
## 
## Response: Y
##           Df     Sum Sq    Mean Sq F value  Pr(>F)   
## X          1 1.3409e+11 1.3409e+11  15.132 0.00145 **
## Residuals 15 1.3292e+11 8.8612e+09                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se evidencia que el p-valor está por debajo del nivel de significancia del \(5\%\) por lo que se concluye que la INFLACIÓN si influye de manera significativa sobre el SALARIO MINIMO LEGAL MENSUAL.

Inciso f): Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia.

No es conveniente usar el modelo puesto que sólo se está considerando una variable predictoria, El salario Mínimo en Colombia puede depender de otras variables y las conclusiones que se pueden obtener del modelo simple pueden no ser las mejores.

Adicional: Transformaciones sobre el modelo

Debido al gráfico de Residuales vs Valores ajustados, se proponen transformaciones para observar si el modelo se ajusta de mejor manera.

Modelo Ajustado con logaritmo

## 
## Call:
## lm(formula = Y ~ log(X))
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -94445 -62759 -41824  25832 266979 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   712980      80886   8.815 2.56e-07 ***
## log(X)       -175482      49169  -3.569   0.0028 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 98110 on 15 degrees of freedom
## Multiple R-squared:  0.4592, Adjusted R-squared:  0.4232 
## F-statistic: 12.74 on 1 and 15 DF,  p-value: 0.002798

Modelo Ajustado con doble logaritmo

## 
## Call:
## lm(formula = log(Y) ~ log(X))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.2829 -0.1381 -0.0585  0.1100  0.5827 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  13.6383     0.1890  72.165  < 2e-16 ***
## log(X)       -0.4418     0.1149  -3.846  0.00159 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2292 on 15 degrees of freedom
## Multiple R-squared:  0.4965, Adjusted R-squared:  0.4629 
## F-statistic: 14.79 on 1 and 15 DF,  p-value: 0.001588

Modelo Ajustado Exponencial

## 
## Call:
## lm(formula = log(Y) ~ X)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.17778 -0.14056 -0.11307  0.07049  0.57569 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.48553    0.13378 100.806  < 2e-16 ***
## X           -0.10121    0.02304  -4.393 0.000524 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2136 on 15 degrees of freedom
## Multiple R-squared:  0.5627, Adjusted R-squared:  0.5335 
## F-statistic:  19.3 on 1 and 15 DF,  p-value: 0.0005238

De los modelos ajustado, el que presenta mejor coeficiente de determinación es el logarítmico, en todos los caso el gráfico QQ indica que los datos están ajustados y provienen de una distribución normal, pero el gráfico de residuales indica que la varianza no es constante.

Comparación entre los modelos y conclusiones finales

Se compara el modelo inicial con el modelo ajustado #3. En ambos casos el gráfico QQ permite suponer que la distribución de datos sigue una distribución normal, pero el gráfico de residuales no indica aleatoriedad por lo que la varianza no es constante, la diferencia radica en el coeficiente de determinación \(r^2\) que pasó de \(0.5022\) a \(0.5627\), por lo que el porcentaje de explicación de la variable de respuesta aumentó en un \(6.05\%\), para dicho modelo ajustado, los p-valores indican mejor estimación sobre los parámetros.