Se cargan los datos con las siguientes variables:
Y=c(236460, 260100, 286000, 309000, 332000, 358000, 381500, 408000, 433700,
461500, 496900, 515000, 535600, 566700, 589500, 616027, 644350)
X=c(9.23, 8.75, 7.65, 6.99, 6.49, 5.50, 4.85, 4.48, 5.69, 7.67, 2.00, 3.17,
3.73, 2.44, 1.94, 3.66, 6.77)
Se puede observar que la base de datos cuenta con dos variables cuantitativas continuas llamadas \(Y\)=SALARIO MINIMO LEGAL MENSUAL (SMLM) y \(X\)=INFLACION con un total de 18 observaciones.
##
## Call:
## lm(formula = Y ~ X)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75463 -63456 -42854 17623 263207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 648486 58947 11.00 1.4e-08 ***
## X -39489 10151 -3.89 0.00145 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared: 0.5022, Adjusted R-squared: 0.469
## F-statistic: 15.13 on 1 and 15 DF, p-value: 0.00145
El modelo estimado de regresión lineal simple presenta la siguiente ecuación para la variable de respuesta (SALARIO MINIMO LEGAL MENSUAL (SMLM): y) en función la variable predictora (INFLACION: x) \(y=β_0+β_1x+e\), reemplazando los coeficientes se obtiene: \(y=648486-39489x+e\).
## 2.5 % 97.5 %
## X -61126.55 -17852.11
Con un nivel de significancia del \(5\%\) se estima que por cada aumento unitario en la variable INFLACIÓN se espera una disminución en la variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) entre \(-61126.55\) y \(-17852.11\), con lo que se puede concluir que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.
Ahora se realiza una prueba de hipótesis con \(H_0: β_1=0\) y \(H_a: β_1≠0\), con igual nivel de significancia igual al intervalo de confianza, el modelo muestra que el p-valor \(0.00145\) está por debajo del \(5\%\), por lo que estadísticamente no se puede rechazar la hipótesis alternativa, concluyendo que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.
Según el resumen anterior del modelo, se puede observar los siguientes valores para el coeficiente de determinación y el ajustado: \(R^2=0.5022\), esto quiere decir, que la bondad del ajuste de la recta de regresión explica el \(50.22\%\) de la variable Precio de las Acciones de Ecopetrol en COP con respecto al Precio del Petróleo en dólares.
El coeficiente de correlación se calcula sacando la raíz cuadrada, por lo que se obtiene: \(r=0.7086\), concluyendo que la relación lineal es buena.
El coeficiente \(β_0=648486\) indica el valor de SALARIO MINIMO LEGAL MENSUAL (SMLM) en caso de tener INFLACIÓN nula.
El coeficiente \(β_1=-39489\) corresponde al valor estimado de la pendiente de la línea recta que modela la relación entre las variables, significa que por cada aumento unitario en la variable predictora “INFLACIÓN” hay una disminución de \(-39489\) en la variable de respuesta “SALARIO MINIMO LEGAL MENSUAL (SMLM)”.
Según el gráfico de Residuales vs Valores Ajustados, se observa un
patrón diferente a una aleatoriedad, por lo que puede existir una
transformación sobre la variables que mejore los indicadores del
modelo.
El gráfico normal QQ muestra que los puntos están bien ajustado a la linea recta, por lo que la normalidad parece razonable.
anova(modelo)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X 1 1.3409e+11 1.3409e+11 15.132 0.00145 **
## Residuals 15 1.3292e+11 8.8612e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se evidencia que el p-valor está por debajo del nivel de significancia del \(5\%\) por lo que se concluye que la INFLACIÓN si influye de manera significativa sobre el SALARIO MINIMO LEGAL MENSUAL.
No es conveniente usar el modelo puesto que sólo se está considerando una variable predictoria, El salario Mínimo en Colombia puede depender de otras variables y las conclusiones que se pueden obtener del modelo simple pueden no ser las mejores.
Debido al gráfico de Residuales vs Valores ajustados, se proponen transformaciones para observar si el modelo se ajusta de mejor manera.
##
## Call:
## lm(formula = Y ~ log(X))
##
## Residuals:
## Min 1Q Median 3Q Max
## -94445 -62759 -41824 25832 266979
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 712980 80886 8.815 2.56e-07 ***
## log(X) -175482 49169 -3.569 0.0028 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 98110 on 15 degrees of freedom
## Multiple R-squared: 0.4592, Adjusted R-squared: 0.4232
## F-statistic: 12.74 on 1 and 15 DF, p-value: 0.002798
##
## Call:
## lm(formula = log(Y) ~ log(X))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.2829 -0.1381 -0.0585 0.1100 0.5827
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.6383 0.1890 72.165 < 2e-16 ***
## log(X) -0.4418 0.1149 -3.846 0.00159 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2292 on 15 degrees of freedom
## Multiple R-squared: 0.4965, Adjusted R-squared: 0.4629
## F-statistic: 14.79 on 1 and 15 DF, p-value: 0.001588
##
## Call:
## lm(formula = log(Y) ~ X)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.17778 -0.14056 -0.11307 0.07049 0.57569
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.48553 0.13378 100.806 < 2e-16 ***
## X -0.10121 0.02304 -4.393 0.000524 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2136 on 15 degrees of freedom
## Multiple R-squared: 0.5627, Adjusted R-squared: 0.5335
## F-statistic: 19.3 on 1 and 15 DF, p-value: 0.0005238
De los modelos ajustado, el que presenta mejor coeficiente de determinación es el logarítmico, en todos los caso el gráfico QQ indica que los datos están ajustados y provienen de una distribución normal, pero el gráfico de residuales indica que la varianza no es constante.
Se compara el modelo inicial con el modelo ajustado #3. En ambos casos el gráfico QQ permite suponer que la distribución de datos sigue una distribución normal, pero el gráfico de residuales no indica aleatoriedad por lo que la varianza no es constante, la diferencia radica en el coeficiente de determinación \(r^2\) que pasó de \(0.5022\) a \(0.5627\), por lo que el porcentaje de explicación de la variable de respuesta aumentó en un \(6.05\%\), para dicho modelo ajustado, los p-valores indican mejor estimación sobre los parámetros.