Se cargan los datos con las siguientes variables:
Y=c(1090, 1170, 1160, 1230, 1155, 1165, 1205, 1170, 1150, 1130, 1110, 1105, 1085, 1060, 1035, 1015, 955, 961)
X=c(35.62,36.31,37.35,34.95,34.53,35.81,36.14,37.50,37.80,36.81,37.87,37.04, 36.76,35.97,33.97,33.27,31.41,30.44)
Se puede observar que la base de datos cuenta con dos variables cuantitativas continuas llamadas \(Y\)=Precio Acciones de Ecopetrol (en pesos) y \(X\)=Precio del Petróleo WTI en dólares por barril con un total de 18 observaciones.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 955 1066 1120 1108 1164 1230
## [1] "Coeficiente_de_Variación"
## [1] 7.075453
Sus valores medidos en pesos colombianos, se encuentran en el intervalo de \(V_{min}=955\) a \(V_{max}=1230\), con un promedio de \(\bar{y}=1108\) y una variación del \(7.07%\), los tres cuartiles corresponden a \(Q_1=1066\), \(Q_2=1120\) y \(Q_3=1164\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):
Se construye el histograma.
## [1] "Coeficiente de Asimetría"
## [1] -0.004484305
La forma del histograma y la curva de densidad sugiere que la distribución de datos tiene asimetría negativa, lo cual se concluye también en base al coeficiente de asimetría \(A_s<0\), finalmente, la línea azul corresponde al valor de la media aritmética.
Resumen numérico y gráfico para Precio del Petróleo WTI en dólares por barril
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 30.44 34.63 36.05 35.53 36.98 37.87
## [1] "Coeficiente_de_Variación"
## [1] 5.961582
Sus valores (en \(dólares\)) se encuentran en el intervalo de \(V_{min}=30.44\) a \(V_{max}=37.87\), con un promedio de \(\bar{x}=1092\) y una variación del \(7.54\%\), los tres cuartiles corresponden a \(Q_1=34.63\), \(Q_2=36.05\) y \(Q_3=36.98\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):
Se construye el histograma.
## [1] "Coeficiente de Asimetría"
## [1] -0.00684262
La forma del histograma sugiere que la distribución de datos tiene asimetría negativa, lo cual se concluye también en base al coeficiente de asimetría que es menor cero, finalmente, la línea azul corresponde al valor de la media aritmética.
Debido a la forma que tiene la nube de puntos es razonable suponer que
las variables tienen una dependencia lineal, debido a que los puntos
muestran una tendencia a que un aumenta en la variable predictora
(Precio del Petróleo en dólaress) coincide con un aumento de la variable
de respuesta (Precio de las acciones en Ecopetrol en pesos). También se
puede observar una linea recta de tendencia ascendente, por lo que se
supone debe haber una correlación positiva entre las variables.
Ahora se calcula la covarianza para determinar cómo se comporta una variable en función de lo que hace la otra, es decir, el grado de variación lineal conjunta:
cov(Y, X)
## [1] 117.5162
Dado su valor positivo se espera una asociación directa lineal (positiva), es decir, a grandes valores de la variable Precio del Petróleo se espera grandes valores del precio de las acciones de Ecopetrol,análogamente se cumple para valores pequeños.
##
## Call:
## lm(formula = Y ~ X)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59.90 -40.74 -15.94 33.40 136.82
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 177.768 232.828 0.764 0.45627
## X 26.192 6.542 4.004 0.00102 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared: 0.5005, Adjusted R-squared: 0.4692
## F-statistic: 16.03 on 1 and 16 DF, p-value: 0.001024
El modelo estimado de regresión lineal simple presenta la siguiente ecuación para la variable de respuesta (Precio de aaciones de Ecopetrol: y) en función la variable predictora (Precio del Petróleo: x) \(y=β_0+β_1x+e\), reemplazando los coeficientes se obtiene: \(y=177.76+26.19x+e\).
El coeficiente \(β_0=177.76\) indica el precio estimado de las acciones en caso de tener precio nulo para el petróleo.
El coeficiente \(β_1=26.19\) corresponde al valor estimado de la pendiente de la línea recta que modela la relación entre las variables, significa que por cada aumento unitario en la variable predictora “Precio del petróleo en dólares” hay un aumento de \(26.19\) (pesos) en la variable de respuesta “Precio de las acciones de Ecopetrol”.
Según el resumen anterior del modelo, se puede observar los siguientes valores para el coeficiente de determinación y el ajustado: \(R^2=0.5005\), esto quiere decir, que la bondad del ajuste de la recta de regresión explica el \(50.05\%\) de la variable Precio de las Acciones de Ecopetrol en COP con respecto al Precio del Petróleo en dólares.
## 2.5 % 97.5 %
## X 12.3239 40.06037
Con un nivel de significancia del \(5\%\) se estima que por cada aumento unitario en la variable Precio del Petróleo en dólares se espera un aumento en la variable dependiente Precio de acciones de Ecopetrol en COP entre \(12.32\) y \(40.06\), con lo que se puede concluir que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.
Ahora se realiza una prueba de hipótesis con \(H_0: β_1=0\) y \(H_a: β_1≠0\), con igual nivel de significancia igual al intervalo de confianza, el modelo muestra que el p-valor \(0.00102\) está por debajo del \(5\%\), por lo que estadísticamente no se puede rechazar la hipótesis alternativa, concluyendo que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.
Primero se realiza el análisis gráfico:
Según el gráfico de Residuales vs Valores Ajustados, se observa un
patrón diferente a una aleatoriedad, por lo que puede existir una
transformación sobre la variables que mejore los indicadores del
modelo.
El gráfico normal QQ muestra que los puntos están bien ajustado a la linea recta, por lo que la normalidad parece razonable.
Se realiza un análisis de la variabilidad (ANOVA):
anova(modelo)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X 1 52326 52326 16.03 0.001024 **
## Residuals 16 52228 3264
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se evidencia que el p-valor está por debajo del nivel de significancia del \(5\%\) por lo que se concluye que el Precio del Petrólea si influye de manera significativa sobre el Precio de las acciones de Ecopetrol
Debido al gráfico de Residuales vs Valores ajustados, se proponen transformaciones para observar si el modelo se ajusta de mejor manera.
##
## Call:
## lm(formula = Y ~ log(X))
##
## Residuals:
## Min 1Q Median 3Q Max
## -61.16 -40.91 -14.21 32.96 134.99
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2135.3 790.5 -2.701 0.015730 *
## log(X) 908.9 221.5 4.104 0.000829 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 56.42 on 16 degrees of freedom
## Multiple R-squared: 0.5128, Adjusted R-squared: 0.4824
## F-statistic: 16.84 on 1 and 16 DF, p-value: 0.0008295
Se aplicó logaritmo natural sobre la variable Precio del Petróleo, en resumen, el nuevo modelo presenta un par de coeficientes con buenas estimaciones debido a los p-valores, también se tiene un coeficiente de determinación que indica un porcentaje de explicación del \(51.28\%\) (mayor al modelo inicial) de la variable Precio de Acciones de Ecopetrol con respecto a Precio del Petróleo, el gráfico QQ sugiere que la distribución de datos proviene de una distribución normal, sin embargo, el gráfico de residuales indica que la varianza no es constante, mostrando un comportamiento de puntos no aleatorios.
##
## Call:
## lm(formula = log(Y) ~ log(X))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.05435 -0.03615 -0.01306 0.02928 0.11927
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.9229 0.7072 5.547 4.42e-05 ***
## log(X) 0.8646 0.1981 4.364 0.000482 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.05048 on 16 degrees of freedom
## Multiple R-squared: 0.5434, Adjusted R-squared: 0.5149
## F-statistic: 19.04 on 1 and 16 DF, p-value: 0.0004824
##
## Call:
## lm(formula = log(Y) ~ X)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.05440 -0.03599 -0.01496 0.02970 0.12101
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.122915 0.208590 29.354 2.42e-15 ***
## X 0.024917 0.005861 4.251 0.000609 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.05119 on 16 degrees of freedom
## Multiple R-squared: 0.5304, Adjusted R-squared: 0.5011
## F-statistic: 18.07 on 1 and 16 DF, p-value: 0.0006095
De los modelos ajustado, el que presenta mejor coeficiente de determinación es el logarítmico, en todos los caso el gráfico QQ indica que los datos están ajustados y provienen de una distribución normal, pero el gráfico de residuales indica que la varianza no es constante.
Se compara el modelo inicial con el modelo ajustado #2. En ambos casos el gráfico QQ permite suponer que la distribución de datos sigue una distribución normal, pero el gráfico de residuales no indica aleatoriedad por lo que la varianza no es constante, la diferencia radica en el coeficiente de determinación \(r^2\) que pasó de \(0.5005\) a \(0.5434\), por lo que el porcentaje de explicación de la variable de respuesta aumentó en un \(4.29\%\), para dicho modelo ajustado, los p-valores indican mejor estimación sobre los parámetros.