Preguntas

1. Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia. Se tienen los siguientes precios

Inciso a: Proponga un modelo de regresión lineal simple que permita predecir el valor de las Acciones de Ecopetrol con base en el Precio del barril de petróleo en Colombia. Indique la ecuación de regresión y el valor del \(/R^{2}\).

Solución:

Se cargan los datos con las siguientes variables:

Y=c(1090, 1170, 1160, 1230, 1155, 1165, 1205, 1170, 1150, 1130, 1110, 1105, 1085, 1060, 1035, 1015, 955, 961)

X=c(35.62,36.31,37.35,34.95,34.53,35.81,36.14,37.50,37.80,36.81,37.87,37.04, 36.76,35.97,33.97,33.27,31.41,30.44)

Se puede observar que la base de datos cuenta con dos variables cuantitativas continuas llamadas \(Y\)=Precio Acciones de Ecopetrol (en pesos) y \(X\)=Precio del Petróleo WTI en dólares por barril con un total de 18 observaciones.

Resumen numérico y gráfico para Precio Acciones de Ecopetrol (en pesos)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     955    1066    1120    1108    1164    1230
## [1] "Coeficiente_de_Variación"
## [1] 7.075453

Sus valores medidos en pesos colombianos, se encuentran en el intervalo de \(V_{min}=955\) a \(V_{max}=1230\), con un promedio de \(\bar{y}=1108\) y una variación del \(7.07%\), los tres cuartiles corresponden a \(Q_1=1066\), \(Q_2=1120\) y \(Q_3=1164\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):

Se construye el histograma.

## [1] "Coeficiente de Asimetría"
## [1] -0.004484305

La forma del histograma y la curva de densidad sugiere que la distribución de datos tiene asimetría negativa, lo cual se concluye también en base al coeficiente de asimetría \(A_s<0\), finalmente, la línea azul corresponde al valor de la media aritmética.

Resumen numérico y gráfico para Precio del Petróleo WTI en dólares por barril

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   30.44   34.63   36.05   35.53   36.98   37.87
## [1] "Coeficiente_de_Variación"
## [1] 5.961582

Sus valores (en \(dólares\)) se encuentran en el intervalo de \(V_{min}=30.44\) a \(V_{max}=37.87\), con un promedio de \(\bar{x}=1092\) y una variación del \(7.54\%\), los tres cuartiles corresponden a \(Q_1=34.63\), \(Q_2=36.05\) y \(Q_3=36.98\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):

Se construye el histograma.

## [1] "Coeficiente de Asimetría"
## [1] -0.00684262

La forma del histograma sugiere que la distribución de datos tiene asimetría negativa, lo cual se concluye también en base al coeficiente de asimetría que es menor cero, finalmente, la línea azul corresponde al valor de la media aritmética.

Análisis exploratorio bivariado de datos.

Debido a la forma que tiene la nube de puntos es razonable suponer que las variables tienen una dependencia lineal, debido a que los puntos muestran una tendencia a que un aumenta en la variable predictora (Precio del Petróleo en dólaress) coincide con un aumento de la variable de respuesta (Precio de las acciones en Ecopetrol en pesos). También se puede observar una linea recta de tendencia ascendente, por lo que se supone debe haber una correlación positiva entre las variables.

Ahora se calcula la covarianza para determinar cómo se comporta una variable en función de lo que hace la otra, es decir, el grado de variación lineal conjunta:

cov(Y, X)
## [1] 117.5162

Dado su valor positivo se espera una asociación directa lineal (positiva), es decir, a grandes valores de la variable Precio del Petróleo se espera grandes valores del precio de las acciones de Ecopetrol,análogamente se cumple para valores pequeños.

Estimación del modelo de regresión lineal simple

## 
## Call:
## lm(formula = Y ~ X)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.90 -40.74 -15.94  33.40 136.82 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  177.768    232.828   0.764  0.45627   
## X             26.192      6.542   4.004  0.00102 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared:  0.5005, Adjusted R-squared:  0.4692 
## F-statistic: 16.03 on 1 and 16 DF,  p-value: 0.001024

El modelo estimado de regresión lineal simple presenta la siguiente ecuación para la variable de respuesta (Precio de aaciones de Ecopetrol: y) en función la variable predictora (Precio del Petróleo: x) \(y=β_0+β_1x+e\), reemplazando los coeficientes se obtiene: \(y=177.76+26.19x+e\).

El coeficiente \(β_0=177.76\) indica el precio estimado de las acciones en caso de tener precio nulo para el petróleo.

El coeficiente \(β_1=26.19\) corresponde al valor estimado de la pendiente de la línea recta que modela la relación entre las variables, significa que por cada aumento unitario en la variable predictora “Precio del petróleo en dólares” hay un aumento de \(26.19\) (pesos) en la variable de respuesta “Precio de las acciones de Ecopetrol”.

Indicador de bondad.

Según el resumen anterior del modelo, se puede observar los siguientes valores para el coeficiente de determinación y el ajustado: \(R^2=0.5005\), esto quiere decir, que la bondad del ajuste de la recta de regresión explica el \(50.05\%\) de la variable Precio de las Acciones de Ecopetrol en COP con respecto al Precio del Petróleo en dólares.

Inferencia sobre el modelo

Intervalo de confianza (95%) para el coeficiente \(β_1\)

##     2.5 %   97.5 %
## X 12.3239 40.06037

Con un nivel de significancia del \(5\%\) se estima que por cada aumento unitario en la variable Precio del Petróleo en dólares se espera un aumento en la variable dependiente Precio de acciones de Ecopetrol en COP entre \(12.32\) y \(40.06\), con lo que se puede concluir que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.

Prueba de Hipótesis

Ahora se realiza una prueba de hipótesis con \(H_0: β_1=0\) y \(H_a: β_1≠0\), con igual nivel de significancia igual al intervalo de confianza, el modelo muestra que el p-valor \(0.00102\) está por debajo del \(5\%\), por lo que estadísticamente no se puede rechazar la hipótesis alternativa, concluyendo que a un nivel de confianza de \(95\%\) el coeficiente \(β_1\) es diferente de cero.

Validación de supuestos del modelo de regresión lineal

Primero se realiza el análisis gráfico:

Según el gráfico de Residuales vs Valores Ajustados, se observa un patrón diferente a una aleatoriedad, por lo que puede existir una transformación sobre la variables que mejore los indicadores del modelo.

El gráfico normal QQ muestra que los puntos están bien ajustado a la linea recta, por lo que la normalidad parece razonable.

Se realiza un análisis de la variabilidad (ANOVA):

anova(modelo)
## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## X          1  52326   52326   16.03 0.001024 **
## Residuals 16  52228    3264                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se evidencia que el p-valor está por debajo del nivel de significancia del \(5\%\) por lo que se concluye que el Precio del Petrólea si influye de manera significativa sobre el Precio de las acciones de Ecopetrol

Transformaciones sobre el modelo

Debido al gráfico de Residuales vs Valores ajustados, se proponen transformaciones para observar si el modelo se ajusta de mejor manera.

Modelo Ajustado con logaritmo

## 
## Call:
## lm(formula = Y ~ log(X))
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -61.16 -40.91 -14.21  32.96 134.99 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2135.3      790.5  -2.701 0.015730 *  
## log(X)         908.9      221.5   4.104 0.000829 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 56.42 on 16 degrees of freedom
## Multiple R-squared:  0.5128, Adjusted R-squared:  0.4824 
## F-statistic: 16.84 on 1 and 16 DF,  p-value: 0.0008295

Se aplicó logaritmo natural sobre la variable Precio del Petróleo, en resumen, el nuevo modelo presenta un par de coeficientes con buenas estimaciones debido a los p-valores, también se tiene un coeficiente de determinación que indica un porcentaje de explicación del \(51.28\%\) (mayor al modelo inicial) de la variable Precio de Acciones de Ecopetrol con respecto a Precio del Petróleo, el gráfico QQ sugiere que la distribución de datos proviene de una distribución normal, sin embargo, el gráfico de residuales indica que la varianza no es constante, mostrando un comportamiento de puntos no aleatorios.

Modelo Ajustado con doble logaritmo

## 
## Call:
## lm(formula = log(Y) ~ log(X))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.05435 -0.03615 -0.01306  0.02928  0.11927 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.9229     0.7072   5.547 4.42e-05 ***
## log(X)        0.8646     0.1981   4.364 0.000482 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.05048 on 16 degrees of freedom
## Multiple R-squared:  0.5434, Adjusted R-squared:  0.5149 
## F-statistic: 19.04 on 1 and 16 DF,  p-value: 0.0004824

Modelo Ajustado Exponencial

## 
## Call:
## lm(formula = log(Y) ~ X)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.05440 -0.03599 -0.01496  0.02970  0.12101 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.122915   0.208590  29.354 2.42e-15 ***
## X           0.024917   0.005861   4.251 0.000609 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.05119 on 16 degrees of freedom
## Multiple R-squared:  0.5304, Adjusted R-squared:  0.5011 
## F-statistic: 18.07 on 1 and 16 DF,  p-value: 0.0006095

De los modelos ajustado, el que presenta mejor coeficiente de determinación es el logarítmico, en todos los caso el gráfico QQ indica que los datos están ajustados y provienen de una distribución normal, pero el gráfico de residuales indica que la varianza no es constante.

Comparación entre los modelos y conclusiones finales

Se compara el modelo inicial con el modelo ajustado #2. En ambos casos el gráfico QQ permite suponer que la distribución de datos sigue una distribución normal, pero el gráfico de residuales no indica aleatoriedad por lo que la varianza no es constante, la diferencia radica en el coeficiente de determinación \(r^2\) que pasó de \(0.5005\) a \(0.5434\), por lo que el porcentaje de explicación de la variable de respuesta aumentó en un \(4.29\%\), para dicho modelo ajustado, los p-valores indican mejor estimación sobre los parámetros.