Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia. Se tienen los siguientes precios
## Fecha Precio_accion Precio_WTIxBarril
## Min. :2015-12-14 00:00:00 Min. : 955 Min. :30.44
## 1st Qu.:2015-12-21 06:00:00 1st Qu.:1066 1st Qu.:34.63
## Median :2015-12-28 12:00:00 Median :1120 Median :36.05
## Mean :2015-12-28 14:40:00 Mean :1108 Mean :35.53
## 3rd Qu.:2016-01-05 18:00:00 3rd Qu.:1164 3rd Qu.:36.98
## Max. :2016-01-13 00:00:00 Max. :1230 Max. :37.87
## tibble [18 × 3] (S3: tbl_df/tbl/data.frame)
## $ Fecha : POSIXct[1:18], format: "2015-12-14" "2015-12-15" ...
## $ Precio_accion : num [1:18] 1090 1170 1160 1230 1155 ...
## $ Precio_WTIxBarril: num [1:18] 35.6 36.3 37.4 35 34.5 ...
Precio_accion
Según la tabla de frecuencia, el rango donde se concentran los precios de las acciones es (1.123 - 1.178] se concentran en un 39%, seguido del rango (1.067 - 1.122] en un 22%, en total en el rango de (1.067 - 1.178] se concentra el 61% de los precios. En éste rango se ubica el precio promedio de 1.108.
En el gráfico de boxplot observamos que el 50% del precios de las acciones se encuentra en el rango de 1.060 y 1.165. La posición de la mediana representa asimetría negativa o sesgada a la izquierda.
Precio_WTIxBarril
Para el caso de los precios WTI x Barril el 39% de los precios se concentran en el rango (36.4 - 37.9], seguido del rango (34.9 - 36.4] que concentra el 33%. El rango (34.9 - 37.9] concentran el 72% de los precios. El precio promedio es de 35.53.
En el gráfico de boxplot observamos que el 50% del precio WTI x Barril se encuentra en el rango de 34.53 y 37.04. La posición de la mediana representa asimetría negativa o sesgada a la izquierda. Se observa el valor mínimo como un valor atípico.
## [1] 0.7074373
\(R^{2}\)
## [1] 0.5004675
En la representación gráfica y el modelo de correlación se puede observar que la relación entre el precio del barril y el precio de la acción es fuerte con un 0,7 es decir el incremento del petroleo tiene influencia directa sobre el precio de las acciones.
{r. echo=FALSE, message=FALSE, warning=FALSE} g4=ggplot(data=datos,mapping= aes(x=Precio_WTIxBarril,y=Precio_accion))+geom_point()+theme_bw()+ geom_smooth() ggplotly(g4)
##
## Call:
## lm(formula = Precio_accion ~ Precio_WTIxBarril, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59.90 -40.74 -15.94 33.40 136.82
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 177.768 232.828 0.764 0.45627
## Precio_WTIxBarril 26.192 6.542 4.004 0.00102 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared: 0.5005, Adjusted R-squared: 0.4692
## F-statistic: 16.03 on 1 and 16 DF, p-value: 0.001024
La ecuación queda así:
\(PrecioAccion = 177.768 + 26.192 * PrecioWTIxBarril\)
\(R^{2} = 0.5005\), el 50% de la variabilidad de los precios de las acciones está explicada por la variabilidad conjunta de Precio_WTIxBarril
Hipótesis para \(\beta_{0}\):
\(H_{0}:\beta_{0}=0\)
\(H_{a}:\beta_{0}\neq 0\)
\(p−value\) = 0.45627 Ya que \(p-value\) > 0.05, no se rechaza \(H_{o}: \beta_{o} = 0\)
Hipótesis para \(\beta_{1}\):
\(H_{0}:β_{1}\)=0
\(H_{a}:β_{1}\)≠0 \(p−value\) =0.00102∗∗ Ya que \(p-value\) < 0.05, se rechaza \(H_{o}:\beta_{1}\) = 0
Al revisar las hipótesis podemos observar en que para \(\beta_{1}\) en donde se rechaza tiene un nivel de significancia lo que nos corrobora que el precio del barril es una variable significativa respecto al precio de la acción.
\(H_{0} ; \beta_{1} =0\) (el PrecioWTIxBarril no tiene efecto sobre Precio_accion)
\(H_{1} ; \beta_{1}\neq 0\) (el PrecioWTIxBarril tiene efecto sobre Precio_accion)
\(\alpha\) = 0.05
El \(pvalor_{\beta_{1}}\) = 0.00102 < \(\alpha\), se rechaza \(H_{0}\) : \(\beta_{1}\) = 0, por tanto \(PrecioWTIxBarril_{i}\) es una variable estadísticamente significativa en el modelo PrecioAccion.
\(PrecioAccion = 177.768 + 26.192 * PrecioWTIxBarril\)
El precio base de la acción es de 177.768 que es el intercepto de la ecuación. Cuando \(\beta_1\) = 0
Aunque el modelo da un R-Squared de 0.5005, la gráfica de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estos datos tienen un comportamiento no lineal. Mostrando una componente sistemática que se podría incorporar al modelo.
La gráfica de normalidad también evidencia la falta de linealidad del modelo
Supuesto 1: Los errores del modelo tienen media cero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -59.90 -40.74 -15.94 0.00 33.40 136.82
##
## One Sample t-test
##
## data: modelo$residuals
## t = -4.2309e-16, df = 17, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -27.56364 27.56364
## sample estimates:
## mean of x
## -5.527407e-15
En este caso \(p-value\) = 1 > \(\alpha\) = 0.05, entonces podríamos afirmar que se cuenta con evidencia para no rechazar que \(H_{0}\): \(\beta_{0}\) = 0, por tanto el supuesto se cumple.
Supuesto 2: Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: modelo
## GQ = 0.17924, df1 = 7, df2 = 7, p-value = 0.9813
## alternative hypothesis: variance increases from segment 1 to 2
En este caso se puede observar que \(p-value\) = 0.9813 > \(\alpha\) =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razón que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razón los errores tienen varianza constante, el supuesto se cumple.
Supuesto 3 : Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.89259, p-value = 0.04276
Para este caso se observa Como \(p-value\) = 0.04276 < \(\alpha\) = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distribuyen de forma normal, el supuesto no se cumple.
Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que \(\beta_1\) es diferente de cero, por tanto es significativo en el modelo, y que \(R^2\) ajustado = 0.4692 evidenciando que la variable Precio_barril de petroleo explica el 47 % del precio de las acciones de la empresa Ecopetrol, se puede indicar que no es recomendable el uso de este modelo para predecir el precio de la acción en Ecopetrol, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente. Para mejorar el modelo se podría incluir otras variables que ayudarían a explicar mejor el precio de las acciones.
Los siguientes datos corresponden a la INFLACION y al SALARIO MINIMO LEGAL MENSUAL (SMLM) desde el año 1999 para Colombia.
La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:
##
## Call:
## lm(formula = SMLM ~ INFLACION)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75463 -63456 -42854 17623 263207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 648486 58947 11.00 1.4e-08 ***
## INFLACION -39489 10151 -3.89 0.00145 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared: 0.5022, Adjusted R-squared: 0.469
## F-statistic: 15.13 on 1 and 15 DF, p-value: 0.00145
Por otro lado de acuerdo a la ecuación donde \(\beta_0\) = 648486 y \(\beta_1\) = -39489 y el \(R^2\) es de 0.469, con esto podemos determinar que el salario mínimo tendría un valor normal de 648486 pesos sin embargo puede tener una variación de -39489 pesos
Se considera que teniendo en cuenta los resultados obtenidos la linealidad se podría validar cuando realicemos el desarrollo en el punto d con los supuestos.
## [1] -0.7086581
análisis: En la representación gráfica y el modelo de correlación se puede observar que la relación entre la inflacionario y el salario mínimo es fuerte con un -0,7 es decir el incremento de la inflación tiene influencia directa sobre el salario.
A continuación se muestra el modelo ajustado acorde a los resultados obtenidos anteriormente.
Tenemos los coeficiente \(\beta_0\)= 648486,\(\beta_1\)= -39489
Para este caso tendríamos que por cada unidad que incremente la inflación en Colombia (variable independiente), se tendrpia una variación de -39489 en el salario mínimo, teniendo en cuenta que como \(\beta_1\) es diferente de cero (Hipótesis para \(\beta_1\)), se considera que es significativo para el modelo.
Supuesto 1: Los errores del modelo tienen media cero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -75463 -63456 -42854 0 17623 263207
##
## One Sample t-test
##
## data: mod_inflacion$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -46862.45 46862.45
## sample estimates:
## mean of x
## -1.491304e-12
como en este caso \(p-value\) = 1 > α = 0.05, entonces podríamos afirmar que se cuenta con evidencia para no rechazar que \(H_0\): \(\beta_0\) = 0, por tanto el supuesto se cumple.
Supuesto 2: Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: mod_inflacion
## GQ = 140.68, df1 = 7, df2 = 6, p-value = 3.171e-06
## alternative hypothesis: variance increases from segment 1 to 2
En este caso se puede observar que \(p-value\) = 3.171e-06 > \(\alpha\) =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razón que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, los errores tienen varianza constante, el supuesto se cumple.
Supuesto 3: Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: mod_inflacion$residuals
## W = 0.78826, p-value = 0.001407
Para este caso se observa Como \(p-value\) = 0.001407 < \(\alpha\) = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distribuyen de forma normal, el supuesto no se cumple.
Supuesto 4: Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: mod_inflacion
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0
Para este supuesto Como \(p-value\) = 0.0002714 < α = 0.05, por lo tanto tendríamos que se rechaza la hipótesis nula, ya que los errores no son independientes, el supuesto no se cumple.
Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que \(\beta_1\) es diferente de cero, por tanto es significativo en el modelo, y que R2 = 0.4692 evidenciando que la variable de la inflación explica el 46% del salario mínimo en Colombia, se puede indicar que no es recomendable el uso de este modelo para predecir el salario mínimo, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente.
Con base en los datos de precios de vivienda de la actividad en clase realizar un informe que contenga los siguientes puntos utilizando R y RMarkdown (publicar el informe final en Rpubs presentando código, resultados e interpretaciones).
##
## Apartamento
## Zona Norte 1077
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 65.0 132.0 220.0 233.8 320.0 495.0 3
Tenemos que al llevar a cabo los filtros se obtiene un total de 1077 registros, y observamos que todos los puntos no están la misma ubicacion en la zona norte de la ciudad, ya que algunos se evidencian en otros sitios de la ciudad. Esto nos lleva a deducir que los que están por fuera de la Zona Norte corresponde a errores en la digitación al momento de registrar los datos.
Analisis: Como se visualiza en las graficas existe una relación directa entre el precio de la vivienda y el area construida, esto quiere decir que lo que se espera es que a mayor area la vivienda su precio en promedio tambien sera mayor, por otro lado observamos que las lineas a medida que el estrato aumenta su intercepto es mayor indicando que el precio por estrato tambien se incrementa y de igual forma se puede evidenciar que el precio de la vivienda puede incrementarse cuando esta cuenta con mayor número de parqueaderos.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + tiene_parqueadero,
## data = Datos_explo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -242.442 -31.795 -0.944 27.529 223.738
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 49.03852 5.03387 9.742 < 2e-16 ***
## Area_contruida 1.04332 0.06037 17.281 < 2e-16 ***
## Estrato4 61.87913 4.84558 12.770 < 2e-16 ***
## Estrato5 146.16586 4.98649 29.312 < 2e-16 ***
## Estrato6 204.47149 9.27649 22.042 < 2e-16 ***
## tiene_parqueaderoTRUE 15.54122 3.98543 3.900 0.000102 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 54.8 on 1071 degrees of freedom
## Multiple R-squared: 0.7541, Adjusted R-squared: 0.7529
## F-statistic: 656.9 on 5 and 1071 DF, p-value: < 2.2e-16
En el modelo estimado donde \(\beta_0\) = 49.038 y \(\beta_1\) = 1,043 y \(beta_2\) = 61.87913, 146.16586, 204.47149 y \(\beta_4\) = 15.54122 En donde podemos interpretar por un aumento de 1 metro cuadrado en el área construida el precio de la vivienda aumentará por encima de un millón, por cada parqueadero adicional el precio de la vivienda aumentará por encima de los 15 millones de pesos y por un aumento en el estrato socio-economico el valor de la vivienda podría aumentar dependiente el estrato.
Supuesto 1: Los errores del modelo tienen media cero
summary(modelo_lineal$residuals)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -242.442 -31.795 -0.944 0.000 27.529 223.738
t.test(modelo_lineal$residuals, mu=0)
##
## One Sample t-test
##
## data: modelo_lineal$residuals
## t = -3.1033e-15, df = 1076, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -3.268683 3.268683
## sample estimates:
## mean of x
## -5.169582e-15
como en este caso \(p-value\) = 1 > \(\alpha\) = 0.05, entonces podríamos afirmar que se cuenta con evidencia para no rechazar que \(H_0\): \(\beta_0\) = 0, por tanto el supuesto se cumple.
Supuesto 2: Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: modelo_lineal
## GQ = 1.9187, df1 = 533, df2 = 532, p-value = 4.682e-14
## alternative hypothesis: variance increases from segment 1 to 2
En este caso se puede observar que \(p-value\) = 4.682e-14> \(\alpha\) = 0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razón que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razón los errores tienen varianza constante, el supuesto se cumple.
Supuesto 3: Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: modelo_lineal$residuals
## W = 0.98467, p-value = 3.233e-09
Para este caso se observa Como \(p-value\) = 3.233e-09 > \(\alpha\) = 0.05, por tal motivo se acepta la hipótesis nula, esto quiere decir que, los errores se distribuyen de forma normal, y el supuesto se cumple.
Supuesto 4: Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: modelo_lineal
## DW = 1.768, p-value = 5.989e-05
## alternative hypothesis: true autocorrelation is greater than 0
Para este supuesto Como \(p-value\) = 5.989e-05 < \(\alpha\) = 0.05, por lo tanto tendríamos que se confirma la hipótesis nula, ya que los errores son independientes, el supuesto se cumple.
## 1
## 230.7909
Realizando el proceso se puede evidenciar que el precio medio estimado del apartamento es de 231 millones, y al compararlo con el precio de 450 millones podemos observar que se encuentra sobre valorado,Sin embargo el modelo presenta limitaciones en la predicción y por tanto no incorpora ciertas variables adicionales clave como ( piscina, gym, canchas… parques …)que podrían ser de gran interés para el comprador y justificar el incremento adicional al precio
Si tenemos en cuenta que la persona tiene un crédito preaprobado por un valor de 400 millones, se sugiere al comprador ofertas de apartamento en zona norte, estrato 4 y con posibilidad de 1 o 2 parqueaderos y área construida mayor a 100 mts como se evidencia en el mapa.
Con base en los datos de arboles proponga un modelo de regresión lineal múltiple que permita predecir el peso del árbol en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el RMSE y MAE
## [1] 0.908123
## [1] 0.8582009
En este resultado podemos concluir que existe una buena correlación positiva entre las variables, diametro y altura en relacion on el peso de los arboles.
##
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
##
## Coefficients:
## (Intercept) diametro altura
## -9.1205 4.7395 0.3132
El modelo estimado el peso= -9.1205, que seria B0 y B1= 4.7395 y B2=0.3132 Visualizando los datos se puede concluir que si el diámetro del árbol aumenta en una unidad, se esperaria segun el modelo que el peso del árbol aumente en 4.7395 unidades.Pasa lo mismo con con el otro parametro donde por cada metro adicional en la altura del árbol, se esperaría que el peso del árbol aumente en 0.3132 unidades.
##
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3083 -2.5121 0.1608 2.0088 11.7446
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.1205 1.4305 -6.376 8.44e-09 ***
## diametro 4.7395 0.7128 6.649 2.49e-09 ***
## altura 0.3132 0.5751 0.544 0.587
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared: 0.8253, Adjusted R-squared: 0.8213
## F-statistic: 205.5 on 2 and 87 DF, p-value: < 2.2e-16
Por otra parte se observa en la tabla del summary que el coeficiente R2 ajustado toma un valor de 0.8213, lo cual indica que el peso del árbol es explicado por el modelo con un 83% de efectividad.
ANALISIS DE LOS SUPUESTOS
Supuesto 1: Los errores del modelo tienen media cero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -6.3083 -2.5121 0.1608 0.0000 2.0088 11.7446
##
## One Sample t-test
##
## data: mod_arboles$residuals
## t = 2.8727e-16, df = 89, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.7141455 0.7141455
## sample estimates:
## mean of x
## 1.032498e-16
Supuesto 2 : Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: mod_arboles
## GQ = 1.587, df1 = 42, df2 = 42, p-value = 0.06927
## alternative hypothesis: variance increases from segment 1 to 2
Supuesto 3 : Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: mod_arboles$residuals
## W = 0.95745, p-value = 0.004966
Supuesto 4 : Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: mod_arboles
## DW = 1.0481, p-value = 4.105e-07
## alternative hypothesis: true autocorrelation is greater than 0
A través de los gráficos y datos se observa que se cumplen 3 supuestos de 4, el único que no se cumple es el de normalidad.
## fit lwr upr
## 1 21.50835 20.67195 22.34476
El promedio esperado en peso para un árbol cuyas dimensiones pueda tener un diámetro de 6 y una altura de 7 metros seria de 21.5 y el intervalo de confianza de la predicción nos indica que un árbol puede llegar a pesar entre 20.6 y 22,3 con un 95% de confianza del modelo.
VALIDACION CRUZADA
## [1] 24 72 14 23 22 9 91 25 64 44 67 65 70 81 71 94 42 45 1
## [20] 38 47 28 52 53 60 89 54 55 35 87 77 85 56 41 30 76 51 20
## [39] 75 3 7 31 95 34 17 37 69 43 48 96 58 32 46 74 5 39 29
## [58] 18 16 73 100 90 61 11 62 19 27 79 80 84 12 40 98 10 8 21
## [77] 36 82 92 78
##
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles_modelar)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8753 -2.4789 0.3764 1.9314 10.9092
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -10.35714 1.60417 -6.456 1.20e-08 ***
## diametro 5.27720 0.80674 6.541 8.47e-09 ***
## altura 0.07776 0.64464 0.121 0.904
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.531 on 70 degrees of freedom
## (7 observations deleted due to missingness)
## Multiple R-squared: 0.8385, Adjusted R-squared: 0.8339
## F-statistic: 181.8 on 2 and 70 DF, p-value: < 2.2e-16
## 1 2 3 4 5 6 7 8
## 18.047425 6.864232 23.503459 1.524831 9.526156 16.526471 27.834073 23.992301
## 9 10 11 12 13 14 15 16
## 21.819218 20.717126 26.110955 25.606562 21.873647 24.038954 18.062976 11.637035
## 17
## 16.433164
## [1] 2.912503
## [1] 16.37157
## [1] 3.241812
Realizando el análisis de validacion cruzada se puede observar que el modelo puede llegar errar en casi un 15% del peso promedio de acuerdo al MAE y la desviación estándar de la varianza es de 4,69 de acuerdo al RMSE.
Realizado por:
Hermilson Cruz Valencia - Hernán A. Tunjuelo Martínez