`` 1. Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia.
## [1] 0.7074373
##
## Call:
## lm(formula = Precio_accion ~ Precio_WTIxBarril)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59.90 -40.74 -15.94 33.40 136.82
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 177.768 232.828 0.764 0.45627
## Precio_WTIxBarril 26.192 6.542 4.004 0.00102 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared: 0.5005, Adjusted R-squared: 0.4692
## F-statistic: 16.03 on 1 and 16 DF, p-value: 0.001024
analisis: En la representacion grafica y el modelo de correlacion se puede observar que la relacion entre el precion del barril y el precio de la accion es fuerte con un 0,7 es decir el incremento del petroleo tiene influencia directa sobre el precio de las acciones.
Por otro lado de acuerdo a la ecuacion donde Bo=177.768 y B1=26.192 y el r2 es de 0.4692, con esto podemos determinar que el precio de la accion tendria un costo normal de 177,768 pesos sin embargo puede tener una variacion de 26,192 veces.
Hipótesis para ßo: H0:β0=0,Ha:βo≠0 p−value=0.45627 Ya que p-value > 0.05, no se rechaza Ho: ßo = 0
Hipótesis para ß1: H0:β1=0,Ha:β1≠0 p−value=0.00102∗∗ Ya que p-value < 0.05, se rechaza Ho: ß1 = 0
Al revisar las hipotesis podemos observar en que para ß1 en donde se rechaza tiene un nivel de significancia lo que nos corrobora que el precio del barril es una variable significativa respecto al precio de la accion.
Tenemos los coeficiente βo=177.768,β1=26.192
Para este caso tendriamos que por cada unidad que incremente el precio del barril de petroleo osea (variable independiente), se aumentara en 26.192 el precio de la acción de Ecopetrol, teniendo en cuenta que como ß1 es diferente de cero (Hipótesis para ß1), se considera que es significativo para el modelo.
Supuesto 1: Los errores del modelo tienen media cero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -59.90 -40.74 -15.94 0.00 33.40 136.82
##
## One Sample t-test
##
## data: mod$residuals
## t = -4.2309e-16, df = 17, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -27.56364 27.56364
## sample estimates:
## mean of x
## -5.527407e-15
como en este caso p-value = 1 > α = 0.05, entonces podriamos afirmar que se cuenta con evidencia para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.
Supuesto 2 : Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: mod
## GQ = 0.17924, df1 = 7, df2 = 7, p-value = 0.9813
## alternative hypothesis: variance increases from segment 1 to 2
En este caso se puede observar que p-value = 0.9813 > α =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razon que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razon los errores tienen varianza constante, el supuesto se cumple.
Supuesto 3 : Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: mod$residuals
## W = 0.89259, p-value = 0.04276
Para este caso se observa Como p-value = 0.04276 < α = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distibuyen de forma normal, el supuesto no se cumple.
Supuesto 4 : Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: mod
## DW = 0.74504, p-value = 0.0004666
## alternative hypothesis: true autocorrelation is greater than 0
Para este supuesto Como p-value = 0.0004666 < α = 0.05, por lo tanto tendriamos que se rechaza la hipótesis nula, ya que los errores no son indepentientes, el supuesto no se cumple.
Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que β1 es diferente de cero, por tanto es significativo en el modelo, y que R2 = 0.4692 evidenciando que la variable Precio_barril de petroleo explica el 46% del precio de las acciones de la empresa Ecopetrol, se puede indicar que no es recomendable el uso de este modelo para predecir el precio de la acción en Ecopetrol, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente.
La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:
##
## Call:
## lm(formula = SMLM ~ INFLACION)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75463 -63456 -42854 17623 263207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 648486 58947 11.00 1.4e-08 ***
## INFLACION -39489 10151 -3.89 0.00145 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared: 0.5022, Adjusted R-squared: 0.469
## F-statistic: 15.13 on 1 and 15 DF, p-value: 0.00145
Por otro lado de acuerdo a la ecuacion donde Bo=648486 y B1=-39489 y el r2 es de 0.469, con esto podemos determinar que el salario minimo tendria un valor normal de 648486 pesos sin embargo puede tener una variacion de -39489 pesos
considero que teniendo en cuenta los resultados obtenidos la linealidad se podria validar cuando realicemos el desarrollo en el punto d con los supuestos.
## [1] -0.7086581
analisis: En la representacion grafica y el modelo de correlacion se puede observar que la relacion entre la inflaccion y el salario minimo es fuerte con un -0,7 es decir el incremento de la inflacion tiene influencia directa sobre el salario.
A continuación se muestra el modelo ajustado acorde a los resultados obtenidos anteriormente.
Tenemos los coeficiente βo=648486,β1=-39489
Para este caso tendriamos que por cada unidad que incremente la inflacion en colombia osea (variable independiente), se tendira una variacion de -39489 en el salario minimo, teniendo en cuenta que como ß1 es diferente de cero (Hipótesis para ß1), se considera que es significativo para el modelo.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -75463 -63456 -42854 0 17623 263207
##
## One Sample t-test
##
## data: mod_inflacion$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -46862.45 46862.45
## sample estimates:
## mean of x
## -1.491304e-12
como en este caso p-value = 1 > α = 0.05, entonces podriamos afirmar que se cuenta con evidencia para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.
Supuesto 2 : Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: mod_inflacion
## GQ = 140.68, df1 = 7, df2 = 6, p-value = 3.171e-06
## alternative hypothesis: variance increases from segment 1 to 2
En este caso se puede observar que p-value = 3.171e-06 > α =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razon que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razon los errores tienen varianza constante, el supuesto se cumple.
Supuesto 3 : Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: mod_inflacion$residuals
## W = 0.78826, p-value = 0.001407
Para este caso se observa Como p-value = 0.001407 < α = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distibuyen de forma normal, el supuesto no se cumple.
Supuesto 4 : Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: mod_inflacion
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0
Para este supuesto Como p-value = 0.0002714 < α = 0.05, por lo tanto tendriamos que se rechaza la hipótesis nula, ya que los errores no son indepentientes, el supuesto no se cumple.
Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que β1 es diferente de cero, por tanto es significativo en el modelo, y que R2 = 0.4692 evidenciando que la variable de la inflacion explica el 46% del salario minimo en colombia, se puede indicar que no es recomendable el uso de este modelo para predecir el salario minimo, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente.
##
## Apartamento
## Zona Norte 1077
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 65.0 132.0 220.0 233.8 320.0 495.0
## # A tibble: 5 x 12
## Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## <chr> <chr> <dbl> <dbl> <dbl> <chr> <dbl>
## 1 Zona Norte 2 3 135 56 1 1
## 2 Zona Norte NA 3 78 54 2 1
## 3 Zona Norte NA 5 340 106 2 2
## 4 Zona Norte 1 3 135 103 1 3
## 5 Zona Norte 1 3 75 54 1 2
## # ... with 5 more variables: Habitaciones <dbl>, Tipo <chr>, Barrio <chr>,
## # cordenada_longitud <dbl>, Cordenada_latitud <dbl>
Tenemos que al llevar a cabo los filtros se obtiene un total de 1077 registros, y observamos que todos los puntos no están la misma ubicacion en la zona norte de la ciudad, ya que algunos se evidencian en otros sitios de la ciudad. Esto nos lleva a deducir que los que están por fuera de la Zona Norte corresponde a errores en la digitación al momento de registrar los datos.
Analisis: Como se visualiza en las graficas existe una relación directa entre el precio de la vivienda y el area construida, esto quiere decir que lo que se espera es que a mayor area la vivienda su precio en promedio tambien sera mayor, por otro lado observamos que las lineas a medida que el estrato aumenta su intercepto es mayor indicando que el precio por estrato tambien se incrementa y de igual forma se puede evidenciar que el precio de la vivienda puede incrementarse cuando esta cuenta con mayor número de parqueaderos.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + tiene_parqueadero,
## data = Datos_explo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -242.442 -31.795 -0.944 27.529 223.738
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 49.03852 5.03387 9.742 < 2e-16 ***
## Area_contruida 1.04332 0.06037 17.281 < 2e-16 ***
## Estrato4 61.87913 4.84558 12.770 < 2e-16 ***
## Estrato5 146.16586 4.98649 29.312 < 2e-16 ***
## Estrato6 204.47149 9.27649 22.042 < 2e-16 ***
## tiene_parqueaderoTRUE 15.54122 3.98543 3.900 0.000102 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 54.8 on 1071 degrees of freedom
## Multiple R-squared: 0.7541, Adjusted R-squared: 0.7529
## F-statistic: 656.9 on 5 and 1071 DF, p-value: < 2.2e-16
En el modelo estimado donde β0=49.038 y β1=1,043 y β3=61.87913, 146.16586, 204.47149 y β4=15.54122 En donde podemos interpretar por un aumento de 1 metro cuadrado en el área construida el precio de la vivienda aumentará por encima de un millon, por cada parqueadero adicional el precio de la vivienda aumentará por encima de los 15 millones de pesos y por un aumento en el estrato socioeconomico el valor de la vivienda podría aumentar dependient el estrato.
Supuesto 1: Los errores del modelo tienen media cero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -242.442 -31.795 -0.944 0.000 27.529 223.738
##
## One Sample t-test
##
## data: modelo_lineal$residuals
## t = -3.1033e-15, df = 1076, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -3.268683 3.268683
## sample estimates:
## mean of x
## -5.169582e-15
como en este caso p-value = 1 > α = 0.05, entonces podriamos afirmar que se cuenta con evidencia para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.
Supuesto 2 : Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: modelo_lineal
## GQ = 1.9187, df1 = 533, df2 = 532, p-value = 4.682e-14
## alternative hypothesis: variance increases from segment 1 to 2
En este caso se puede observar que p-value = 4.682e-14> α =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razon que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razon los errores tienen varianza constante, el supuesto se cumple.
Supuesto 3 : Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: modelo_lineal$residuals
## W = 0.98467, p-value = 3.233e-09
Para este caso se observa Como p-value = 3.233e-09 >α = 0.05, por tal motivo se acepta la hipótesis nula, esto quiere decir que, los errores se distibuyen de forma normal, y el supuesto se cumple.
Supuesto 4 : Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: modelo_lineal
## DW = 1.768, p-value = 5.989e-05
## alternative hypothesis: true autocorrelation is greater than 0
Para este supuesto Como p-value = 5.989e-05 < α = 0.05, por lo tanto tendriamos que se confirma la hipótesis nula, ya que los errores son indepentientes, el supuesto se cumple.
## 1
## 230.7909
Realianzo el proceso se puede evidenciar que el precio medio estimado del apartamento es de 231 millones, y al compararlo con el precio de 450 millones podemos observar que se encuentra sobre valorado,Sin embargo el modelo presenta limitaciones en la predición y por tanto no incorpora ciertas variables adicionales clave como ( piscina, gym, canchas… parques …)que podrian ser de gran interes para el comprador y justificar el incremento adicional al precio
## # A tibble: 5 x 12
## Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## <chr> <chr> <dbl> <dbl> <dbl> <chr> <dbl>
## 1 Zona Norte 4 4 380 123 1 3
## 2 Zona Norte NA 4 370 117 NA 4
## 3 Zona Norte NA 4 310 102 NA 2
## 4 Zona Norte 1 4 250 160 NA 2
## 5 Zona Norte NA 4 350 130 1 2
## # ... with 5 more variables: Habitaciones <dbl>, Tipo <chr>, Barrio <chr>,
## # cordenada_longitud <dbl>, Cordenada_latitud <dbl>
Si tenemos en cuenta que la persona tiene un crédito preaprobado por un valor de 400 millones, se sugiere al comprador ofertas de apartamento en zona norte, estrato 4 y con posibilidad de 1 o 2 parqueaderos y área construida mayor a 100mts como se evidencia en el mapa.
## # A tibble: 3 x 5
## finca mg peso diametro altura
## <chr> <chr> <dbl> <dbl> <dbl>
## 1 FINCA_1 GENOTIPO_1 13.7 4.7 5
## 2 FINCA_1 GENOTIPO_1 14.6 5.3 5.6
## 3 FINCA_1 GENOTIPO_1 15.9 4.8 5.8
## [1] 0.908123
## [1] 0.8582009
En este resultado podemos concluir que existe una buena correlación positiva entre las variables, diametro y altura en relacion on el peso de los arboles.
##
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
##
## Coefficients:
## (Intercept) diametro altura
## -9.1205 4.7395 0.3132
El modelo estimado el peso= -9.1205, que seria B0 y B1= 4.7395 y B2=0.3132 Visualizando los datos se puede concluir que si el diámetro del árbol aumenta en una unidad, se esperaria segun el modelo que el peso del árbol aumente en 4.7395 unidades.Pasa lo mismo con con el otro parametro donde por cada metro adicional en la altura del árbol, se esperaría que el peso del árbol aumente en 0.3132 unidades.
##
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3083 -2.5121 0.1608 2.0088 11.7446
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.1205 1.4305 -6.376 8.44e-09 ***
## diametro 4.7395 0.7128 6.649 2.49e-09 ***
## altura 0.3132 0.5751 0.544 0.587
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared: 0.8253, Adjusted R-squared: 0.8213
## F-statistic: 205.5 on 2 and 87 DF, p-value: < 2.2e-16
Por otra parte se observa en la tabla del summary que el coeficiente R2 ajustado toma un valor de 0.8213, lo cual indica que el peso del árbol es explicado por el modelo con un 83% de efectividad.
ANALISIS DE LOS SUPUESTOS
Supuesto 1: Los errores del modelo tienen media cero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -6.3083 -2.5121 0.1608 0.0000 2.0088 11.7446
##
## One Sample t-test
##
## data: mod_arboles$residuals
## t = 2.8727e-16, df = 89, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.7141455 0.7141455
## sample estimates:
## mean of x
## 1.032498e-16
Supuesto 2 : Los errores del modelo tienen varianza constante.
##
## Goldfeld-Quandt test
##
## data: mod_arboles
## GQ = 1.587, df1 = 42, df2 = 42, p-value = 0.06927
## alternative hypothesis: variance increases from segment 1 to 2
Supuesto 3 : Los errores del modelo se distribuyen normal
##
## Shapiro-Wilk normality test
##
## data: mod_arboles$residuals
## W = 0.95745, p-value = 0.004966
Supuesto 4 : Los errores del modelo son independientes
##
## Durbin-Watson test
##
## data: mod_arboles
## DW = 1.0481, p-value = 4.105e-07
## alternative hypothesis: true autocorrelation is greater than 0
A traves de los graficos y datos se observa que se cumplen 3 supuestos de 4, el unico que no se cumple es el de normalidad.
## prom_altura prom_diametro
## 1 6.634444 5.445556
## media_altura media_diametro
## 1 6.45 5.4
## fit lwr upr
## 1 21.50835 20.67195 22.34476
El promedio esperado en peso para un arbol cuyas dimensiones pueda tener un diametro de 6 y una altura de 7 metros seria de 21.5 y el intervalo de confianza de la prediccion nos indica que un arbol puede llegar a pesar entre 20.6 y 22,3 con un 95% de confianza del modelo.
VALIDACION CRUZADA
## [1] 80 100 72 34 39 75 50 54 51 70 74 92 40 57 26 9 46 45 7
## [20] 15 97 79 2 4 65 25 27 67 37 78 71 17 42 22 58 31 21 88
## [39] 66 86 99 60 63 85 47 95 84 12 56 30 82 35 29 10 68 33 28
## [58] 87 8 90 1 98 91 11 76 81 69 20 32 24 38 94 41 3 64 16
## [77] 55 5 93 23
## # A tibble: 6 x 5
## finca mg peso diametro altura
## <chr> <chr> <dbl> <dbl> <dbl>
## 1 FINCA_3 GENOTIPO_1 13.2 4.4 4.6
## 2 <NA> <NA> NA NA NA
## 3 FINCA_3 GENOTIPO_2 27.9 6.7 8.3
## 4 FINCA_2 GENOTIPO_2 30.8 7.9 10.9
## 5 FINCA_2 GENOTIPO_1 20.8 6.2 6.8
## 6 FINCA_3 GENOTIPO_2 23.4 5.9 7.5
## # A tibble: 6 x 5
## finca mg peso diametro altura
## <chr> <chr> <dbl> <dbl> <dbl>
## 1 FINCA_1 GENOTIPO_2 19.3 6.3 7.9
## 2 FINCA_1 GENOTIPO_1 7.47 2.2 3.5
## 3 FINCA_1 GENOTIPO_1 7.87 3.1 4
## 4 FINCA_1 GENOTIPO_2 18.7 6.3 8.1
## 5 FINCA_1 GENOTIPO_2 12 4.9 7
## 6 FINCA_2 GENOTIPO_1 9.97 3.7 4.4
##
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles_modelar)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.8379 -2.5549 -0.2308 1.8237 12.1781
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -8.5150 1.6423 -5.185 2.11e-06 ***
## diametro 4.1801 0.8101 5.160 2.32e-06 ***
## altura 0.6569 0.6317 1.040 0.302
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.398 on 68 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.8045, Adjusted R-squared: 0.7988
## F-statistic: 139.9 on 2 and 68 DF, p-value: < 2.2e-16
## 1 2 3 4 5 6 7 8
## 23.008483 2.980089 7.070569 23.139853 16.565232 9.841345 30.681857 30.657962
## 9 10 11 12 13 14 15 16
## 23.253328 23.098063 30.305641 34.157275 24.835772 14.940998 21.294668 24.638717
## 17 18 19
## 12.194116 17.449034 17.998410
## peso_real peso_predic error_peso
## 1 19.34 23.008483 -3.6684827
## 2 7.47 2.980089 4.4899114
## 3 7.87 7.070569 0.7994314
## 4 18.69 23.139853 -4.4498531
## 5 12.00 16.565232 -4.5652320
## 6 9.97 9.841345 0.1286546
## 7 32.44 30.681857 1.7581435
## 8 32.69 30.657962 2.0320385
## 9 22.01 23.253328 -1.2433282
## 10 20.24 23.098063 -2.8580629
## 11 33.42 30.305641 3.1143593
## 12 45.41 34.157275 11.2527250
## 13 23.02 24.835772 -1.8157721
## 14 13.98 14.940998 -0.9609979
## 15 24.47 21.294668 3.1753315
## 16 27.45 24.638717 2.8112834
## 17 13.01 12.194116 0.8158839
## 18 17.96 17.449034 0.5109660
## 19 21.12 17.998410 3.1215896
## [1] 2.819581
## [1] 13.30784
## [1] 3.706684
Realizando el analisis de vailidacion cruzada se puede observar que el modelo puede llegar errar en casi un 15% del peso promedio de acuerdo al MAE y la desviación estándar de la varianza es de 4,69 de acuerdo al RMSE.