## # A tibble: 19 × 3
## Fecha precio_acciones precio_petroleo_barril
## <chr> <chr> <chr>
## 1 Fecha precio_acciones precio_petroleo_barril
## 2 dic 14-15 1090 35.619999999999997
## 3 dic 15-15 1170 36.31
## 4 dic 16-15 1160 37.35
## 5 dic 18-15 1230 34.950000000000003
## 6 dic 21-15 1155 34.53
## 7 dic 22-15 1165 35.81
## 8 dic 23-15 1205 36.14
## 9 dic 24-15 1170 37.5
## 10 dic 28-15 1150 37.799999999999997
## 11 dic 29-15 1130 36.81
## 12 dic 30-15 1110 37.869999999999997
## 13 ene 04-16 1105 37.04
## 14 ene 05-16 1085 36.76
## 15 ene 06-16 1060 35.97
## 16 ene 07-16 1035 33.97
## 17 ene 08-16 1015 33.270000000000003
## 18 ene 12-16 955 31.41
## 19 ene 13-16 961 30.44
##
## Call:
## lm(formula = precio_acciones ~ precio_petroleo_barril, data = df_precios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59.90 -40.74 -15.94 33.40 136.82
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 177.768 232.828 0.764 0.45627
## precio_petroleo_barril 26.192 6.542 4.004 0.00102 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared: 0.5005, Adjusted R-squared: 0.4692
## F-statistic: 16.03 on 1 and 16 DF, p-value: 0.001024
De acuerdo a lo expresado la ecuación de regresión corresponde a: Y = 177.768 + 26.192 precio_barril, de igual manera el valor de R2 ajustado corresponde a:0.4692, lo que implica que el precio de las acciones de la empresa Ecopetrol es predicho por el modelo en un 46%.
Para este caso se propone la prueba de significancia de la siguiente manera:
H0:β1=β2=…=βk=0
H1=al menos uno de los βj≠0 con j=1,2,…,k,
##
## Call:
## lm(formula = precio_acciones ~ precio_petroleo_barril, data = df_precios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59.90 -40.74 -15.94 33.40 136.82
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 177.768 232.828 0.764 0.45627
## precio_petroleo_barril 26.192 6.542 4.004 0.00102 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared: 0.5005, Adjusted R-squared: 0.4692
## F-statistic: 16.03 on 1 and 16 DF, p-value: 0.001024
Se empleo la función summary y se obtiene que el valor-p F_statistic corresponde a: 0.001025, de esta manera se rechaza HO con un nivel de significancia del 5%, lo que indica que la variable precio del barril definida en el modelo es significativa, permitiendo explicar el precio de la acción.
De acuerdo a los resultados obtenidos en el literal a), como propuesta se ajusta el modelo de la siguiente manera.
_ Precio_acción∼N(μ,σ2)
_ μi= 177.768 + 26.192 precio_barril
_ Residual standard error (σ= 57.13)
Se interpreta los efectos β de la siguiente manera:
_ En caso de que el precio del barril de petróleo se incremente en una unidad, se esperaría que el precio de la acción de Ecopetrol se incremente en un valor equivalente al 26.192.
_ De esta forma el intercepto definido en 177.768 nos define que, si el precio del barril de petróleo en alguna oportunidad toma el valor de 0, la equivalencia de la acción de Ecopetrol correspondería a 177.768, caso que difícilmente se presentaría.
_ De otra manera el coeficiente R cuadrado (R2) ajustado de 0.4692 determina que el precio de la acción de Ecopetrol es explicado en este caso por el modelo en un 46%.
1)_ Para el valor de la Media cero: Se cumple, no se presenta novedad.
2)_ Varianza Constante: En la gráfica 1 correspondiente a los valores de residuales vs ajustados se puede observar que los errores presentan una tendencia, de esta manera los errores no son aleatorios, luego se puede indicar que el modelo no es lineal.
3)_ Normalidad: En el grafico 2 se puede observar que los datos no se ajustan del todo a la línea de normalidad.
4)_ Independencia: Teniendo en cuenta que los registros corresponden a datos en el tiempo, se indica que son de orden temporal.
Considerando los resultados obtenidos en el modelo propuesto, se puede indicar que no es recomendable el uso de este modelo para predecir el precio de la acción en Ecopetrol, esto debido a que el modelo propuesto no cumple con los supuestos y además el porcentaje de R2 toma un valor muy bajo.
## # A tibble: 18 × 3
## anno inflacion smlm
## <chr> <chr> <chr>
## 1 anno inflacion smlm
## 2 1999 9.23 236460
## 3 2000 8.75 260100
## 4 2001 7.65 286000
## 5 2002 6.99 309000
## 6 2003 6.49 332000
## 7 2004 5.5 358000
## 8 2005 4.8499999999999996 381500
## 9 2006 4.4800000000000004 408000
## 10 2007 5.69 433700
## 11 2008 7.67 461500
## 12 2009 2 496900
## 13 2010 3.17 515000
## 14 2011 3.73 535600
## 15 2012 2.44 566700
## 16 2013 1.94 589500
## 17 2014 3.66 616027
## 18 2015 6.77 644350
La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:
##
## Call:
## lm(formula = smlm ~ inflacion, data = df_salario)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75463 -63456 -42854 17623 263207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 648486 58947 11.00 1.4e-08 ***
## inflacion -39489 10151 -3.89 0.00145 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared: 0.5022, Adjusted R-squared: 0.469
## F-statistic: 15.13 on 1 and 15 DF, p-value: 0.00145
De acuerdo a lo expresado la ecuación del modelo de regresión lineal simple corresponde a: Y = 648486 - 398486 inflación.
De acuerdo a los resultados obtenidos la linealidad se validara en el punto d con los supuestos.
## [1] -0.7086581
De acuerdo a los calculos y con referencia al coeficiente de correlación se puede indicar que hay mayor inflación, disminuye el smlm
A continuación se muestra el modelo ajustado acorde a los resultados obtenidos anteriormente.
Smlm∼N(μ,σ2)
μi= 648486 - 39489inflacion
σ= 94130
Se pueden interpretar los efectos β de la siguiente forma:
_ En caso de presentarse un aumento de la inflación en una unidad, se esperaría que el valor de smlm disminuya en 39489.
_ De esta manera el intercepto correspondiente a 648486, nos indica que, si la inflación toma un valor de 0, entonces el valor del salario mínimo sería de 648486, sin embargo, de acuerdo a las políticas económicas de un País la inflación siempre va a existir.
_ Por otro lado el valor del coeficiente R2 ajustado corresponde a 0.469 el cual indica que el salario mínimo seria explicado por el modelo en un 46%.
1)_ Para el valor de la Media cero: Se cumple, no se presenta novedad.
2)_ Varianza Constante: En la gráfica 1 correspondiente a los valores de residuales vs ajustados se puede observar que los errores presentan una tendencia, de esta manera los errores no son aleatorios, luego se puede indicar que el modelo no es lineal.
3)_ Normalidad: En el grafico 2 se puede observar que los datos no se ajustan del todo a la línea de normalidad.
4)_ Independencia: Teniendo en cuenta que los registros corresponden a datos en el tiempo, se indica que son de orden temporal.
Considerando los resultados obtenidos en el modelo propuesto, se puede indicar que no es recomendable el uso de este modelo para predecir el SLML en Colombia, esto debido a que el modelo propuesto no cumple con los supuestos y además el porcentaje de R2 toma un valor muy bajo.
## ID Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## 31 31 Zona Norte 2 3 135 56 1 1
## 58 58 Zona Norte NA 5 400 212 NA 2
## 71 71 Zona Norte NA 3 78 54 2 1
## 88 88 Zona Norte NA 3 175 130 NA 3
## 89 89 Zona Norte NA 5 340 106 2 2
## 94 94 Zona Norte 2 4 265 162 1 3
## Habitaciones Tipo Barrio cordenada_longitud
## 31 3 Apartamento torres de comfandi -76.46745
## 58 4 Casa santa mónica residencial -76.47300
## 71 3 Apartamento chiminangos -76.47820
## 88 4 Casa brisas de los -76.48200
## 89 3 Apartamento la flora -76.48200
## 94 4 Casa zona norte -76.48238
## Cordenada_latitud
## 31 3.40763
## 58 3.41800
## 71 3.44898
## 88 3.47800
## 89 3.43500
## 94 3.46786
## estrato area parqueadero
## 1 0.7270276 0.6237833 0.5021011
##
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + parqueaderos,
## data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -197.551 -35.912 -4.441 28.393 297.410
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -125.39846 6.97843 -17.969 < 2e-16 ***
## Area_contruida 0.84752 0.02839 29.856 < 2e-16 ***
## Estrato 65.71241 1.80128 36.481 < 2e-16 ***
## parqueaderos 15.55661 2.04374 7.612 4.79e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 57.44 on 1479 degrees of freedom
## Multiple R-squared: 0.7313, Adjusted R-squared: 0.7308
## F-statistic: 1342 on 3 and 1479 DF, p-value: < 2.2e-16
De acuerdo a los resultados obtenidos se podria expresar el modelo ajustado de la siguiente forma:
Precio∼N(μ,σ2)
μi=-125.39846 + 0.84752 Area_contruida + 65.71241 Estrato + 15.55661 parqueaderos
σ=57.44
_ Se esperaría que por cada metro cuadrado que aumente el área construida de una casa, entonces el precio por millón de la vivienda se incrementaría en 0.84752 millones.
_ Si el estrato de la casa aumenta en valor 1, entonces el precio por millón de la casa aumentaría en un valor de 65.71241 millones.
_ En caso de contar con un parqueadero adicional , entonces se esperaría que el precio por millón de la casa se incremente en un valor de 15.55661 millones.
_ De esta manera al validar el intercepto correspondiente a -125.39846, no tendría sentido dado que no hay un costo de valor negativo para las viviendas en condiciones normales, se podría presentar que la vivienda tenga problemas de embargo o riesgos críticos donde se encuentre ubicada la vivienda para presentarse este tipo de posibilidades, para el desarrollo del ejercicio se suponen viviendas en estado normal.
_ Se puede observar que el coeficiente R2 ajustado de tiene un valor correspondiente a un 0.7308, esto indica que el precio de la vivienda podría ser explicado por este modelo en un 73%.
_ Una de las mejoras que se podría presentar en el modelo es obviar la variable de parqueadero, dado que de acuerdo al análisis previo no presenta una correlación alta de acuerdo al precio de la vivienda.
1)_ Para el valor de la Media cero: Se cumple, no se presenta novedad.
2)_ Varianza Constante: Se observa en la gráfica 1 de residuales vs ajustados que los errores NO siguen una tendencia, por lo tanto, los errores son aleatorios, de esta manera se puede indicar que el modelo es lineal.
3)_ Normalidad: En el grafico 2 se puede observar que los datos se ajustan del todo a la línea de normalidad.
4)_ Independencia: Teniendo en cuenta que estos registros no corresponden a datos en el tiempo no se tiene un orden temporal, de esta manera para realizar la validación de estos supuestos se debe validar por definición del tipo de datos de corte transversal.
## 1
## 237.7599
Considerando los valores obtenidos del modelo, no es buena opción comprar el apartamento que estan ofreciendo por 450 millones, dado que el modelo registra un valor de compra aproximado de 238 millones.
## ID Zona piso Estrato precio_millon Area_contruida parqueaderos
## 1264 1264 Zona Norte 4 4 380 123 1
## 2590 2590 Zona Norte 11 4 510 121 2
## 2606 2606 Zona Norte NA 4 350 130 1
## 2632 2632 Zona Norte 1 4 290 108 1
## 2967 2967 Zona Norte 4 4 185 104 1
## 3067 3067 Zona Norte NA 4 265 125 2
## Banos Habitaciones Tipo Barrio cordenada_longitud
## 1264 3 3 Apartamento la flora -76.51437
## 2590 4 4 Apartamento urbanización la flora -76.52100
## 2606 2 3 Apartamento la flora -76.52100
## 2632 2 3 Apartamento la flora -76.52115
## 2967 3 3 Apartamento san vicente -76.52300
## 3067 3 4 Apartamento la flora -76.52353
## Cordenada_latitud
## 1264 3.48618
## 2590 3.49000
## 2606 3.49000
## 2632 3.48930
## 2967 3.46400
## 3067 3.48157
Considerando que la persona tiene un crédito preaprobado por un valor de 400 millones, que en su defecto correspondería al 70% del valor de inmueble y que el 30% restante corresponde al aporte de la persona, se sugiere al comprador ofertas de apartamento en zona norte, estrato 4 y con posibilidad de 1 o 2 parqueaderos y área construida mayor a 100mt2, los siguientes apartamentos con áreas construidas en mt2 de:123,130, 108,104,125 con valores en millones de 380, 350, 290, 185, 265 respectivamente serían las mejores opciones para el usuario.
## diametro altura
## 1 0.908123 0.8582009
Se puede observar que existe una buena correlación positiva entre las variables, diametro y altura con el peso.
##
## Call:
## lm(formula = peso ~ diametro + altura, data = df2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3083 -2.5121 0.1608 2.0088 11.7446
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.1205 1.4305 -6.376 8.44e-09 ***
## diametro 4.7395 0.7128 6.649 2.49e-09 ***
## altura 0.3132 0.5751 0.544 0.587
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared: 0.8253, Adjusted R-squared: 0.8213
## F-statistic: 205.5 on 2 and 87 DF, p-value: < 2.2e-16
Con los resultados anteriores se puede expresar el modelo ajustado como se muestra a continuación:
Peso∼N(μ,σ2)
μi=-9.1205 + 4.7395diametro + 0.3132altura
σ=3.449
_ De acuerdo a los cálculos observados si el diámetro del árbol aumenta en una unidad, se espera que el peso del árbol aumente en 4.7395 unidades.
_ De igual manera se puede indicar que por cada metro adicional en la altura del árbol, se esperaría que el peso del árbol aumente en 0.3132 unidades.
_ De esta manera el intercepto de -9.1205, no es un valor , dado que no debería existir un árbol con un peso negativo.
_ De igual forma el coeficiente R2 ajustado toma un valor de 0.8213, lo cual indica que el peso del árbol es explicado por el modelo con un 83%.
_ Hipótesis nula H0: Para este caso el coeficiente B1 no aporta al modelo propuesto, dado que el p-value es menor al 0.05 con valor correspondiente a.(2.49e-09), rechazamos la hipótesis nula, y se puede concluir que el coeficiente B1 si aporta al modelo de regresión propuesto.
_ Hipótesis nula H0: Para este caso el coeficiente B2 no aporta al modelo propuesto, como el p-value es mayor al 0.05 (0.587), NO rechazamos la hipótesis nula, y concluimos que el coeficiente B2 NO aporta al modelo de regresión propuesto.
## [1] 15.17394
## [1] 3.554984
Teniendo en cuenta las validaciones se puede indicar que el modelo erra en un 15% del peso promedio de acuerdo al MAE y la desviación estándar de la varianza inexplicada es de 3.5 de acuerdo al RMSE.