Informe 1 – Modelo de Regresión Lineal Simple y Múltiple

1. Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia. Se tienen los siguientes precios.

## # A tibble: 19 × 3
##    Fecha      precio_acciones precio_petroleo_barril
##    <chr>      <chr>           <chr>                 
##  1 Fecha      precio_acciones precio_petroleo_barril
##  2 dic 14-15  1090            35.619999999999997    
##  3 dic 15-15  1170            36.31                 
##  4 dic 16-15  1160            37.35                 
##  5 dic 18-15  1230            34.950000000000003    
##  6 dic 21-15  1155            34.53                 
##  7 dic 22-15  1165            35.81                 
##  8 dic 23-15  1205            36.14                 
##  9 dic 24-15  1170            37.5                  
## 10 dic 28-15  1150            37.799999999999997    
## 11 dic 29-15  1130            36.81                 
## 12 dic 30-15  1110            37.869999999999997    
## 13 ene 04-16  1105            37.04                 
## 14 ene 05-16  1085            36.76                 
## 15 ene 06-16  1060            35.97                 
## 16 ene 07-16  1035            33.97                 
## 17 ene 08-16  1015            33.270000000000003    
## 18 ene 12-16  955             31.41                 
## 19 ene 13-16  961             30.44

a. Proponga un modelo de regresión lineal simple que permita predecir el valor de las Acciones de Ecopetrol con base en el Precio del barril de petróleo en Colombia. Indique la ecuación de regresión y el valor del R2.

## 
## Call:
## lm(formula = precio_acciones ~ precio_petroleo_barril, data = df_precios)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.90 -40.74 -15.94  33.40 136.82 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)   
## (Intercept)             177.768    232.828   0.764  0.45627   
## precio_petroleo_barril   26.192      6.542   4.004  0.00102 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared:  0.5005, Adjusted R-squared:  0.4692 
## F-statistic: 16.03 on 1 and 16 DF,  p-value: 0.001024

Respuesta a:

De acuerdo a lo expresado la ecuación de regresión corresponde a: Y = 177.768 + 26.192 precio_barril, de igual manera el valor de R2 ajustado corresponde a:0.4692, lo que implica que el precio de las acciones de la empresa Ecopetrol es predicho por el modelo en un 46%.

b. Pruebe la significancia del modelo propuesto en “a)” plantee las hipótesis respectivas y use el concepto de Valor _p para tomar la decisión sobre las hipótesis. Use α = 0.05.

Para este caso se propone la prueba de significancia de la siguiente manera:

H0:β1=β2=…=βk=0

H1=al menos uno de los βj≠0 con j=1,2,…,k,

## 
## Call:
## lm(formula = precio_acciones ~ precio_petroleo_barril, data = df_precios)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.90 -40.74 -15.94  33.40 136.82 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)   
## (Intercept)             177.768    232.828   0.764  0.45627   
## precio_petroleo_barril   26.192      6.542   4.004  0.00102 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared:  0.5005, Adjusted R-squared:  0.4692 
## F-statistic: 16.03 on 1 and 16 DF,  p-value: 0.001024

Respuesta b:

Se empleo la función summary y se obtiene que el valor-p F_statistic corresponde a: 0.001025, de esta manera se rechaza HO con un nivel de significancia del 5%, lo que indica que la variable precio del barril definida en el modelo es significativa, permitiendo explicar el precio de la acción.

C. Interprete los coeficientes del modelo propuesto en “a)”

De acuerdo a los resultados obtenidos en el literal a), como propuesta se ajusta el modelo de la siguiente manera.

_ Precio_acción∼N(μ,σ2)

_ μi= 177.768 + 26.192 precio_barril

_ Residual standard error (σ= 57.13)

Respuesta c:

Se interpreta los efectos β de la siguiente manera:

_ En caso de que el precio del barril de petróleo se incremente en una unidad, se esperaría que el precio de la acción de Ecopetrol se incremente en un valor equivalente al 26.192.

_ De esta forma el intercepto definido en 177.768 nos define que, si el precio del barril de petróleo en alguna oportunidad toma el valor de 0, la equivalencia de la acción de Ecopetrol correspondería a 177.768, caso que difícilmente se presentaría.

_ De otra manera el coeficiente R cuadrado (R2) ajustado de 0.4692 determina que el precio de la acción de Ecopetrol es explicado en este caso por el modelo en un 46%.

d. Haga un análisis de los residuos. ¿Qué supuesto no se cumple?

Respuesta d:

Validación de supuestos:

1)_ Para el valor de la Media cero: Se cumple, no se presenta novedad.

2)_ Varianza Constante: En la gráfica 1 correspondiente a los valores de residuales vs ajustados se puede observar que los errores presentan una tendencia, de esta manera los errores no son aleatorios, luego se puede indicar que el modelo no es lineal.

3)_ Normalidad: En el grafico 2 se puede observar que los datos no se ajustan del todo a la línea de normalidad.

4)_ Independencia: Teniendo en cuenta que los registros corresponden a datos en el tiempo, se indica que son de orden temporal.

e. Concluya sobre la validez del modelo propuesto en a)

Respuesta e:

Considerando los resultados obtenidos en el modelo propuesto, se puede indicar que no es recomendable el uso de este modelo para predecir el precio de la acción en Ecopetrol, esto debido a que el modelo propuesto no cumple con los supuestos y además el porcentaje de R2 toma un valor muy bajo.

a. Escriba la ecuación del modelo de regresión lineal simple

## 
## Call:
## lm(formula = smlm ~ inflacion, data = df_salario)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75463 -63456 -42854  17623 263207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   648486      58947   11.00  1.4e-08 ***
## inflacion     -39489      10151   -3.89  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared:  0.5022, Adjusted R-squared:  0.469 
## F-statistic: 15.13 on 1 and 15 DF,  p-value: 0.00145

Respuesta a:

De acuerdo a lo expresado la ecuación del modelo de regresión lineal simple corresponde a: Y = 648486 - 398486 inflación.

b. plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto en a)

Respuesta b:

De acuerdo a los resultados obtenidos la linealidad se validara en el punto d con los supuestos.

c. indique e interprete el coeficiente de correlación del modelo propuesto en a)

## [1] -0.7086581

Respuesta c:

De acuerdo a los calculos y con referencia al coeficiente de correlación se puede indicar que hay mayor inflación, disminuye el smlm

d. Interprete cada uno de los coeficientes del modelo propuesto en a)

A continuación se muestra el modelo ajustado acorde a los resultados obtenidos anteriormente.

Smlm∼N(μ,σ2)

μi= 648486 - 39489inflacion

σ= 94130

Respuesta d:

Se pueden interpretar los efectos β de la siguiente forma:

_ En caso de presentarse un aumento de la inflación en una unidad, se esperaría que el valor de smlm disminuya en 39489.

_ De esta manera el intercepto correspondiente a 648486, nos indica que, si la inflación toma un valor de 0, entonces el valor del salario mínimo sería de 648486, sin embargo, de acuerdo a las políticas económicas de un País la inflación siempre va a existir.

_ Por otro lado el valor del coeficiente R2 ajustado corresponde a 0.469 el cual indica que el salario mínimo seria explicado por el modelo en un 46%.

e. Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto en a)

Respuesta e:

Validación de supuestos:

1)_ Para el valor de la Media cero: Se cumple, no se presenta novedad.

2)_ Varianza Constante: En la gráfica 1 correspondiente a los valores de residuales vs ajustados se puede observar que los errores presentan una tendencia, de esta manera los errores no son aleatorios, luego se puede indicar que el modelo no es lineal.

3)_ Normalidad: En el grafico 2 se puede observar que los datos no se ajustan del todo a la línea de normalidad.

4)_ Independencia: Teniendo en cuenta que los registros corresponden a datos en el tiempo, se indica que son de orden temporal.

f. Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia

Respuesta f:

Considerando los resultados obtenidos en el modelo propuesto, se puede indicar que no es recomendable el uso de este modelo para predecir el SLML en Colombia, esto debido a que el modelo propuesto no cumple con los supuestos y además el porcentaje de R2 toma un valor muy bajo.

3. Con base en los datos de precios de vivienda de la actividad en clase realizar un informe que contenga los siguientes puntos utilizando R y RMarkdown (publicar el informe final en Rpubs presentando código, resultados e interpretaciones).

a. Realice un filtro a la base de datos e incluya solo las ofertas de apartamentos, de la zona norte de la ciudad con precios inferiores a los 500 millones de pesos y áreas menores a 300 mt2. Presente los primeros 3 registros de la base y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de la base, discutir si todos los puntos se ubican en la zona norte o se presentan valores en otras zonas, por que?).

##    ID       Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## 31 31 Zona Norte    2       3           135             56            1     1
## 58 58 Zona Norte   NA       5           400            212           NA     2
## 71 71 Zona Norte   NA       3            78             54            2     1
## 88 88 Zona Norte   NA       3           175            130           NA     3
## 89 89 Zona Norte   NA       5           340            106            2     2
## 94 94 Zona Norte    2       4           265            162            1     3
##    Habitaciones        Tipo                    Barrio cordenada_longitud
## 31            3 Apartamento        torres de comfandi          -76.46745
## 58            4        Casa santa mónica residencial          -76.47300
## 71            3 Apartamento               chiminangos          -76.47820
## 88            4        Casa             brisas de los          -76.48200
## 89            3 Apartamento                  la flora          -76.48200
## 94            4        Casa                zona norte          -76.48238
##    Cordenada_latitud
## 31           3.40763
## 58           3.41800
## 71           3.44898
## 88           3.47800
## 89           3.43500
## 94           3.46786

Respuesta a:

En el mapa donde se referencia todos los apartamentos ubicados en la zona norte de la ciudad,ademas con precios inferiores a los 500 millones y areas menores a 300 m2, se puede observar que muchos de los puntos se encuentran referenciados en la zona sur, incluso algunos en la zona oeste y oriente, esto se debe a que en la base de datos original a muchos apartamentos que quedan en la zona sur, oeste y oriente le han reistrado coordenada longitud y latitud norte, en este caso como el modelo grafica las ubicaciones respecto a la longitud y latitud entonces se esta presentadno el error.

b. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato y si tiene parqueadero. Use gráficos interactivos con plotly e interprete los resultados.

##     estrato      area parqueadero
## 1 0.7270276 0.6237833   0.5021011
Graficos
Grafica precios por millon vs área contruida

Respuesta b.1.

De acuerdo al grafico Se puede observar una relación directa, es decir a mayor área contruida, mayor es el precio.
Grafica precios por millon vs Estrato

Respuesta b.2

De acuerdo al grafico se puede observar que entre mayor sea el estrato, mayor es el precio de la vivienda.
Grafica precios por millon vs # Parquederos

Respuesta b.3

De acuerdo al grafico no se puede definir con claridad una relación existente entre el numero de parqueaderos vs el precio de la vivienda.

C. Estime un modelo de regresión lineal múltiple con las variables del punto anterior e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + parqueaderos, 
##     data = df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -197.551  -35.912   -4.441   28.393  297.410 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -125.39846    6.97843 -17.969  < 2e-16 ***
## Area_contruida    0.84752    0.02839  29.856  < 2e-16 ***
## Estrato          65.71241    1.80128  36.481  < 2e-16 ***
## parqueaderos     15.55661    2.04374   7.612 4.79e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.44 on 1479 degrees of freedom
## Multiple R-squared:  0.7313, Adjusted R-squared:  0.7308 
## F-statistic:  1342 on 3 and 1479 DF,  p-value: < 2.2e-16

De acuerdo a los resultados obtenidos se podria expresar el modelo ajustado de la siguiente forma:

Precio∼N(μ,σ2)

μi=-125.39846 + 0.84752 Area_contruida + 65.71241 Estrato + 15.55661 parqueaderos

σ=57.44

Se pueden interpretar los efectos β de la siguiente forma:

_ Se esperaría que por cada metro cuadrado que aumente el área construida de una casa, entonces el precio por millón de la vivienda se incrementaría en 0.84752 millones.

_ Si el estrato de la casa aumenta en valor 1, entonces el precio por millón de la casa aumentaría en un valor de 65.71241 millones.

_ En caso de contar con un parqueadero adicional , entonces se esperaría que el precio por millón de la casa se incremente en un valor de 15.55661 millones.

_ De esta manera al validar el intercepto correspondiente a -125.39846, no tendría sentido dado que no hay un costo de valor negativo para las viviendas en condiciones normales, se podría presentar que la vivienda tenga problemas de embargo o riesgos críticos donde se encuentre ubicada la vivienda para presentarse este tipo de posibilidades, para el desarrollo del ejercicio se suponen viviendas en estado normal.

_ Se puede observar que el coeficiente R2 ajustado de tiene un valor correspondiente a un 0.7308, esto indica que el precio de la vivienda podría ser explicado por este modelo en un 73%.

_ Una de las mejoras que se podría presentar en el modelo es obviar la variable de parqueadero, dado que de acuerdo al análisis previo no presenta una correlación alta de acuerdo al precio de la vivienda.

d. Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas solo realizar sugerencias de que se podría hacer).

Validación de supuestos.

1)_ Para el valor de la Media cero: Se cumple, no se presenta novedad.

2)_ Varianza Constante: Se observa en la gráfica 1 de residuales vs ajustados que los errores NO siguen una tendencia, por lo tanto, los errores son aleatorios, de esta manera se puede indicar que el modelo es lineal.

3)_ Normalidad: En el grafico 2 se puede observar que los datos se ajustan del todo a la línea de normalidad.

4)_ Independencia: Teniendo en cuenta que estos registros no corresponden a datos en el tiempo no se tiene un orden temporal, de esta manera para realizar la validación de estos supuestos se debe validar por definición del tipo de datos de corte transversal.

e. Con el modelo identificado predecir el precio de un apartamento con 100 mt2, de estrato 4 y con parqueadero. ¿Si este apartamento lo están ofreciendo en 450 millones cual seria su opinión con base en el resultado del modelo considera que es una buena oferta?

##        1 
## 237.7599

Respuesta e.

Considerando los valores obtenidos del modelo, no es buena opción comprar el apartamento que estan ofreciendo por 450 millones, dado que el modelo registra un valor de compra aproximado de 238 millones.

f. Con las predicciones del modelo sugiera potenciales ofertas para una persona interesada en un apartamento en la zona norte con mas de 100 mt2 de área, de estrato 4, que tenga parqueadero y tenga encuenta que la persona tiene un crédito preaprobado de máximo 400 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir

##        ID       Zona piso Estrato precio_millon Area_contruida parqueaderos
## 1264 1264 Zona Norte    4       4           380            123            1
## 2590 2590 Zona Norte   11       4           510            121            2
## 2606 2606 Zona Norte   NA       4           350            130            1
## 2632 2632 Zona Norte    1       4           290            108            1
## 2967 2967 Zona Norte    4       4           185            104            1
## 3067 3067 Zona Norte   NA       4           265            125            2
##      Banos Habitaciones        Tipo                 Barrio cordenada_longitud
## 1264     3            3 Apartamento               la flora          -76.51437
## 2590     4            4 Apartamento urbanización la flora          -76.52100
## 2606     2            3 Apartamento               la flora          -76.52100
## 2632     2            3 Apartamento               la flora          -76.52115
## 2967     3            3 Apartamento            san vicente          -76.52300
## 3067     3            4 Apartamento               la flora          -76.52353
##      Cordenada_latitud
## 1264           3.48618
## 2590           3.49000
## 2606           3.49000
## 2632           3.48930
## 2967           3.46400
## 3067           3.48157

Considerando que la persona tiene un crédito preaprobado por un valor de 400 millones, que en su defecto correspondería al 70% del valor de inmueble y que el 30% restante corresponde al aporte de la persona, se sugiere al comprador ofertas de apartamento en zona norte, estrato 4 y con posibilidad de 1 o 2 parqueaderos y área construida mayor a 100mt2, los siguientes apartamentos con áreas construidas en mt2 de:123,130, 108,104,125 con valores en millones de 380, 350, 290, 185, 265 respectivamente serían las mejores opciones para el usuario.

4. Con base en los datos de arboles proponga un modelo de regresión lineal múltiple que permita predecir el peso del árbol en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el RMSE y MAE

Correlación entre las variables diametro y altura con el peso.
##   diametro    altura
## 1 0.908123 0.8582009

Respuesta.

Se puede observar que existe una buena correlación positiva entre las variables, diametro y altura con el peso.

Modelo de regresión multiple

## 
## Call:
## lm(formula = peso ~ diametro + altura, data = df2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3083 -2.5121  0.1608  2.0088 11.7446 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.1205     1.4305  -6.376 8.44e-09 ***
## diametro      4.7395     0.7128   6.649 2.49e-09 ***
## altura        0.3132     0.5751   0.544    0.587    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared:  0.8253, Adjusted R-squared:  0.8213 
## F-statistic: 205.5 on 2 and 87 DF,  p-value: < 2.2e-16

Respuesta.

Con los resultados anteriores se puede expresar el modelo ajustado como se muestra a continuación:

Peso∼N(μ,σ2)

μi=-9.1205 + 4.7395diametro + 0.3132altura

σ=3.449

Se pueden interpretar los efectos β de la siguiente forma:

_ De acuerdo a los cálculos observados si el diámetro del árbol aumenta en una unidad, se espera que el peso del árbol aumente en 4.7395 unidades.

_ De igual manera se puede indicar que por cada metro adicional en la altura del árbol, se esperaría que el peso del árbol aumente en 0.3132 unidades.

_ De esta manera el intercepto de -9.1205, no es un valor , dado que no debería existir un árbol con un peso negativo.

_ De igual forma el coeficiente R2 ajustado toma un valor de 0.8213, lo cual indica que el peso del árbol es explicado por el modelo con un 83%.

Evaluación de la significancia de los paramentros:

_ Hipótesis nula H0: Para este caso el coeficiente B1 no aporta al modelo propuesto, dado que el p-value es menor al 0.05 con valor correspondiente a.(2.49e-09), rechazamos la hipótesis nula, y se puede concluir que el coeficiente B1 si aporta al modelo de regresión propuesto.

_ Hipótesis nula H0: Para este caso el coeficiente B2 no aporta al modelo propuesto, como el p-value es mayor al 0.05 (0.587), NO rechazamos la hipótesis nula, y concluimos que el coeficiente B2 NO aporta al modelo de regresión propuesto.

Validación cruzada:

Métricas RMSE y MAE:

## [1] 15.17394
## [1] 3.554984

Respuesta

Teniendo en cuenta las validaciones se puede indicar que el modelo erra en un 15% del peso promedio de acuerdo al MAE y la desviación estándar de la varianza inexplicada es de 3.5 de acuerdo al RMSE.