1.Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia.

a Proponga un modelo de regresión lineal simple que permita predecir el valor de las Acciones de Ecopetrol con base en el Precio del barril de petróleo en Colombia. Indique la ecuación de regresión y el valor del R2.

El análisis gráfico e indicadores de correlación indican un nivel alto de correlación positiva entre el precio de la acción de la compañia y el precio del petroleo. Esto se relaciona con el racional de negocio de Ecopetrol,pues a mayores precios del producto que vende sus ingresos aumentaran así como sus potenciales utilidades asumiendo que los costos no cambian. Esto puede llevar a un mayor apetito de compra de sus acciones en la bolsa de valores ante expectativas de que siga creciendo el valor de la misma o como inversión de portafolio y dividendos.

Al calcular el modelo de regresión se encuentra que el precio del petroleo logra explicar solo el 50% del precio de la acción de la compañia, indicando que existen posiblemente otras variables tenidas en cuenta por los inversores para tomar decisiones de compra y venta sobre la acción, lo cual es en ultimas lo que podria determinar el precio de la acción.

b. __Pruebe la significancia del modelo propuesto en “a)” plantee las hipótesis respectivas y use el concepto de Valor _p para tomar la decisión sobre las hipótesis. Use α = 0.05__ Al ser un modelo de regresión lineal, se debe probar la significancia para la variable del precio del petroleo definida como p_petroleo. La Hipótesis se expresa así: (Ho): B1 = 0(no existe relación)(H1): B1 ≠ 0(Existe una relación de causalidad). Se toma el valor P del precio del petroleo arrojada por el modelo equivalente a 0.00102 y se compara con el valor de referencia normalmente usado de α = 0.05. En este caso el valor p de la variable es inferior por lo cual se rechaza la hipótesis nula que el valor de B1 sea igual a 0. De acuerdo a esto se concluye que el modelo es significante y existe una relación entre el precio del petroleo y el precio de la acción de Ecopetrol, la cual además es una relación positiva.

_c__ Interprete los coeficientes del modelo propuesto en “a)”

De acuerdo a los datos del modelo se espera que el precio de la acción de Ecopetrol tenga un precio base de 177 pesos correspondiente al \(beta_0\) el cual puede corresponder a otros factores como el valor del patrimonio de la compañia. Este precio se vera incrementando en COP 26.1 pesos por cada dolar que cueste un barril de petroleo en dolares,de acuerdo al valor de \(beta_1\) arrojado. Es decir, si el precio del barril se encuentra en 36 se deberá multiplicar este valor de 26.191 por este precio del barril y sumarlos al valor base establecido de acuerdo a \(beta_0\). En este caso, el precio de la acción tendría un precio igual a: \(precio_ecopetrol=beta_0(177.768)+beta_1(26.192)*preciobarril_dolar\) Para el ejemplo del precio del barril a 36 el valor predicho equivaldría a 1.120,68

knitr::opts_chunk$set(
    echo = FALSE,
    message = TRUE,
    warning = TRUE
)
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
p_ecopetrol=c(1090, 1170, 1160, 1230, 1155, 1165, 1205, 1170, 1150, 1130, 1110, 1105, 
1085, 1060, 1035, 1015, 955, 961)

p_petroleo=c(35.62,36.31,37.35,34.95,34.53,35.81,36.14,37.50,37.80,36.81,37.87,37.04,
36.76,35.97,33.97,33.27,31.41,30.44)

Casoeco=data.frame(p_ecopetrol,p_petroleo)

cor(x=Casoeco$p_petroleo ,y=Casoeco$p_ecopetrol)
## [1] 0.7074373
cov(Casoeco$p_petroleo ,Casoeco$p_ecopetrol)
## [1] 117.5162
Grafica1= ggplot(data =Casoeco , mapping = aes(x=p_petroleo, y=p_ecopetrol)) + geom_point()+theme_bw()+geom_smooth()
ggplotly(Grafica1)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
modelo_p_ecopetrol=lm(p_ecopetrol ~ p_petroleo,data=Casoeco)
summary(modelo_p_ecopetrol)
## 
## Call:
## lm(formula = p_ecopetrol ~ p_petroleo, data = Casoeco)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.90 -40.74 -15.94  33.40 136.82 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  177.768    232.828   0.764  0.45627   
## p_petroleo    26.192      6.542   4.004  0.00102 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared:  0.5005, Adjusted R-squared:  0.4692 
## F-statistic: 16.03 on 1 and 16 DF,  p-value: 0.001024

d Haga un análisis de los residuos. ¿Qué supuesto no se cumple?

Con los diferentes gráficos se observa una posible no normalidad de los residuos del modelo. En el histograma se observa como los datos se encuentran sesgados hacia la izquierda, y unos datos extremos hacia la cola derecha, lo cual puede estar afectando el supuesto de normalidad. En el gráfico Q-Q se observan puntos que se alejan de la recta a lo largo de ella. Finalmente, al analizar los valores residuales frente a los valores ajustados, se observa que no hay una aleatoriedad en los errores, sino más bien una distribución en forma de parábola invertida, confirmando que posiblemente no exista una relación lineal entre las variables analizadas.

Se complementa este análisis gráfico con otros estadísticos para validar los supuestos.

Test Shapiro: El valor p de la prueba arroja un valor de 0.04276 el cual es inferior al valor de referencia de 0,05 con lo cual se concluye que los errores tienen una distribución no normal. Test Breusch-Pagan: Análisis de la varianza de los residuos. Se espera que los residuos se distribuyen con la misma varianza a lo largo del tiempo.Los resultados indican un p-value = 0.8635 el cual es superior a 0,05 indicando que se acepta la hipótesis nula que los residuos se distribuyen con la misma varianza.

Durbin-Watson test: Finalmente con esta prueba validamos que los residuos no se encuentren autocoreelacionados y sean independientes.Nuestra hipotesis nula es que los residuos son independientes. El p-value = 0.0004666 el cual es inferior a 0,05 indicando que debemos rechazar la hipotesis nula y concluir que en el modelo calculado los residuos se encuentran autocorrelacionados y no son independientes.

A manera de conclusión se observa que los supuestos de normalidad e independencia de los errores no se cumplen para el modelo evaluado.

e Concluya sobre la validez del modelo propuesto en a) El modelo no puede ser tomado como una herramienta de uso explicativo del precio de la acción de la compañia o con propósitos predictivos, pues presenta un valor R2 bajo y de forma complementaria no cumple con 2 de los supuestos del modelo de regresión lineal indicando que pueden tal vez utilizarse otros métodos de estimación o evaluar el tamaño de los datos utilizados para la estimación, la forma de las variables o incluir nuevas variables de análisis y no adoptar el enfoque de regresión lineal simple.

## Warning: package 'lmtest' was built under R version 4.1.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.1.3
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## [1] -5.527407e-15
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_p_ecopetrol$residuals
## W = 0.89259, p-value = 0.04276
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_p_ecopetrol
## BP = 0.029563, df = 1, p-value = 0.8635
## 
##  Durbin-Watson test
## 
## data:  modelo_p_ecopetrol
## DW = 0.74504, p-value = 0.0004666
## alternative hypothesis: true autocorrelation is greater than 0

2. Los siguientes datos corresponden a la INFLACION y al SALARIO MINIMO LEGAL MENSUAL (SMLM) desde el año 1999 para Colombia.

La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:

a Escriba la ecuación del modelo de regresión lineal simple.

\(salario=beta_0(648486)- beta_1(39489)*inflacion\)

## 
## Call:
## lm(formula = Salario ~ Inflacion, data = Data_inf)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75463 -63456 -42854  17623 263207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   648486      58947   11.00  1.4e-08 ***
## Inflacion     -39489      10151   -3.89  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared:  0.5022, Adjusted R-squared:  0.469 
## F-statistic: 15.13 on 1 and 15 DF,  p-value: 0.00145

b plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto en a)

Test Shapiro: El valor p de la prueba arroja un valor de p-value = 0.001407 el cual es inferior al valor de referencia de 0,05 con lo cual se concluye que los errores tienen una distribución no normal.

Test Breusch-Pagan: Análisis de la varianza de los residuos. Se espera que los residuos se distribuyen con la misma varianza a lo largo del tiempo.Los resultados indican un p-value = 0.433 el cual es superior a 0,05 indicando que se acepta la hipótesis nula que los residuos se distribuyen con la misma varianza.

}Durbin-Watson test: Con esta prueba validamos que los residuos no se encuentren autocorrelacionados y sean independientes.Nuestra hipotesis nula es que los residuos son independientes. El p-value = 0.0002714 el cual es inferior a 0,05 indicando que debemos rechazar la hipotesis nula y concluir que en el modelo calculado los residuos se encuentran autocorrelacionados y no son independientes.

One Sample t-test: Con esta prueba se busca validar que la media de los errores sea cero.El p-value = 1 por lo tanto se acepta Ho la cual indica que la media de los errores es cero.

Con estas pruebas se tiene que para este modelo los errores no tienen una distribución normal y se encuentran correlacionados.

c Indique e interprete el coeficiente de correlación del modelo propuesto en a)

EL r2 es igual a 0.5022 lo que indica es que el modelo logra explicar en un 50,22% el salario mínimo.

__d__Interprete cada uno de los coeficientes del modelo propuesto en a).

\(salario=beta_0(648486)- beta_1(39489)*inflacion\)

El Salario mínimo cuenta con una base de valor equivalente a $648.486 correspondiente al \(beta_0\) y disminuye en el producto resultante de multiplicar $39.489 (valor de \(beta_1\)) por el valor de la inflación registrada cada año. Entre más alta sea la inflación mayor es la perdida del valor real del salario mínimo de acuerdo a lo estimado por el modelo y acorde a la teoría económica.

## [1] -1.491304e-12
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_inflación$residuals
## W = 0.78826, p-value = 0.001407
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_inflación
## BP = 0.61478, df = 1, p-value = 0.433
## 
##  Durbin-Watson test
## 
## data:  modelo_inflación
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  One Sample t-test
## 
## data:  modelo_inflación$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -46862.45  46862.45
## sample estimates:
##     mean of x 
## -1.491304e-12

e.Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto en a

En el gráfico Q-Q se observan puntos que se alejan de la recta a lo largo de ella, indicativo que los errores pudieran no tener una distribución normal, confirmando lo arrojado por la prueba shapiro. Con el gráfico de scale location,se espera que los residuos no sigan un patrón y sean indepedientes, lo cual se observa que no es así y se ubican sobre la linea trazada, confirmando lo evidenciado con la prueba de Durbin watson.

Finalmente, al analizar los valores residuales frente a los valores ajustados, se observa que no hay una aleatoriedad en los errores y una posible relación no lineal.

f. Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia

El modelo no puede ser tomado como una herramienta de uso explicativo del salario mínimo o con propósitos predictivos para el mismo, pues presenta un valor R2 bajo y de forma complementaria no cumple con 2 de los supuestos del modelo de regresión lineal indicando que pueden tal vez utilizarse otros métodos de estimación o evaluar el tamaño de los datos utilizados para la estimación, la forma de las variables o incluir nuevas variables de análisis y no adoptar el enfoque de regresión lineal simple.

3. Con base en los datos de precios de vivienda de la actividad en clase realizar un informe que contenga los siguientes puntos utilizando R y RMarkdown

a Realice un filtro a la base de datos e incluya solo las ofertas de apartamentos, de la zona norte de la ciudad con precios inferiores a los 500 millones de pesos y áreas menores a 300 mt2. Presente los primeros 3 registros de la base y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de la base, discutir si todos los puntos se ubican en la zona norte o se presentan valores en otras zonas, por que?).

Se encuentran valores ubicados por fuera de la zona norte de la ciudad y puede corresponder a errores en la base de datos o información en conflicto relacionado con latitud o la longitud de ubicación de los predios. También puede darse que los predios si están bien ubicados y exista un error de clasificación de la zona por parte de quien ingresa los datos del predio o la clasificación interna de la aplicación

## Loading required package: DBI
## Loading required package: RSQLite
## Loading required package: ff
## Loading required package: bit
## 
## Attaching package: 'bit'
## The following object is masked from 'package:base':
## 
##     xor
## Attaching package ff
## - getOption("fftempdir")=="C:/Users/Julian/AppData/Local/Temp/RtmpKGyatp/ff"
## - getOption("ffextension")=="ff"
## - getOption("ffdrop")==TRUE
## - getOption("fffinonexit")==TRUE
## - getOption("ffpagesize")==65536
## - getOption("ffcaching")=="mmnoflush"  -- consider "ffeachflush" if your system stalls on large writes
## - getOption("ffbatchbytes")==16777216 -- consider a different value for tuning your system
## - getOption("ffmaxbytes")==536870912 -- consider a different value for tuning your system
## 
## Attaching package: 'ff'
## The following objects are masked from 'package:utils':
## 
##     write.csv, write.csv2
## The following objects are masked from 'package:base':
## 
##     is.factor, is.ordered
## RecordLinkage library
## [c] IMBEI Mainz
## 
## Attaching package: 'RecordLinkage'
## The following object is masked from 'package:bit':
## 
##     clone
## The following object is masked from 'package:base':
## 
##     isFALSE
## # A tibble: 3 x 12
##   Zona       piso  Estrato precio_millon Area_contruida parqueaderos Banos
##   <chr>      <chr>   <dbl>         <dbl>          <dbl> <chr>        <dbl>
## 1 Zona Norte 2           3           135             56 1                1
## 2 Zona Norte NA          3            78             54 2                1
## 3 Zona Norte NA          5           340            106 2                2
## # ... with 5 more variables: Habitaciones <dbl>, Tipo <chr>, Barrio <chr>,
## #   cordenada_longitud <dbl>, Cordenada_latitud <dbl>
## 
## Zona Norte 
##       1077
## 
##   1   2   3   4  NA 
## 559 191   4   1 322
## 
##   0   1   2   3   4   5 
##   2 169 640 214  48   4
## Warning: Unknown or uninitialised column: `ID`.

b Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato y si tiene parqueadero. Use gráficos interactivos con plotly e interprete los resultados.

Correlación entre precio y área construida por estratos En esta gráfica se observa una relación positiva entre el precio y el área construida , de acuerdo a lo esperado, es decir, a mayor número de metros cuadrados de la vivienda se espera un un mayor precio. Esto es un comportamiento que se observa para los diferentes estratos. Tambien se observa esta relación positiva con el estrato, donde a medida que aumenta el estrato el precio es mayor para una vivienda asi tenga el mismo número de metros cuadrados que otra pero ubicada en un estrato menor, lo cual debe estar asociado a la ubicación particular de los predios y condiciones particulares de la ubicación a una escala más pequeña dentro de la zona analizada.

Correlación entre precio y área construida por la existencia de parqueadero Se observa una situación similar a la del estrato, donde la existencia del parqueadero supone un precio base mayor para una vivienda con el mismo número de metros cuadrados, lo cual indica que la existencia de parqueadero tiene una correlación positiva con el precio.

## `geom_smooth()` using formula 'y ~ x'

## Warning in pal_name(palette, type): Unknown palette Set 1
## `geom_smooth()` using formula 'y ~ x'

c Estime un modelo de regresión lineal múltiple con las variables del punto anterior e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)

## 
## Call:
## lm(formula = datosv_sub$precio_millon ~ datosv_sub$Area_contruida + 
##     datosv_sub$Estrato + datosv_sub$parqueadero)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -242.442  -31.795   -0.944   27.529  223.738 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 49.03852    5.03387   9.742  < 2e-16 ***
## datosv_sub$Area_contruida    1.04332    0.06037  17.281  < 2e-16 ***
## datosv_sub$Estrato4         61.87913    4.84558  12.770  < 2e-16 ***
## datosv_sub$Estrato5        146.16586    4.98649  29.312  < 2e-16 ***
## datosv_sub$Estrato6        204.47149    9.27649  22.042  < 2e-16 ***
## datosv_sub$parqueaderoTRUE  15.54122    3.98543   3.900 0.000102 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 54.8 on 1071 degrees of freedom
## Multiple R-squared:  0.7541, Adjusted R-squared:  0.7529 
## F-statistic: 656.9 on 5 and 1071 DF,  p-value: < 2.2e-16

Para estimar el modelo, solo se tomaron en cuenta las viviendas con parqueaderos,creando una nueva variable, puesto que la cantidad de viviendas sin información podría suponer problemas de estimación o interpretación. Esto saco de la base las viviendas ubicadas en el estrato 3, las cuales se podría asumir que no tenian parqueadero pero es imposible saberlo con la información disponible, razon por la cual tampoco se escogió un metodo de imputación de estos valores faltantes.

El modelo registra un R2 de 75,41, lo cual indica que logra explicar un 75% del precio de la vivienda, es un valor aceptable para la capacidad explicativa del modelo.

Todas las variables tienen un alto nivel de significancia y se proceden a explicar realizando el ajuste de los coeficientes en términos de millones de pesos:

\(beta_0\): COP $49.038.520. Todas las viviendas tienen este valor base asociado posiblemente asociado al lote en el cual se encuentra la vivienda. \(beta_1 (Area construida)\)Por cada metro construido que tenga la vivienda el precio aumentará en $COP $1.043.320. \(beta_2 (Estrato 4)\) Si la vivienda se encuentra ubicada en este estrato deberá sumarse un valor $COP $61.879.130 lo cual reconoce las caracteristicas de la zona en particular asociada a este estrato en la cual se ubica la vivienda. \(beta_3 (Estrato 5)\) Si la vivienda se encuentra ubicada en este estrato deberá sumarse un valor $COP $146.165.860 lo cual reconoce las caracteristicas de la zona en particular asociada a este estrato en la cual se ubica la vivienda. \(beta_4 (Estrato 6)\) Si la vivienda se encuentra ubicada en este estrato deberá sumarse un valor $COP $204.471.490 lo cual reconoce las caracteristicas de la zona en particular asociada a este estrato en la cual se ubica la vivienda. \(beta_5 (Parqueadero)\) Si la vivienda tiene parqueadero deberá sumarse un valor $COP $15.541.220.

Los resultados son coherentes en cuanto al tipo de relación, todas positivas, y las diferencias de valores entre las categorías asociadas al estrato, pues se espera que el valor de la tierra y otras condiciones de la zona aumenten en relación a un estrato mayor y eso explica las diferencias en los valores de los coeficientes.

d Realice la validación de supuestos del modelo e interprete los resultados

Test Shapiro: El valor p de la prueba arroja un valor de p-value = 3.233e-09 el cual es inferior al valor de referencia de 0,05 con lo cual se concluye que los errores tienen una distribución que no es normal.

Test Breusch-Pagan: Análisis de la varianza de los residuos. Se espera que los residuos se distribuyen con la misma varianza a lo largo del tiempo.Los resultados indican un p-value = 2.2e-16 el cual es inferior a 0,05 indicando que se rechaza la hipótesis nula que los residuos se distribuyen con la misma varianza.

Durbin-Watson test: Con esta prueba validamos que los residuos no se encuentren autocoreelacionados y sean independientes.Nuestra hipotesis nula es que los residuos son independientes. El p-value = 5.989e-05 el cual es inferior a 0,05 indicando que debemos rechazar la hipotesis nula y concluir que en el modelo calculado los residuos se encuentran autocorrelacionados y no son independientes.

One Sample t-test: Con esta prueba se busca validar que la media de los errores sea cero.El p-value = 1 por lo tanto se acepta Ho la cual indica que la media de los errores es cero.

Con estas pruebas se tiene que para este modelo solo se cumple un supuesto, el de la media de los errores, los demás supuestos no se cumplen, por lo tanto es un indicativo que deben realizarse correciones al planteamiento del modelo, dentro de las cuales podrían estar la transformación de variables, otras técnicas de estimación acorde al comportamiento no lineal de las variables bajo las condiciones analizadas, eliminar los filtros establecidos, entre otros.

## [1] -5.169582e-15
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_vivienda$residuals
## W = 0.98467, p-value = 3.233e-09
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_vivienda
## BP = 175.59, df = 5, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo_vivienda
## DW = 1.768, p-value = 5.989e-05
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  One Sample t-test
## 
## data:  modelo_vivienda$residuals
## t = -3.1033e-15, df = 1076, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -3.268683  3.268683
## sample estimates:
##     mean of x 
## -5.169582e-15

e. Con el modelo identificado predecir el precio de un apartamento con 100 mt2, de estrato 4 y con parqueadero. ¿Si este apartamento lo están ofreciendo en 450 millones cual seria su opinión con base en el resultado del modelo considera que es una buena oferta?

No es una buena oferta, pues el precio estimado para una vivienda en esa zona, estrato 4 con parqueadero tiene un precio de $230.7 millones. La diferencia es muy grande para considerar analizar los factores diferenciadores que puedan estar llevando al vendedor colocar una oferta fuera del precio de la zona teniendo en cuenta solo las variables analizadas por el modelo.

## [1] 230.7909

f.Con las predicciones del modelo sugiera potenciales ofertas para una persona interesada en un apartamento en la zona norte con mas de 100 mt2 de área, de estrato 4, que tenga parqueadero y tenga encuentra que la persona tiene un crédito preaprobado de máximo 400 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir

## # A tibble: 5 x 13
##   Zona       piso  Estrato precio_millon Area_contruida parqueaderos Banos
##   <chr>      <chr>   <dbl>         <dbl>          <dbl> <chr>        <dbl>
## 1 Zona Norte 4           4           380            123 1                3
## 2 Zona Norte NA          4           350            130 1                2
## 3 Zona Norte 1           4           290            108 1                2
## 4 Zona Norte 4           4           185            104 1                3
## 5 Zona Norte NA          4           265            125 2                3
## # ... with 6 more variables: Habitaciones <dbl>, Tipo <chr>, Barrio <chr>,
## #   cordenada_longitud <dbl>, Cordenada_latitud <dbl>, parqueadero <lgl>
## [1] 254.7872 262.0905 239.1374 234.9642 256.8739

Los 3 primeros apartamentos tienen un precio de venta que supera en 70 millones o más la estimación del modelo y no se recomendaría, pues se podrían encontrar viviendas similares con mejores precios más cercanos a la estimación. La 4 vivienda presenta un valor de mercado inferior a la estimación y podría ser una vivienda en oferta que tal vez requiera unas adecuaciones potenciales que explican este precio. En el caso del último inmueble, es donde hay existe la menor diferencia y podría ser una vivienda que se pueda conseguir un precio de compra muy cercano al arrojado por el modelo.

## Warning: Unknown or uninitialised column: `ID`.

4 Con base en los datos de arboles proponga un modelo de regresión lineal múltiple que permita predecir el peso del árbol en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el RMSE y MAE.

##                    altura_peso
## diam_peso           0.858200928707625
##   0.908123017945949                 1
## 
## Call:
## lm(formula = data_arboles2$peso ~ data_arboles2$diametro + data_arboles2$altura, 
##     data = data_arboles2, subset = entrenamiento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.9837 -2.6493  0.2362  1.8907 10.8746 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             -7.5086     1.4594  -5.145 2.40e-06 ***
## data_arboles2$diametro   4.9301     0.7446   6.621 6.43e-09 ***
## data_arboles2$altura    -0.0883     0.6175  -0.143    0.887    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.203 on 69 degrees of freedom
## Multiple R-squared:  0.8335, Adjusted R-squared:  0.8287 
## F-statistic: 172.7 on 2 and 69 DF,  p-value: < 2.2e-16

De acuerdo al resultado de las correlaciones existentes entre las variables de diametro y altura en relacion al peso de los arbioles, se decide trabajar con estas dos variables, complementado con el analisis grafico complementario. Con esto se procede a estimar el modelo, donde el peso de cada arbol estaria explicado por: Pesoarbol= \(beta_0\)(-10,2109)+$beta_1\(5,50(diametro)+\)beta_2$ -0,15(altura) \(beta_0\): Para este modelo, el intercepto no tiene una explicación lógica \(beta_1\): Un aumento de una unidad de diametro del arbol llevara a un aumento del peso del arbol en 5.50 unidades. \(beta_2\): Por cada unidad adicional en altura del arbol, este aumentara su peso en 0.1523 unidades.

El coeficiente R2 ajustado del modelo tiene un valor de 0.8358, lo cual indica que el peso del árbol es explicado por el modelo en un 84% Sin embargo, se observa que la variable altura no es significativa y probablemente requiera otro tratamiento la variable para analizar si bajo esa transformación pueda tener significancia para el modelo.

Se procede a realizar la validación cruzada. Se obtiene un MAE de 8,92 el cual indica que el modelo en promedio tiene errores del 8,9% en el peso del árbol con una desviación de 10,8 de acuerdo al resultado del RMSE

##                   RMSE
## MAE                11.9722012560377
##   8.96075936858547                1