Comenzamos leyendo la base de datos vivienda con la cual se trabajara en este trabajo

## # A tibble: 8,322 × 12
##    Zona       piso  Estrato precio_millon Area_contruida parqueaderos Banos
##    <chr>      <chr>   <dbl>         <dbl>          <dbl> <chr>        <dbl>
##  1 Zona Sur   2           6           880          237   2                5
##  2 Zona Oeste 2           4          1200          800   3                6
##  3 Zona Sur   3           5           250           86   NA               2
##  4 Zona Sur   NA          6          1280          346   4                6
##  5 Zona Sur   2           6          1300          600   4                7
##  6 Zona Sur   3           6           513          160   2                4
##  7 Zona Sur   2           6           870          490   3                6
##  8 Zona Sur   5           5           310           82.5 1                2
##  9 Zona Sur   9           4           240           80   1                2
## 10 Zona Sur   6           6           690          150   2                5
## # … with 8,312 more rows, and 5 more variables: Habitaciones <dbl>, Tipo <chr>,
## #   Barrio <chr>, cordenada_longitud <dbl>, Cordenada_latitud <dbl>

Punto 1

Observar como se comporta el modelo con la variable categorica tipo de vivienda.

Se procede a realizar nuevamente la selección de variables para incluir a la variable Tipo en el conjunto de datos, seguido a esto se implementa dummy_cols para el tipo de vivienda.

viviendanew2 <- vivienda %>%
  select(precio_millon,Area_contruida,Tipo)

modelo2<-viviendanew2
modelo2<- dummy_cols(modelo2,
                     select_columns = "Tipo")
modelo2
## # A tibble: 8,322 × 6
##    precio_millon Area_contruida Tipo        Tipo_Apartamento Tipo_Casa Tipo_NA
##            <dbl>          <dbl> <chr>                  <int>     <int>   <int>
##  1           880          237   Casa                       0         1       0
##  2          1200          800   Casa                       0         1       0
##  3           250           86   Apartamento                1         0       0
##  4          1280          346   Apartamento                1         0       0
##  5          1300          600   Casa                       0         1       0
##  6           513          160   Casa                       0         1       0
##  7           870          490   Casa                       0         1       0
##  8           310           82.5 Apartamento                1         0       0
##  9           240           80   Apartamento                1         0       0
## 10           690          150   Apartamento                1         0       0
## # … with 8,312 more rows

Una vez obtenido los datos junto con la variable categorica, se procede a obervar el compotamiento que tiene el modelo con la covarible casa solamente.

modelocasa<-lm(precio_millon~Area_contruida+Tipo_Casa, data = modelo2)
summary(modelocasa)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Tipo_Casa, data = modelo2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2926.71  -122.58   -49.12    71.12  1276.36 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     164.48412    4.07369   40.38   <2e-16 ***
## Area_contruida    1.79514    0.02145   83.69   <2e-16 ***
## Tipo_Casa      -115.29391    6.29551  -18.31   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 234.1 on 8316 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.4929, Adjusted R-squared:  0.4928 
## F-statistic:  4042 on 2 and 8316 DF,  p-value: < 2.2e-16

Como se puede observar, el coeficiente que acompaña la variable tipo_casa es negativo; por lo cual se puede concluir que si la vivienda es casa, el valor promedio de la vivienda puede llegar a ser menor con respecto a si la vivienda es un apartamento. Por otro lado, tambien se observar que la variables son significativas; sin embargo la bondad de ajuste del modelo es baja.

Se procede a realizar el modelo nuevamente, pero en esta ocasion se observará con la covariable apartamentos

modeloapart<-lm(precio_millon~Area_contruida+Tipo_Apartamento, data = modelo2)
summary(modeloapart)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Tipo_Apartamento, 
##     data = modelo2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2926.71  -122.58   -49.12    71.12  1276.36 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       49.19021    7.17011    6.86 7.36e-12 ***
## Area_contruida     1.79514    0.02145   83.69  < 2e-16 ***
## Tipo_Apartamento 115.29391    6.29551   18.31  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 234.1 on 8316 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.4929, Adjusted R-squared:  0.4928 
## F-statistic:  4042 on 2 and 8316 DF,  p-value: < 2.2e-16

En este modelo se puede observar que esta vez el valor que acompaña la covariable tipo_apartamento es positivo, lo cual se concluye como la diferencia que se presenta en el costo de una vivienda que sea casa y una vivienda que sea apartamento. Cabe decir que las variables son significativas para este modelo; sin embargo la bondad de ajuste del modelo al igual que el anterior es baja.

Finalmente se realiza un grafico de cajas para observar el comportamiento del precio de las viviendas segun el tipo de vivienda que sea:

Observando la grafica, se puede concluir totalmente lo contrario a lo obtenido en el modelo; ya que en el grafico de cajas obtenido, nos muestra que el precio de los apartamentos es inferior al precio de las casas. Sin embargo en los precio de los apartementos se presentan mas datos atipicos o por fuera de las colas a diferencia del precio de las viviendas que son casas.