Comenzamos leyendo la base de datos vivienda con la cual se trabajara en este trabajo
## # A tibble: 8,322 × 12
## Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## <chr> <chr> <dbl> <dbl> <dbl> <chr> <dbl>
## 1 Zona Sur 2 6 880 237 2 5
## 2 Zona Oeste 2 4 1200 800 3 6
## 3 Zona Sur 3 5 250 86 NA 2
## 4 Zona Sur NA 6 1280 346 4 6
## 5 Zona Sur 2 6 1300 600 4 7
## 6 Zona Sur 3 6 513 160 2 4
## 7 Zona Sur 2 6 870 490 3 6
## 8 Zona Sur 5 5 310 82.5 1 2
## 9 Zona Sur 9 4 240 80 1 2
## 10 Zona Sur 6 6 690 150 2 5
## # … with 8,312 more rows, and 5 more variables: Habitaciones <dbl>, Tipo <chr>,
## # Barrio <chr>, cordenada_longitud <dbl>, Cordenada_latitud <dbl>
Observar como se comporta el modelo con la variable categorica tipo de vivienda.
Se procede a realizar nuevamente la selección de variables para incluir a la variable Tipo en el conjunto de datos, seguido a esto se implementa dummy_cols para el tipo de vivienda.
viviendanew2 <- vivienda %>%
select(precio_millon,Area_contruida,Tipo)
modelo2<-viviendanew2
modelo2<- dummy_cols(modelo2,
select_columns = "Tipo")
modelo2
## # A tibble: 8,322 × 6
## precio_millon Area_contruida Tipo Tipo_Apartamento Tipo_Casa Tipo_NA
## <dbl> <dbl> <chr> <int> <int> <int>
## 1 880 237 Casa 0 1 0
## 2 1200 800 Casa 0 1 0
## 3 250 86 Apartamento 1 0 0
## 4 1280 346 Apartamento 1 0 0
## 5 1300 600 Casa 0 1 0
## 6 513 160 Casa 0 1 0
## 7 870 490 Casa 0 1 0
## 8 310 82.5 Apartamento 1 0 0
## 9 240 80 Apartamento 1 0 0
## 10 690 150 Apartamento 1 0 0
## # … with 8,312 more rows
Una vez obtenido los datos junto con la variable categorica, se procede a obervar el compotamiento que tiene el modelo con la covarible casa solamente.
modelocasa<-lm(precio_millon~Area_contruida+Tipo_Casa, data = modelo2)
summary(modelocasa)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida + Tipo_Casa, data = modelo2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2926.71 -122.58 -49.12 71.12 1276.36
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 164.48412 4.07369 40.38 <2e-16 ***
## Area_contruida 1.79514 0.02145 83.69 <2e-16 ***
## Tipo_Casa -115.29391 6.29551 -18.31 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 234.1 on 8316 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.4929, Adjusted R-squared: 0.4928
## F-statistic: 4042 on 2 and 8316 DF, p-value: < 2.2e-16
Como se puede observar, el coeficiente que acompaña la variable tipo_casa es negativo; por lo cual se puede concluir que si la vivienda es casa, el valor promedio de la vivienda puede llegar a ser menor con respecto a si la vivienda es un apartamento. Por otro lado, tambien se observar que la variables son significativas; sin embargo la bondad de ajuste del modelo es baja.
Se procede a realizar el modelo nuevamente, pero en esta ocasion se observará con la covariable apartamentos
modeloapart<-lm(precio_millon~Area_contruida+Tipo_Apartamento, data = modelo2)
summary(modeloapart)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida + Tipo_Apartamento,
## data = modelo2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2926.71 -122.58 -49.12 71.12 1276.36
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 49.19021 7.17011 6.86 7.36e-12 ***
## Area_contruida 1.79514 0.02145 83.69 < 2e-16 ***
## Tipo_Apartamento 115.29391 6.29551 18.31 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 234.1 on 8316 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.4929, Adjusted R-squared: 0.4928
## F-statistic: 4042 on 2 and 8316 DF, p-value: < 2.2e-16
En este modelo se puede observar que esta vez el valor que acompaña la covariable tipo_apartamento es positivo, lo cual se concluye como la diferencia que se presenta en el costo de una vivienda que sea casa y una vivienda que sea apartamento. Cabe decir que las variables son significativas para este modelo; sin embargo la bondad de ajuste del modelo al igual que el anterior es baja.
Finalmente se realiza un grafico de cajas para observar el
comportamiento del precio de las viviendas segun el tipo de vivienda que
sea:
Observando la grafica, se puede concluir totalmente lo contrario a lo obtenido en el modelo; ya que en el grafico de cajas obtenido, nos muestra que el precio de los apartamentos es inferior al precio de las casas. Sin embargo en los precio de los apartementos se presentan mas datos atipicos o por fuera de las colas a diferencia del precio de las viviendas que son casas.