Se utiliza R-Studio para identificar las tendencias y patrones en los datos.
los datos tienen la siguiente estructura Las primeras filas del data frame son:
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parquea banios habitac tipo
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 8312 Zona Oeste 4 6 1300 318 2 4 2 Apart…
## 2 8311 Zona Oeste 1 6 480 300 1 4 4 Casa
## 3 8307 Zona Oeste NA 5 1200 800 4 7 5 Casa
## 4 8296 Zona Sur 2 3 220 150 1 2 4 Casa
## 5 8297 Zona Oeste NA 5 330 112 2 4 3 Casa
## 6 8298 Zona Sur NA 5 1350 390 8 10 10 Casa
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>
.
## id zona piso estrato preciom areaconst parquea banios
## 3 3 2641 3 2 3 1606 3
## habitac tipo barrio longitud latitud
## 3 3 3 3 3
Se utilizara los datos depurados (4812 registros), para el analisis se utilizan solo aquellos registros que tienen la totalidad de las variables diligenciadas.
La mayor cantidad de viviendas estan ubicadas en la zona sur, seguido de la zona norte.
## Descriptive Statistics
## datosSINA$preciom
## N: 4812
##
## preciom
## ----------------- ---------
## Mean 457.62
## Std.Dev 326.18
## Min 58.00
## Q1 245.00
## Median 350.00
## Q3 560.00
## Max 1999.00
## MAD 192.74
## IQR 315.00
## CV 0.71
## Skewness 1.84
## SE.Skewness 0.04
## Kurtosis 3.52
## N.Valid 4812.00
## Pct.Valid 100.00
Los precios tienen un CV inferior al 20%, por lo tanto se puede decir que son datos homogéneos.
los datos se pueden clasificar como Leptocurticos, por tener un indicador de curtosis mayor a 0.
el 50% de los precios x m2 oscilan entre 245 a 560.
Diagrama:
## Descriptive Statistics
## datosSINA$areaconst
## N: 4812
##
## areaconst
## ----------------- -----------
## Mean 174.83
## Std.Dev 138.30
## Min 40.00
## Q1 85.00
## Median 123.00
## Q3 225.00
## Max 1500.00
## MAD 74.13
## IQR 140.00
## CV 0.79
## Skewness 2.57
## SE.Skewness 0.04
## Kurtosis 10.95
## N.Valid 4812.00
## Pct.Valid 100.00
## Frequencies
## area
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ------------------------- ------ --------- -------------- --------- --------------
## (38.5,186] 3296 68.495 68.495 68.495 68.495
## (186,332] 982 20.407 88.903 20.407 88.903
## (332,478] 350 7.273 96.176 7.273 96.176
## (478,624] 120 2.494 98.670 2.494 98.670
## (624,770] 30 0.623 99.293 0.623 99.293
## (770,916] 17 0.353 99.647 0.353 99.647
## (916,1.06e+03] 12 0.249 99.896 0.249 99.896
## (1.06e+03,1.21e+03] 2 0.042 99.938 0.042 99.938
## (1.21e+03,1.35e+03] 0 0.000 99.938 0.000 99.938
## (1.35e+03,1.5e+03] 3 0.062 100.000 0.062 100.000
## <NA> 0 0.000 100.000
## Total 4812 100.000 100.000 100.000 100.000
Nombre de la Variable : barrio
Tipo de variable : character.(Cualitativo - Nominal)
Cantidad de registros: Al revisar los datos de
barrios de Cali, se identifican.273 barrios diferentes,
sin embargo, es necesario realizar el reemplazo en algunos
registros. Por ejemplo: “el Caney” por “caney”.
## chr [1:4812] "-76.576" "-76.571" "-76.565" "-76.565" "-76.564" "-76.564" ...
## num [1:4812] 3.45 3.45 3.42 3.41 3.41 ...
## Linking to GEOS 3.11.2, GDAL 3.6.2, PROJ 9.2.0; sf_use_s2() is TRUE
Una vez se han depurado los datos se procede a analizar la información, para entregar las recomendaciones a la empresa:
Se tienen identificadas 5 zonas, en la siguiente tabla puede conocer el precio promedio por zona.
## Zona Precio Prom Area Prom Venta Prom x Vivienda
## 1 Zona Centro 297.89 185.40 60756
## 2 Zona Norte 371.33 163.26 81823
## 3 Zona Oeste 685.91 193.30 163319
## 4 Zona Oriente 248.84 198.79 58287
## 5 Zona Sur 434.55 172.72 109504
Al evaluar en conjunto estas variable se identifica que teniendo en cuenta el precio promedio por m2 y el area de cada vivienda, se identifica que el mayor ingreso promedio por vivienda se logra en la zona Oeste y Sur.
Al realizar el analisis incluyendo el tipo de vivienda encontramos el siguiente resultado.
## Zona Area Total vendida Total Venta
## 1 Zona Centro 6674.5 2187221
## 2 Zona Norte 144814.3 72577190
## 3 Zona Oeste 146135.7 123469220
## 4 Zona Oriente 19282.9 5653861
## 5 Zona Sur 524373.8 332455043
## Tipo Zona Area Total vendida Total Venta
## 1 Apartamento Zona Centro 384.0 73680
## 2 Casa Zona Centro 6290.5 2113541
## 3 Apartamento Zona Norte 67103.5 26869478
## 4 Casa Zona Norte 77710.8 45707712
## 5 Apartamento Zona Oeste 117288.2 98998138
## 6 Casa Zona Oeste 28847.5 24471082
## 7 Apartamento Zona Oriente 1638.9 259210
## 8 Casa Zona Oriente 17644.0 5394651
## 9 Apartamento Zona Sur 187232.0 71231105
## 10 Casa Zona Sur 337141.8 261223938
De las dos zonas donde se genera más ingresos, es en la zona Oeste y
zona Sur. Al abrir estas dos zonas se identifica que los apartamentos
generan más ingresos en la zona Oeste y en el sur las casas.
Teniendo en cuenta la información anterior se analizan las
características mas relevantes son:
##### 4.2.1
características apartamentos en el Oeste.
dataFc1=subset(datosajus2, (datosajus2$zona=="Zona Oeste" & datosajus2$tipo=="Apartamento"))
head(dataFc1)
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parquea banios habitac tipo
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 8312 Zona Oeste 4 6 1300 318 2 4 2 Apart…
## 2 8282 Zona Oeste 6 6 640 157 2 3 3 Apart…
## 3 8274 Zona Oeste 2 5 416 98 1 2 2 Apart…
## 4 8275 Zona Oeste 8 6 700 123 2 3 4 Apart…
## 5 8277 Zona Oeste 6 6 700 240 2 5 4 Apart…
## 6 8227 Zona Oeste 1 6 1400 300 2 4 3 Apart…
## # ℹ 3 more variables: barrio <chr>, longitud <chr>, latitud <dbl>
# Selecciona solo los campos
campos_seleccionados <- subset(dataFc1, select = c(piso,estrato,areaconst,parquea,banios,habitac,tipo,barrio))
# Imprime los campos seleccionados
print(campos_seleccionados)
## # A tibble: 672 × 8
## piso estrato areaconst parquea banios habitac tipo barrio
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 4 6 318 2 4 2 Apartamento arboleda
## 2 6 6 157 2 3 3 Apartamento santa teresita
## 3 2 5 98 1 2 2 Apartamento santa teresita
## 4 8 6 123 2 3 4 Apartamento bellavista
## 5 6 6 240 2 5 4 Apartamento el peñon
## 6 1 6 300 2 4 3 Apartamento normandía
## 7 4 6 97 2 2 2 Apartamento cristales
## 8 9 6 150 2 4 3 Apartamento cristales
## 9 9 6 194 3 4 3 Apartamento santa teresita
## 10 8 5 142 2 3 3 Apartamento santa teresita
## # ℹ 662 more rows
# Estrato
x <-table(campos_seleccionados$estrato,useNA='always')
barplot(x, main="Estrato por vivienda - Zona Oeste", xlab="Estrato", ylab="Valores", col="purple" ,cex.lab=0.8, pch=16 )
# Pisos
x <-table(campos_seleccionados$piso,useNA='always')
barplot(x, main="Pisos por vivienda - Zona Oeste", xlab="Pisos", ylab="Valores", col="purple" ,cex.lab=0.8, pch=16)
# Parqueaderos
x <-table(campos_seleccionados$parquea,useNA='always')
barplot(x, main="Parqueaderos por vivienda - Zona Oeste", xlab="Parqueaderos", ylab="Valores", col="purple" ,cex.lab=0.8, pch=16)
# Banos
x <-table(campos_seleccionados$banios,useNA='always')
barplot(x, main="Baños por vivienda - Zona Oeste", xlab="baños", ylab="Valores", col="purple" ,cex.lab=0.8, pch=16)
# Habitaciones
x <-table(campos_seleccionados$habitac,useNA='always')
bar7 <-barplot(x, main="Habitaciones por vivienda - Zona Oeste", xlab="habitaciones", ylab="Valores", col="purple" ,cex.lab=0.8, pch=16)
# tipo
x <-table(campos_seleccionados$tipo,useNA='always')
bar8 <-barplot(x, main="Tipo de vivienda - Zona Oeste", xlab="Tipo", ylab="Valores", col="purple" ,cex.lab=0.8, cex.names = 0.7 , pch=16)
##### 4.2.2 características de casas en el
Sur.
## # A tibble: 1,176 × 8
## piso estrato areaconst parquea banios habitac tipo barrio
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 2 3 150 1 2 4 Casa el guabal
## 2 3 5 320 2 6 5 Casa brisas de guadalupe
## 3 2 5 200 2 4 3 Casa altos de guadalupe
## 4 2 4 170 1 2 3 Casa guadalupe
## 5 2 6 142 2 4 3 Casa cuarto de legua
## 6 2 5 117 2 3 3 Casa cerros de guadalupe
## 7 2 5 200 2 4 6 Casa puente palma
## 8 2 3 240 1 2 7 Casa prados del sur
## 9 2 5 150 2 3 3 Casa nueva tequendama
## 10 3 5 279 1 3 4 Casa santa isabel
## # ℹ 1,166 more rows
Se identifica que el nicho que genera mayor nivel de venta, son las viviendas ubicadas en la zona sur y oeste, en casas y apartamentos.
Zona Sur: Tiene mayor probabilidad de venta las viviendas que son:
Zona Oeste:
#### *** - Estrategia*** :
Al evaluar las zonas donde B&C tiene presencia, se identifica que la zona oriente y centro son los que menos ingresos generan, para ello se podria tercerizar la gestion de estas zonas y concentrarse en las zonas que generan mayor ingreso.
estos valores son duplicados o un poco mas por las zonas del oeste y sur.
En las zonas que mayor nivel de venta se tiene, por cada unidad un ingreso promedio de:
Estas zonas, son las de mayor valorización, por lo tanto el incremento de una unidad de vivienda le generaria un mayor ingreso a la empresa.
## NULL
## # A tibble: 6 × 14
## id zona piso estrato preciom areaconst parquea banios habitac tipo
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 8312 Zona Oeste 4 6 1300 318 2 4 2 Apart…
## 2 8311 Zona Oeste 1 6 480 300 1 4 4 Casa
## 3 8296 Zona Sur 2 3 220 150 1 2 4 Casa
## 4 8299 Zona Sur 2 6 305 125 2 3 3 Apart…
## 5 8287 Zona Sur 2 5 285 120 2 4 3 Apart…
## 6 8288 Zona Sur 1 5 310 166 2 4 3 Apart…
## # ℹ 4 more variables: barrio <chr>, longitud <chr>, latitud <dbl>,
## # cluster <fct>
##
## Apartamento Casa
## 1 0.059643 0.039485
## 2 0.101829 0.014755
## 3 0.033874 0.013092
## 4 0.053408 0.061305
## 5 0.134663 0.053616
## 6 0.049667 0.038653
## 7 0.014339 0.013924
## 8 0.071488 0.035328
## 9 0.068994 0.027639
## 10 0.074190 0.040108
## Frequencies
## datosajus2$cluster
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 1 477 9.91 9.91 9.91 9.91
## 2 561 11.66 21.57 11.66 21.57
## 3 226 4.70 26.27 4.70 26.27
## 4 552 11.47 37.74 11.47 37.74
## 5 906 18.83 56.57 18.83 56.57
## 6 425 8.83 65.40 8.83 65.40
## 7 136 2.83 68.23 2.83 68.23
## 8 514 10.68 78.91 10.68 78.91
## 9 465 9.66 88.57 9.66 88.57
## 10 550 11.43 100.00 11.43 100.00
## <NA> 0 0.00 100.00
## Total 4812 100.00 100.00 100.00 100.00