Este informe busca realizar un análisis integral y multidimensuonal de la base de datos vivienda buscando comprender el mercado inmobiliario urbano, para ello aplicaremos varias técnicas de análisis como:
| Dimensiones del Dataset | |
| Número total de observaciones y variables | |
| Medida | Valor |
|---|---|
| Número de Filas | 8322 |
| Número de Columnas | 13 |
| Estructura del Dataset: vivienda | ||
| Tipo de variable y orden en el data frame | ||
| Posición | Variable | Tipo |
|---|---|---|
| 1 | id | numeric |
| 2 | zona | character |
| 3 | piso | character |
| 4 | estrato | numeric |
| 5 | preciom | numeric |
| 6 | areaconst | numeric |
| 7 | parqueaderos | numeric |
| 8 | banios | numeric |
| 9 | habitaciones | numeric |
| 10 | tipo | character |
| 11 | barrio | character |
| 12 | longitud | numeric |
| 13 | latitud | numeric |
| Vista Preliminar del Dataset | ||||||||||||
| Primeras 10 observaciones | ||||||||||||
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
| 2326 | Zona Norte | 01 | 4 | 220 | 52 | 2 | 2 | 3 | Apartamento | acopi | -76.51974 | 3.42627 |
| 4386 | Zona Norte | 01 | 5 | 310 | 137 | 2 | 3 | 4 | Apartamento | acopi | -76.53105 | 3.38296 |
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| Resumen Estadístico | |||||||
| Medidas estadísticas de las variables numéricas | |||||||
| Variable | Min | Q1 | Media | Mediana | Q3 | Max | SD |
|---|---|---|---|---|---|---|---|
| id | 1.00000 | 2080.500000 | 4160.000000 | 4160.000 | 6239.50000 | 8319.0000 | 2.401633e+03 |
| estrato | 3.00000 | 4.000000 | 4.633610 | 5.000 | 5.00000 | 6.0000 | 1.029222e+00 |
| preciom | 58.00000 | 220.000000 | 433.891947 | 330.000 | 540.00000 | 1999.0000 | 3.286472e+02 |
| areaconst | 30.00000 | 80.000000 | 174.934938 | 123.000 | 229.00000 | 1745.0000 | 1.429641e+02 |
| parqueaderos | 1.00000 | 1.000000 | 1.835194 | 2.000 | 2.00000 | 10.0000 | 1.124909e+00 |
| banios | 0.00000 | 2.000000 | 3.111311 | 3.000 | 4.00000 | 10.0000 | 1.428210e+00 |
| habitaciones | 0.00000 | 3.000000 | 3.605361 | 3.000 | 4.00000 | 10.0000 | 1.459537e+00 |
| longitud | -76.58915 | -76.541580 | -76.528606 | -76.530 | -76.51889 | -76.4630 | 1.739827e-02 |
| latitud | 3.33300 | 3.380795 | 3.417644 | 3.416 | 3.45200 | 3.4977 | 4.263847e-02 |
Dentro del resumen estádistico podemos observar por ejemplo:
## # A tibble: 13 × 2
## variable n_na
## <chr> <int>
## 1 piso 2638
## 2 parqueaderos 1605
## 3 id 3
## 4 zona 3
## 5 estrato 3
## 6 areaconst 3
## 7 banios 3
## 8 habitaciones 3
## 9 tipo 3
## 10 barrio 3
## 11 longitud 3
## 12 latitud 3
## 13 preciom 2
Logramos observar que las variables “Piso” y “Parqueadero” tiene la mayor cantidad de datos faltnates
Realizamos una imputacion de medianas para los datos numericos
De igual manera se establece una eliminacion de datos duplicados
Buscando reducir la influencia de los valores extremos sin eliminarlos por completo realizamos una tecnica de estadistica utilizada para manejar los valores atipicos en el conjunto de datos, para este caso estariamos manejando el rango del 1% y 99% buscando que todos los valores por debajo del percentil 1% se sustituyan por el percentil del 1% y de igual manera para el valor del percentil del 99%
Establecemos algunas graficas de precio buscando encontrar la relacion entre ellas, podemos observar que el histograma muestra la mayoria de las propiedades se encuentran concentradas en un rango de precios mas bajos.Asi mismo que a mayor area mayor es el precio con un tendencia claramente definida aunque con bastante variabilidad y finalmente podemos observar la diferencia que disponemos de precios vs los estratos, siendo demostrado que esta variable es un factor critico
Dentro de la matriz de correlación podemos observar que los valores más cercano a 1 (azul oscuro) indican una correlación positivamente fuerte, mientras que los valores cercanos a 0 poca o ninguna correlación, tanto así que podemos encontrar una correlación positiva entre: - “areaconst_w” y “banios” lo que nos indica que entre más área y más baños, el precio tiende a ser más alto - “parqueaderos” también tienen una correlación moderada con el precio - “habitaciones” aunque no esperado, se puede oservar una correlación más debil vs otras variables con respecto al precio
Observaremos en primer momento el Scree Plot y tabla de Importance of components explicando la varianza a cada componenete principal, teniendo como hallazgos clave:
En conclusión podemos observar que con solo los 2 primos componentes principales logramos explicar el 83% de la información contenida en las variables originales, justificando la reducción de la dimensionalidad y la visualización de los datos
## Importance of components:
## PC1 PC2 PC3 PC4
## Standard deviation 1.6006 0.8774 0.59852 0.55687
## Proportion of Variance 0.6405 0.1925 0.08956 0.07753
## Cumulative Proportion 0.6405 0.8329 0.92247 1.00000
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.5618336 64.045840 64.04584
## Dim.2 0.7698328 19.245821 83.29166
## Dim.3 0.3582259 8.955647 92.24731
## Dim.4 0.3101077 7.752692 100.00000
## [1] 2
Dentro de nuestro primer gráfico observamos el valor máximo que usaremos de k=2 , mientras que nuestro segundo gráfico podremos ver la calidad de los dos clusteres identificados, obteniendo como resultado que el cluster 2 tienen un ancho de silueta promedio de 0.64 significamente encima del promedio global y que el clúster 1 con un ancho de silueta promedio de 0.25 por debajo del promedio, mostrando que el cluster 2 es más robusto y mejor definido que el clúster 1
## [1] 0.5314321
## cluster size ave.sil.width
## 1 1 2383 0.25
## 2 2 5936 0.64
## # A tibble: 2 × 7
## cluster_km n precio_mean area_mean banios_mean habitaciones_mean
## <fct> <int> <dbl> <dbl> <dbl> <dbl>
## 1 1 2383 747. 326. 4.73 5.05
## 2 2 5936 307. 111. 2.46 3.03
## # ℹ 1 more variable: parqueaderos_mean <dbl>
Observando dos grandes grupos un segmento premium como cluster 1 y un segmento estándar el cual sería el cluster 2 ## Mapa de Distribucion Geografica de Clusters
Se observa un mercado inmobiliario de la ciudad no es uniforme, sino que se encuentra segmentado por lo cual podemos concluir: