1 Introduccion

Este informe busca realizar un análisis integral y multidimensuonal de la base de datos vivienda buscando comprender el mercado inmobiliario urbano, para ello aplicaremos varias técnicas de análisis como:

1.1 Dimensiones del Dataset (Tabla)

Dimensiones del Dataset
Número total de observaciones y variables
Medida Valor
Número de Filas 8322
Número de Columnas 13

1.2 Estructura del Dataset (Tabla)

Estructura del Dataset: vivienda
Tipo de variable y orden en el data frame
Posición Variable Tipo
1 id numeric
2 zona character
3 piso character
4 estrato numeric
5 preciom numeric
6 areaconst numeric
7 parqueaderos numeric
8 banios numeric
9 habitaciones numeric
10 tipo character
11 barrio character
12 longitud numeric
13 latitud numeric

1.3 Vista Preliminar del Dataset

Vista Preliminar del Dataset
Primeras 10 observaciones
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971
2326 Zona Norte 01 4 220 52 2 2 3 Apartamento acopi -76.51974 3.42627
4386 Zona Norte 01 5 310 137 2 3 4 Apartamento acopi -76.53105 3.38296
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721

1.4 Resumen Estadístico (Tabla)

Resumen Estadístico
Medidas estadísticas de las variables numéricas
Variable Min Q1 Media Mediana Q3 Max SD
id 1.00000 2080.500000 4160.000000 4160.000 6239.50000 8319.0000 2.401633e+03
estrato 3.00000 4.000000 4.633610 5.000 5.00000 6.0000 1.029222e+00
preciom 58.00000 220.000000 433.891947 330.000 540.00000 1999.0000 3.286472e+02
areaconst 30.00000 80.000000 174.934938 123.000 229.00000 1745.0000 1.429641e+02
parqueaderos 1.00000 1.000000 1.835194 2.000 2.00000 10.0000 1.124909e+00
banios 0.00000 2.000000 3.111311 3.000 4.00000 10.0000 1.428210e+00
habitaciones 0.00000 3.000000 3.605361 3.000 4.00000 10.0000 1.459537e+00
longitud -76.58915 -76.541580 -76.528606 -76.530 -76.51889 -76.4630 1.739827e-02
latitud 3.33300 3.380795 3.417644 3.416 3.45200 3.4977 4.263847e-02

Dentro del resumen estádistico podemos observar por ejemplo:

  • Estrato : El valor minimo 3 y el máximo 6 confirmando que los datos se centran en propiedades de estrato medio-alto
  • Precio: El precio mediano es de 330.000 unidades lo cual ibdica que la mitad de las propiedades cuestan menos de este valor
  • Areaconst: El área construida la mediana es de 123 m2, con una desviación estándar considerable, lo que nos indica una variedad de áreas, demostrando también así la gran dispersión entre las áreas donde la menor es de 30m2 y la mayor es de 1.745 m2
  • Parqueaderos y Baños: Los valores minimos son 1 y 0 respectivamente , mientras las medias son 2 y 3 , mostrando que la mayoria de propiedades tienen 2 parqueaderos y 3 baños
  • Habitaciones: El valor mediano es 3 lo que indica que la mayoria de propiedades tiene 3 habitaciones

1.5 Visualización de la Variable Precio

2 Limpieza y preprocesamiento

## # A tibble: 13 × 2
##    variable      n_na
##    <chr>        <int>
##  1 piso          2638
##  2 parqueaderos  1605
##  3 id               3
##  4 zona             3
##  5 estrato          3
##  6 areaconst        3
##  7 banios           3
##  8 habitaciones     3
##  9 tipo             3
## 10 barrio           3
## 11 longitud         3
## 12 latitud          3
## 13 preciom          2

Logramos observar que las variables “Piso” y “Parqueadero” tiene la mayor cantidad de datos faltnates

2.1 Valores Faltantes por Variable

Realizamos una imputacion de medianas para los datos numericos

De igual manera se establece una eliminacion de datos duplicados

Buscando reducir la influencia de los valores extremos sin eliminarlos por completo realizamos una tecnica de estadistica utilizada para manejar los valores atipicos en el conjunto de datos, para este caso estariamos manejando el rango del 1% y 99% buscando que todos los valores por debajo del percentil 1% se sustituyan por el percentil del 1% y de igual manera para el valor del percentil del 99%

2.2 Winsorizar Precios y Area

3 Analisis Exploratorio (EDA)

3.1 Graficas de Precio

Establecemos algunas graficas de precio buscando encontrar la relacion entre ellas, podemos observar que el histograma muestra la mayoria de las propiedades se encuentran concentradas en un rango de precios mas bajos.Asi mismo que a mayor area mayor es el precio con un tendencia claramente definida aunque con bastante variabilidad y finalmente podemos observar la diferencia que disponemos de precios vs los estratos, siendo demostrado que esta variable es un factor critico

3.2 Matriz de Correlacion

Dentro de la matriz de correlación podemos observar que los valores más cercano a 1 (azul oscuro) indican una correlación positivamente fuerte, mientras que los valores cercanos a 0 poca o ninguna correlación, tanto así que podemos encontrar una correlación positiva entre: - “areaconst_w” y “banios” lo que nos indica que entre más área y más baños, el precio tiende a ser más alto - “parqueaderos” también tienen una correlación moderada con el precio - “habitaciones” aunque no esperado, se puede oservar una correlación más debil vs otras variables con respecto al precio

4 PCA - Reduccion de Dimensionalidad

Observaremos en primer momento el Scree Plot y tabla de Importance of components explicando la varianza a cada componenete principal, teniendo como hallazgos clave:

En conclusión podemos observar que con solo los 2 primos componentes principales logramos explicar el 83% de la información contenida en las variables originales, justificando la reducción de la dimensionalidad y la visualización de los datos

## Importance of components:
##                           PC1    PC2     PC3     PC4
## Standard deviation     1.6006 0.8774 0.59852 0.55687
## Proportion of Variance 0.6405 0.1925 0.08956 0.07753
## Cumulative Proportion  0.6405 0.8329 0.92247 1.00000

##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.5618336        64.045840                    64.04584
## Dim.2  0.7698328        19.245821                    83.29166
## Dim.3  0.3582259         8.955647                    92.24731
## Dim.4  0.3101077         7.752692                   100.00000
## [1] 2

5 Clustering (sobre PCs)

Dentro de nuestro primer gráfico observamos el valor máximo que usaremos de k=2 , mientras que nuestro segundo gráfico podremos ver la calidad de los dos clusteres identificados, obteniendo como resultado que el cluster 2 tienen un ancho de silueta promedio de 0.64 significamente encima del promedio global y que el clúster 1 con un ancho de silueta promedio de 0.25 por debajo del promedio, mostrando que el cluster 2 es más robusto y mejor definido que el clúster 1

5.1 Evaluacion de Clustering

## [1] 0.5314321
##   cluster size ave.sil.width
## 1       1 2383          0.25
## 2       2 5936          0.64

5.2 Resumen por Clustering

## # A tibble: 2 × 7
##   cluster_km     n precio_mean area_mean banios_mean habitaciones_mean
##   <fct>      <int>       <dbl>     <dbl>       <dbl>             <dbl>
## 1 1           2383        747.      326.        4.73              5.05
## 2 2           5936        307.      111.        2.46              3.03
## # ℹ 1 more variable: parqueaderos_mean <dbl>

Observando dos grandes grupos un segmento premium como cluster 1 y un segmento estándar el cual sería el cluster 2 ## Mapa de Distribucion Geografica de Clusters

6 Analisis de Correspondencia / MCA (variables categoricas)

Se observa un mercado inmobiliario de la ciudad no es uniforme, sino que se encuentra segmentado por lo cual podemos concluir:

7 Conclusiones y Recomendaciones para la Empresa Inmobiliaria