Este informe presenta un análisis multidimensional del mercado inmobiliario en la ciudad, utilizando técnicas estadísticas avanzadas para identificar patrones y tendencias clave. Se emplean Análisis de Componentes Principales (PCA), Clustering y Análisis de Correspondencia para obtener información relevante que optimice la toma de decisiones estratégicas.
## package 'factoextra' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\lcmar\AppData\Local\Temp\Rtmp4CK1oc\downloaded_packages
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
| 2326 | Zona Norte | 01 | 4 | 220 | 52 | 2 | 2 | 3 | Apartamento | acopi | -76.51974 | 3.42627 |
| 4386 | Zona Norte | 01 | 5 | 310 | 137 | 2 | 3 | 4 | Apartamento | acopi | -76.53105 | 3.38296 |
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
Revisar el número de filas, columnas y tipos de variables.
| Descripción | Valor |
|---|---|
| Número de filas | 8322 |
| Número de columnas | 13 |
| Variable | Tipo_de_dato | |
|---|---|---|
| id | id | numeric |
| zona | zona | character |
| piso | piso | character |
| estrato | estrato | numeric |
| preciom | preciom | numeric |
| areaconst | areaconst | numeric |
| parqueaderos | parqueaderos | numeric |
| banios | banios | numeric |
| habitaciones | habitaciones | numeric |
| tipo | tipo | character |
| barrio | barrio | character |
| longitud | longitud | numeric |
| latitud | latitud | numeric |
El dataset contiene tanto variables numéricas (precio, área, número de habitaciones, número de baños, parqueaderos) que son fundamentales para los análisis cuantitativos, como variables categóricas (como tipo de propiedad, piso, zona, barrio) que proporcionan un contexto geográfico y social relevante para segmentar el mercado.
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| id | 1 | 8319 | 4160.000000 | 2401.6327779 | 4160.000 | 4160.000000 | 3083.8080000 | 1.00000 | 8319.0000 | 8318.00000 | 0.0000000 | -1.2004328 | 26.3312235 |
| zona* | 2 | 8319 | 3.917779 | 1.3277406 | 5.000 | 4.040709 | 0.0000000 | 1.00000 | 5.0000 | 4.00000 | -0.5935879 | -1.3642062 | 0.0145572 |
| piso* | 3 | 5684 | 3.770936 | 2.6148024 | 3.000 | 3.371152 | 1.4826000 | 1.00000 | 12.0000 | 11.00000 | 1.2795930 | 1.0542476 | 0.0346826 |
| estrato | 4 | 8319 | 4.633610 | 1.0292221 | 5.000 | 4.666967 | 1.4826000 | 3.00000 | 6.0000 | 3.00000 | -0.1843226 | -1.1074181 | 0.0112843 |
| preciom | 5 | 8320 | 433.891947 | 328.6472443 | 330.000 | 374.431941 | 207.5640000 | 58.00000 | 1999.0000 | 1941.00000 | 1.8492556 | 3.6722960 | 3.6030338 |
| areaconst | 6 | 8319 | 174.934938 | 142.9641260 | 123.000 | 149.152171 | 84.5082000 | 30.00000 | 1745.0000 | 1715.00000 | 2.6933603 | 12.9138205 | 1.5674421 |
| parqueaderos | 7 | 6717 | 1.835194 | 1.1249088 | 2.000 | 1.615256 | 1.4826000 | 1.00000 | 10.0000 | 9.00000 | 2.3267096 | 8.3114962 | 0.0137255 |
| banios | 8 | 8319 | 3.111311 | 1.4282102 | 3.000 | 2.985579 | 1.4826000 | 0.00000 | 10.0000 | 10.00000 | 0.9252097 | 1.1271098 | 0.0156587 |
| habitaciones | 9 | 8319 | 3.605361 | 1.4595368 | 3.000 | 3.410245 | 1.4826000 | 0.00000 | 10.0000 | 10.00000 | 1.6348042 | 3.9840352 | 0.0160022 |
| tipo* | 10 | 8319 | 1.386945 | 0.4870803 | 1.000 | 1.358720 | 0.0000000 | 1.00000 | 2.0000 | 1.00000 | 0.4641570 | -1.7847728 | 0.0053403 |
| barrio* | 11 | 8319 | 241.482149 | 128.8347807 | 251.000 | 245.338741 | 171.9816000 | 1.00000 | 436.0000 | 435.00000 | -0.0858721 | -1.2312567 | 1.4125296 |
| longitud | 12 | 8319 | -76.528606 | 0.0173983 | -76.530 | -76.529859 | 0.0164865 | -76.58915 | -76.4630 | 0.12615 | 0.6469278 | 0.5832445 | 0.0001908 |
| latitud | 13 | 8319 | 3.417644 | 0.0426385 | 3.416 | 3.417347 | 0.0529881 | 3.33300 | 3.4977 | 0.16470 | 0.0296959 | -1.1499660 | 0.0004675 |
Como paso inicial convertir las variables categóricas en factores es esencial para asegurarnos de que el modelo y los análisis que realicemos interpreten correctamente los datos.
La imputación de valores faltantes es un proceso importante dentro de la limpieza y preprocesamiento de los datos, especialmente cuando los conjuntos de datos contienen valores nulos o faltantes (NA). La imputación tiene como objetivo reemplazar los valores faltantes con estimaciones razonables, para que el análisis no se vea afectado por la falta de datos, mejorando la calidad del modelo.
Identificamos los valores faltantes por cada atributo:
| x | |
|---|---|
| id | 3 |
| zona | 3 |
| piso | 2638 |
| estrato | 3 |
| preciom | 2 |
| areaconst | 3 |
| parqueaderos | 1605 |
| banios | 3 |
| habitaciones | 3 |
| tipo | 3 |
| barrio | 3 |
| longitud | 3 |
| latitud | 3 |
Analizamos por cada a tributo los valores faltantes a que porcentaje corresponden:
| x | |
|---|---|
| id | 0.0360490 |
| zona | 0.0360490 |
| piso | 31.6991108 |
| estrato | 0.0360490 |
| preciom | 0.0240327 |
| areaconst | 0.0360490 |
| parqueaderos | 19.2862293 |
| banios | 0.0360490 |
| habitaciones | 0.0360490 |
| tipo | 0.0360490 |
| barrio | 0.0360490 |
| longitud | 0.0360490 |
| latitud | 0.0360490 |
Las filas con valores faltantes en id son las mismas que presentan faltantes en otras variables como zona, piso, estrato, preciom, entre otras. Esto significa que estas observaciones están incompletas en la mayoria de atributos, por lo cual la estrategia a aplicar es la eliminación, lo cual no afectará el respectivo análisis.
Al eliminarlas los valores faltantes por cada atributo nos quedan así:
| x | |
|---|---|
| id | 0 |
| zona | 0 |
| piso | 2635 |
| estrato | 0 |
| preciom | 0 |
| areaconst | 0 |
| parqueaderos | 1602 |
| banios | 0 |
| habitaciones | 0 |
| tipo | 0 |
| barrio | 0 |
| longitud | 0 |
| latitud | 0 |
Con respecto al atributo piso es la que cuenta con más valores faltantes (2638), lo cual corresponde al 31,7% de los datos de dicho atributo, el cual se refiera a la ubicación del piso de un inmueble, para el caso de TIPO = APARTAMENTO o la cantidad de pisos, para el caso de TIPO = CASA, la estrategia adecuada sería imputar los valores faltantes con la moda de acuerdo al tipo de vivienda.
Imputar con la moda según el tipo de vivienda asegura que los valores imputados sean más representativos para cada tipo de inmueble, lo que favorece la coherencia de los datos, La moda es una estrategia útil y robusta cuando se tiene un alto porcentaje de valores faltantes.
| tipo | moda_piso |
|---|---|
| Apartamento | 03 |
| Casa | 02 |
Imputamos el valor de la moda en el atributo piso, teniendo como referencia el tipo de vivienda y observamos como quedan las primeras filas de nuestro dataset.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | 02 | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | 02 | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | 02 | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
Para el atributo parqueaderos cuenta con 1605 valores faltantes 19,3% de los datos, al realizar exploración del dataset se evidencia que no hay viviendas con 0 parqueaderos, por lo cual los datos faltantes a podrían referirse a propiedades sin parqueadero.
Para verificar realizamos un comparativo del promedio de preciom de viviendas con datos faltantes en parquedero, lo cual permitirá identificar si corresponden a viviendas de menor valor lo cual justificaría que se hace referencia a viviendas sin parqueadero
Análisis Comparativo del Precio Promedio de Viviendas con Datos Faltantes en la Variable “Parqueaderos”
## [1] 0
Al realizar un análisis comparativo entre el precio promedio por metro cuadrado (preciom) de las viviendas en general y el de aquellas viviendas con datos faltantes en la variable parqueaderos, se observa una diferencia significativa en los valores.
El precio promedio general de las viviendas es de 433.89, mientras que el promedio de las viviendas con datos faltantes en parqueaderos es de 287.25. Esta diferencia sugiere que las viviendas con información incompleta en la variable parqueaderos tienen un precio significativamente inferior al promedio general.
Este hallazgo favorece la idea de que las viviendas con datos faltantes en parqueaderos podrían ser propiedades sin parqueadero, lo que explicaría su menor valor en comparación con el resto del conjunto de datos, lo que justifica una posible imputación de los valores faltantes con un valor de “0” para indicar la ausencia de parqueadero.
Luego de la imputación Verificamos que el atributo parqueadero no cuente con valores faltantes.
## [1] 0
El tratamiento de datos atípicos, es fundamental en el análisis porque estos valores pueden distorsionar los resultados y generar conclusiones erróneas.
Eliminar o corregir estos datos puede mejorar la precisión de los modelos, garantizar que los resultados sean representativos y asegurar que los análisis sean válidos.
Se usan los rangos intercuartílicos (IQR) para identificar los outliers. Los valores fuera de este rango se consideran atípicos:
Los valores atípicos se reemplazan con los límites inferior o superior aceptables.
Variable: areaconst (Área construida), Presenta varios valores atípicos grandes, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con casas grandes.
## Límite superior (Upper Bound): 452.5
Para determinar los límites de los valores atípicos, usamos la siguiente estrategia:
Variable: parqueaderos tiene valores atípicos, posiblemente en propiedades de lujo, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.
Variables: banios y habitaciones poseen valores atípicos los cuales podrían corresponder con viviendas grandes o comerciales. Se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.
El precio es la variable dependiente (lo que queremos explicar). PCA es un método de reducción de dimensionalidad.
Primera Dimensión (PC1):
Explica 57.2% de la varianza en los datos. Es el componente principal más relevante, lo que significa que captura la mayoría de la información.
Segunda Dimensión (PC2):
Explica 23.6% de la varianza adicional. Combinada con PC1, estas dos dimensiones explican 80.8% de la varianza total.
Por lo cual 2 componentes reduce la dimensionalidad manteniendo un nivel alto de información.
Área construida, habitaciones, y baños tienen una correlación positiva fuerte entre sí. Esto indica que estas características suelen aumentar juntas. El tamaño (representado por área construida, habitaciones, y baños) es un factor clave en la agrupación de propiedades.
PC1: representa una dimensión de tamaño/espacio de las propiedades. Las viviendas más grandes con más habitaciones y baños tienen una mayor influencia en el precio.
Las variables de estrato y parqueaderos añaden dimensiones únicas, posiblemente relacionadas con la calidad o nivel socioeconómico. Este componente podría capturar la calidad y el nivel socioeconómico de la propiedad
PC2: describe una dimensión de calidad, diferenciando propiedades según su exclusividad o nivel de acceso socioeconómico.
Contribuciones de las variables:
PC1 (57.2% de la varianza): Está altamente influenciada por área construida, baños, y habitaciones, lo que indica que este componente representa una dimensión de tamaño y funcionalidad de la vivienda. PC2 (23.6% de la varianza): Está influenciada principalmente por estrato y parqueaderos, lo que sugiere que este componente captura una dimensión de calidad socioeconómica o exclusividad.
Los puntos representan propiedades, y están dispersos a lo largo de las dimensiones PC1 y PC2.
Las propiedades con valores extremos en PC1 son más grandes o más pequeñas en términos de tamaño. Las propiedades con valores extremos en PC2 están en zonas más exclusivas o tienen más parqueaderos.
Las dos dimensiones principales identificadas (PC1 y PC2) permiten segmentar el mercado en propiedades basadas en: Tamaño y funcionalidad: Propiedades grandes con más baños y habitaciones. Exclusividad: Propiedades con alto estrato y más parqueaderos.
Decisiones Estratégicas:
Precios: Ajustar estrategias de precios basándose en el tamaño y la exclusividad. Oferta: Priorizar propiedades en segmentos que maximizan la rentabilidad en las dimensiones clave.
El objetivo del análisis de conglomerados es identificar segmentos homogéneos de propiedades residenciales con características similares. Esto nos permitirá analizar las dinámicas específicas del mercado inmobiliario.
Basado en el gráfico, 3 o 4 clusters son una buena elección para segmentar las propiedades.
Usaremos K-Means con 3 clusters para agrupar las propiedades y visualizar los resultados.
##
## 1 2 3
## 2795 3650 1874
Análisis de las características promedio de cada
cluster
| cluster | promedio_area | promedio_parqueaderos | promedio_banios | promedio_habitaciones | promedio_estrato |
|---|---|---|---|---|---|
| 1 | 154.91524 | 1.8758497 | 3.357066 | 3.229875 | 5.430054 |
| 2 | 93.06838 | 0.7005479 | 2.034794 | 2.962329 | 3.918356 |
| 3 | 330.02194 | 2.0541622 | 4.785486 | 4.801494 | 4.838847 |
El gráfico muestra cómo se agrupan las propiedades residenciales en el espacio definido por las dos primeras componentes principales (Dim1 y Dim2) después de aplicar K-Means con 3 clusters
Cluster 1: Este cluster incluye viviendas grandes y funcionales con más área construida, habitaciones, baños y parqueaderos, de alto estrato.
Cluster 2: Este cluster incluye viviendas con una menor área construida,estrato medio, Pocos parqueaderos, probablemente apartamentos en zonas urbanas densas. Enfocadas en compradores de ingresos medios.
Cluster 3: Viviendas de gama media-alta, bien ubicadas y con características como: Área construida media, Más baños y habitaciones que el Cluster 2, Estrato alto, Buen número de parqueaderos (1.88 en promedio), lo que indica una orientación a compradores de mayor nivel socioeconómico.
Segmentación del Mercado:
El análisis identifica 3 segmentos principales de propiedades:
Propiedades funcionales, grandes y exclusivas (Cluster 1). Propiedades económicas y básicas (Cluster 2). Propiedades funcionales y exclusivas (Cluster 3).
Decisiones Estratégicas:
Cluster 1: Enfocar estrategias en familias que buscan espacio. Segmento de viviendas de lujo, probablemente ubicadas en sectores de estrato alto. Atrae a compradores con mayor poder adquisitivo, familias grandes o personas que buscan exclusividad.
Cluster 2: Orientar estrategias hacia compradoresde ingresos medios-bajos.Viviendas Probablemente ubicadas en zonas densamente pobladas con menor disponibilidad de parqueaderos. Ideal para jóvenes profesionales o familias pequeñas.
Cluster 3: Propiedades de gama media-alta, atractivas para familias con ingresos altos pero que buscan una opción más accesible que las del Cluster 1. Ubicadas en sectores exclusivos pero con menor area que las propiedades de lujo. Equilibrio entre costo y exclusividad.
Relación entre Clusters y Variables:
Dim1 y Dim2 explican el 78.2% de la varianza total, lo que indica que esta segmentación captura la mayoría de las dinámicas del mercado.
El Análisis de Correspondencia (AC) nos permite identificar patrones en datos categóricos y visualizar cómo se relacionan entre sí. En este caso, examinaremos la relación entre:
tipo de vivienda. zona. barrio
## [1] 2 5
## Apartamento Casa
## -0.2289585 0.3627488
## [,1]
## Zona Centro 0.86131854
## Zona Norte -0.02238755
## Zona Oeste -0.50482822
## Zona Oriente 0.89603812
## Zona Sur 0.04791693
Zona Sur es la más activa en términos de frecuencia total, con una gran cantidad de apartamentos y casas. Zona Norte también tiene una alta frecuencia, pero los apartamentos dominan en comparación con las casas. Zona Oeste tiene frecuencias más bajas, con un mayor balance entre apartamentos y casas. Zona Oriente tiene una menor actividad general, pero las casas tienen una frecuencia ligeramente mayor. Zona Centro tiene la actividad más baja en general.
Zona Sur tiene una fuerte presencia de apartamentos, mientras que la proporción de casas es menor. Zona Norte y Zona Oeste tienen proporciones más equilibradas de apartamentos y casas. Zona Oriente tiene una mayor proporción relativa de casas, aunque su magnitud es menor en comparación con otras zonas. Zona Centro tiene poca representación general en ambas categorías.
La relación entre Apartamento y Casa parece estar bien diferenciada, con un valor cercano a 1, lo que indica que estas categorías tienen patrones muy distintos en términos de distribución en las zonas.
Esto puede reflejar que los apartamentos y casas tienden a estar asociados con zonas específicas y no se mezclan uniformemente en todas las zonas.
El análisis de correspondencia revela patrones claros entre los tipos de vivienda y su distribución geográfica en las zonas. Esto permite segmentar el mercado para estrategias más precisas:
Zona Sur y Zona Norte:
Dominio de Apartamentos: Alta frecuencia de apartamentos en estas zonas sugiere una fuerte preferencia del mercado por propiedades de alta densidad en áreas urbanas.
Estrategia Recomendada: Invertir en el desarrollo y promoción de proyectos de apartamentos modernos y funcionales, dirigidos a familias pequeñas y jóvenes profesionales. Enfocar campañas de marketing resaltando beneficios como la proximidad a servicios urbanos y accesibilidad.
Zona Oriente y Zona Oeste:
Dominio de Casas: Mayor frecuencia relativa de casas en estas zonas indica una preferencia por viviendas más espaciosas y familiares.
Estrategia Recomendada: Priorizar proyectos de casas en zonas residenciales, dirigidos a familias que buscan tranquilidad y mayor espacio. Ofrecer opciones con características adicionales como patios, jardines y parqueaderos múltiples.
Zona Centro:
Baja Representación: La baja frecuencia en ambas categorías sugiere una oportunidad para proyectos mixtos de apartamentos y casas.
Estrategia Recomendada: Desarrollar proyectos pequeños enfocados en apartamentos.
Segmentación por Tipo de Vivienda:
Apartamentos: Enfocar las estrategias de marketing hacia la zona Sur, ya que concentra la mayor cantidad de apartamentos. Resaltar características como seguridad y accesibilidad para atraer a familias jóvenes o profesionales. Casas: Priorizar estrategias en la zona Norte y zonas periféricas para promocionar casas dirigidas a familias grandes o personas que buscan más espacio.
Utilizar los clusters identificados para establecer políticas de precios diferenciados:
Cluster 1: Enfocar estrategias gama alta para propiedades de mayor tamaño y valor. Cluster 2: Dirigir campañas económicas para propiedades pequeñas y accesibles, ideales para jóvenes o personas solteras. Cluster 3: Promover viviendas medianas con una relación calidad-precio equilibrada, ideales para familias de tamaño promedio.
Desarrollo de Proyectos en Zonas Estratégicas:
Zonas con alta demanda: Continuar desarrollando propiedades en la zona Sur, optimizando la oferta en función del estrato predominante y los tamaños requeridos. Zonas con menor oferta: Incentivar desarrollos en zonas como la zona Oriente, donde hay menos concentración de propiedades, para diversificar la oferta.
Campañas de Marketing Personalizadas
Basar las campañas en las preferencias de cada cluster y zona.