Este informe presenta un análisis multidimensional del mercado inmobiliario en la ciudad, utilizando técnicas estadísticas avanzadas para identificar patrones y tendencias clave. Se emplean Análisis de Componentes Principales (PCA), Clustering y Análisis de Correspondencia para obtener información relevante que optimice la toma de decisiones estratégicas.
## package 'factoextra' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\lcmar\AppData\Local\Temp\RtmpwtCOoL\downloaded_packages
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
| 2326 | Zona Norte | 01 | 4 | 220 | 52 | 2 | 2 | 3 | Apartamento | acopi | -76.51974 | 3.42627 |
| 4386 | Zona Norte | 01 | 5 | 310 | 137 | 2 | 3 | 4 | Apartamento | acopi | -76.53105 | 3.38296 |
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
Revisar el número de filas, columnas y tipos de variables.
| Descripción | Valor |
|---|---|
| Número de filas | 8322 |
| Número de columnas | 13 |
| Tipo_de_dato | |
|---|---|
| id | numeric |
| zona | character |
| piso | character |
| estrato | numeric |
| preciom | numeric |
| areaconst | numeric |
| parqueaderos | numeric |
| banios | numeric |
| habitaciones | numeric |
| tipo | character |
| barrio | character |
| longitud | numeric |
| latitud | numeric |
El dataset contiene tanto variables numéricas (precio, área, número de habitaciones, número de baños, parqueaderos) que son fundamentales para los análisis cuantitativos, como variables categóricas (tipo de propiedad, estrato, piso, zona, barrio) que proporcionan un contexto geográfico y social relevante para segmentar el mercado.
| Variable | Categoria | Frecuencia | Proporcion | |
|---|---|---|---|---|
| Apartamento | tipo | Apartamento | 5100 | 0.6130545 |
| Casa | tipo | Casa | 3219 | 0.3869455 |
| 3 | estrato | 3 | 1453 | 0.1746604 |
| 4 | estrato | 4 | 2129 | 0.2559202 |
| 5 | estrato | 5 | 2750 | 0.3305686 |
| 6 | estrato | 6 | 1987 | 0.2388508 |
| 01 | piso | 01 | 860 | 0.1513019 |
| 02 | piso | 02 | 1450 | 0.2551020 |
| 03 | piso | 03 | 1097 | 0.1929979 |
| 04 | piso | 04 | 607 | 0.1067910 |
| 05 | piso | 05 | 567 | 0.0997537 |
| 06 | piso | 06 | 245 | 0.0431034 |
| 07 | piso | 07 | 204 | 0.0358902 |
| 08 | piso | 08 | 211 | 0.0371217 |
| 09 | piso | 09 | 146 | 0.0256861 |
| 10 | piso | 10 | 130 | 0.0228712 |
| 11 | piso | 11 | 84 | 0.0147783 |
| 12 | piso | 12 | 83 | 0.0146024 |
| Zona Centro | zona | Zona Centro | 124 | 0.0149056 |
| Zona Norte | zona | Zona Norte | 1920 | 0.2307970 |
| Zona Oeste | zona | Zona Oeste | 1198 | 0.1440077 |
| Zona Oriente | zona | Zona Oriente | 351 | 0.0421926 |
| Zona Sur | zona | Zona Sur | 4726 | 0.5680971 |
Como paso inicial convertir las variables categóricas en factores es esencial para asegurarnos de que el modelo y los análisis que realicemos interpreten correctamente los datos.
La imputación de valores faltantes es un proceso importante dentro de la limpieza y preprocesamiento de los datos, especialmente cuando los conjuntos de datos contienen valores nulos o faltantes (NA). La imputación tiene como objetivo reemplazar los valores faltantes con estimaciones razonables, para que el análisis no se vea afectado por la falta de datos, mejorando la calidad del modelo.
Identificamos los valores faltantes por cada atributo:
| x | |
|---|---|
| id | 3 |
| zona | 3 |
| piso | 2638 |
| estrato | 3 |
| preciom | 2 |
| areaconst | 3 |
| parqueaderos | 1605 |
| banios | 3 |
| habitaciones | 3 |
| tipo | 3 |
| barrio | 3 |
| longitud | 3 |
| latitud | 3 |
Analizamos por cada a tributo los valores faltantes a que porcentaje corresponden:
| x | |
|---|---|
| id | 0.0360490 |
| zona | 0.0360490 |
| piso | 31.6991108 |
| estrato | 0.0360490 |
| preciom | 0.0240327 |
| areaconst | 0.0360490 |
| parqueaderos | 19.2862293 |
| banios | 0.0360490 |
| habitaciones | 0.0360490 |
| tipo | 0.0360490 |
| barrio | 0.0360490 |
| longitud | 0.0360490 |
| latitud | 0.0360490 |
Las filas con valores faltantes en id son las mismas que presentan faltantes en otras variables como zona, piso, estrato, preciom, entre otras. Esto significa que estas observaciones están incompletas en la mayoria de atributos, por lo cual la estrategia a aplicar es la eliminación, lo cual no afectará el respectivo análisis.
Al eliminarlas los valores faltantes por cada atributo nos quedan así:
| x | |
|---|---|
| id | 0 |
| zona | 0 |
| piso | 2635 |
| estrato | 0 |
| preciom | 0 |
| areaconst | 0 |
| parqueaderos | 1602 |
| banios | 0 |
| habitaciones | 0 |
| tipo | 0 |
| barrio | 0 |
| longitud | 0 |
| latitud | 0 |
Con respecto al atributo piso es la que cuenta con más valores faltantes (2638), lo cual corresponde al 31,7% de los datos de dicho atributo, el cual se refiera a la ubicación del piso de un inmueble, para el caso de TIPO = APARTAMENTO o la cantidad de pisos, para el caso de TIPO = CASA, la estrategia establecida es imputar los valores faltantes con la moda de acuerdo al tipo de vivienda.
Imputar con la moda según el tipo de vivienda asegura que los valores imputados sean más representativos para cada tipo de inmueble, lo que favorece la coherencia de los datos, La moda es una estrategia útil y robusta cuando se tiene un alto porcentaje de valores faltantes.
| tipo | moda_piso |
|---|---|
| Apartamento | 03 |
| Casa | 02 |
Imputamos el valor de la moda en el atributo piso, teniendo como referencia el tipo de vivienda y observamos como quedan las primeras filas de nuestro dataset.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | 2 | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | 2 | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | 2 | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 2 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 1 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
Para el atributo parqueaderos cuenta con 1605 valores faltantes 19,3% de los datos, al realizar exploración del dataset se evidencia que no hay viviendas con 0 parqueaderos, por lo cual los datos faltantes a podrían referirse a propiedades sin parqueadero.
Para verificar realizamos un comparativo del promedio de preciom de viviendas con datos faltantes en parquedero, lo cual permitirá identificar si corresponden a viviendas de menor valor lo cual justificaría que se hace referencia a viviendas sin parqueadero
Análisis Comparativo del Precio Promedio de Viviendas con Datos Faltantes en la Variable “Parqueaderos”
## [1] 0
Al realizar un análisis comparativo entre el precio promedio por metro cuadrado (preciom) de las viviendas en general y el de aquellas viviendas con datos faltantes en la variable parqueaderos, se observa una diferencia significativa en los valores.
El precio promedio general de las viviendas es de 433.89, mientras que el promedio de las viviendas con datos faltantes en parqueaderos es de 287.25. Esta diferencia sugiere que las viviendas con información incompleta en la variable parqueaderos tienen un precio significativamente inferior al promedio general.
Este hallazgo favorece la idea de que las viviendas con datos faltantes en parqueaderos podrían ser propiedades sin parqueadero, lo que explicaría su menor valor en comparación con el resto del conjunto de datos, lo que justifica una posible imputación de los valores faltantes con un valor de “0” para indicar la ausencia de parqueadero.
Luego de la imputación Verificamos que el atributo parqueadero no cuente con valores faltantes.
## [1] 0
El tratamiento de datos atípicos, es fundamental en el análisis porque estos valores pueden distorsionar los resultados y generar conclusiones erróneas.
Eliminar o corregir estos datos puede mejorar la precisión de los modelos, garantizar que los resultados sean representativos y asegurar que los análisis sean válidos.
Se usan los rangos intercuartílicos (IQR) para identificar los outliers. Los valores fuera de este rango se consideran atípicos:
Los valores atípicos se reemplazan con los límites inferior o superior aceptables.
Variable: areaconst (Área construida), Presenta varios valores atípicos grandes, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con casas grandes.
## Límite superior (Upper Bound): 452.5
Para determinar los límites de los valores atípicos, usamos la siguiente estrategia:
Variable: parqueaderos tiene valores atípicos, posiblemente en propiedades de lujo, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.
Variables: banios y habitaciones poseen valores atípicos los cuales podrían corresponder con viviendas grandes o comerciales. Se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.
PCA es un método de reducción de dimensionalidad.
Primera Dimensión (PC1):
Explica 66.2% de la varianza en los datos. Es el componente principal más relevante, lo que significa que captura la mayoría de la información.
Segunda Dimensión (PC2):
Explica 17.1% de la varianza adicional. Combinada con PC1, estas dos dimensiones explican 83.3% de la varianza total.
La alta varianza explicada en el primer componente sugiere que hay una fuerte relación lineal entre las variables, por lo cual probablemente algunas de ellas pueden ser predichas a partir de las demás.
La curva en la gráfica de varianza explicada acumulada muestra que los primeros dos componentes son suficientes para capturar la mayor parte de la información, por lo que no sería necesario considerar los siguientes componentes.
Área construida, habitaciones y precio tienen una correlación positiva fuerte entre sí. Esto indica que estas características suelen aumentar juntas. El tamaño y precio (representado por área construida, habitaciones, baños y precio) es un factor clave en la agrupación de propiedades.
PC1: representa una dimensión de tamaño - precio de las propiedades. Las viviendas más grandes con más habitaciones y baños tienen un mayor precio.
La variable de parqueaderos aunque influye en el precio, tiene un comportamiento un poco diferente al de las demás variables, posiblemente relacionadas con la calidad o nivel socioeconómico. Este componente podría capturar la calidad y el nivel socioeconómico de la propiedad.
PC2: describe una dimensión de exclusividad, diferenciando propiedades según nivel de acceso socioeconómico.
Contribuciones de las variables:
PC1 (66.2% de la varianza): Está altamente influenciada por área construida, habitaciones y precio, lo que indica que este componente representa una dimensión de tamaño y precio. PC2 (17.1% de la varianza): Está influenciada principalmente por parqueaderos, lo que sugiere que este componente captura una dimensión de calidad socioeconómica, exclusividad o disposición de parqueaderos.
Los puntos representan propiedades, y están dispersos a lo largo de las dimensiones PC1 y PC2.
Las propiedades con valores extremos en PC1 son más grandes o más pequeñas en términos de tamaño. Las propiedades con valores extremos en PC2 tienen más parqueaderos.
Las dos dimensiones principales identificadas (PC1 y PC2) permiten segmentar el mercado en propiedades basadas en: Tamaño - precio: Propiedades grandes con más baños y habitaciones. Disposicion de parqueaderos: Propiedades con más parqueaderos.
Perfil de los clientes y estrategias de mercado:
Alto en Dim1 (propiedades grandes y costosas)
Cliente objetivo: Compradores de alto poder adquisitivo, interesados en propiedades espaciosas, con más habitaciones y baños.
Estrategia: Ofrecer financiamiento especial, destacar exclusividad y calidad, ubicación en zonas de lujo.
Bajo en Dim1 (propiedades pequeñas y económicas)
Cliente objetivo: Compradores iniciales, inversionistas de rentas, personas con menor presupuesto. Estrategia: Enfocar publicidad en accesibilidad financiera, cercanía a servicios esenciales y oportunidad de inversión.
Alto en Dim2 (propiedades con más parqueaderos)
Cliente objetivo: Familias con múltiples vehículos, compradores en zonas suburbanas o que priorizan estacionamiento.
Estrategia: Enfocar esfuerzos de venta en clientes con necesidades de movilidad, ofrecer incentivos como parqueaderos adicionales o paquetes de compra de parqueadero y/o bodega.
Bajo en Dim2 (propiedades con pocos o ningún parqueadero)
Cliente objetivo: Personas que dependen del transporte público, jóvenes profesionales, personas que buscan vivienda en zonas céntricas.
Estrategia: Resaltar ventajas como proximidad a estaciones de transporte, enfoque en vida urbana, flexibilidad de espacios.
El objetivo del análisis de conglomerados es identificar segmentos homogéneos de propiedades residenciales con características similares. Esto nos permitirá analizar las dinámicas específicas del mercado inmobiliario.
Basado en el gráfico, 3 o 4 clusters son una buena elección para segmentar las propiedades.
Usaremos K-Means con 4 clusters, ya que la disminución en la inercia se estabiliza y los cambios son más pequeños. para agrupar las propiedades y visualizar los resultados.
##
## 1 2 3 4
## 1227 1215 2109 3768
Análisis de las características promedio de cada
cluster
| cluster | promedio_area | promedio_parqueaderos | promedio_banios | promedio_habitaciones | promedio_preciom |
|---|---|---|---|---|---|
| 1 | 341.4127 | 2.9225754 | 5.027710 | 4.233904 | 869.7033 |
| 2 | 269.0235 | 0.9045267 | 4.014815 | 4.945267 | 446.8716 |
| 3 | 153.3225 | 1.9760550 | 3.336652 | 3.286392 | 468.7349 |
| 4 | 85.4604 | 0.7423036 | 2.041932 | 2.840632 | 216.9331 |
El gráfico muestra cómo se agrupan las propiedades residenciales en el espacio definido por las dos primeras componentes principales (Dim1 y Dim2) después de aplicar K-Means con 4 clusters
Cluster 1 (Rojo) - Propiedades de Gran Tamaño y Alto Valor: propiedades grandes, costosas y con muchas comodidades, Aunque cuenta con parqueaderos, su principal característica es el tamaño y el valor. Probablemente ubicadas en zonas de alta concentración de viviendas, con menos espacio de estacionamiento. Representan un segmento de alto valor,Se encuentran en zonas exclusivas y están dirigidas a clientes de alto poder adquisitivo.
Cluster 2 (Verde) - Propiedades de tamaño significativo pero con Mas Parqueaderos: Propiedades espaciosas con mas parqueaderos, probablemente ubicadas en zonas no tan centricas. Representan un segmento de alto valor, pero más accesible en comparación con el Cluster 1.
Cluster 3 (Azul) - Propiedades de Tamaño Medio y Costo Moderado: propiedades más accesibles en costo y tamaño, dirigidas a familias de clase media-alta.Se encuentran en ubicaciones equilibradas entre espacio y costo, adecuadas para compradores con presupuestos intermedios.
Cluster 4 (Morado) - Propiedades Pequeñas y Económicas: Propiedades pequeñas, económicas y con pocos o ningún parqueadero. Orientadas a jóvenes profesionales, inversionistas o compradores de primera vivienda. Probablemente ubicadas en zonas de alta densidad urbana con acceso a transporte público.
La segmentación basada en el PCA y Clustering permite una diferenciación clara del mercado inmobiliario.
Los cuatro segmentos identificados tienen perfiles de compradores específicos, lo que permite optimizar estrategias de marketing y precios.
El analisis posibilita personalizar la publicidad y oferta según las necesidades de cada segmento, enfocándose en factores como precio, espacio, ubicación y disponibilidad de parqueaderos.
Decisiones Estratégicas:
Cluster 1: Enfocar estrategias en familias que buscan espacio. Marketing de exclusividad, financiamiento, venta directa
Cluster 2: Orientar estrategias hacia compradoresde ingresos altos.Viviendas Probablemente ubicadas en zonas menos densamente pobladas con mayor disponibilidad de parqueaderos.
Cluster 3: Propiedades de gama media-alta, atractivas para familias con ingresos medios pero que buscan una opción más accesible. Publicidad en accesibilidad, calidad de viday financiamiento
Cluster 4: Propiedades pequeñas y económicas, pocos parqueaderos, enfoque en Marketing digital, financiamiento accesible, enfoque en movilidad.
El Análisis de Correspondencia (AC) nos permite identificar patrones en datos categóricos y visualizar cómo se relacionan entre sí. En este caso, examinaremos la relación entre:
tipo de vivienda. zona. barrio estrato
Excluiremos “barrio” del análisis de correspondencia ya que como resultado la tabla de contingencia tiene muchas celdas con cero (categorías poco representadas). Esto puede hacer que el Análisis de Correspondencia (CA) sea menos estable, por lo que centrarnos en Zona, Estrato y Tipo de Vivienda.Evitando la alta dispersión de categorías en la variable “barrio”.
##
## Pearson's Chi-squared test
##
## data: tabla_zona_tipo
## X-squared = 690.93, df = 4, p-value < 2.2e-16
| Relación | Valor Chi-Square | Grados de Libertad | p-valor | |
|---|---|---|---|---|
| X-squared | Zona vs Tipo de Vivienda | 690.93 | 4 | 0 |
| Relación | Valor Chi-Square | Grados de Libertad | p-valor | |
|---|---|---|---|---|
| X-squared | Estrato vs Zona | 3830.44 | 12 | 0 |
| Relación | Valor Chi-Square | Grados de Libertad | p-valor | |
|---|---|---|---|---|
| X-squared | Estrato vs Tipo de Vivienda | 224.33 | 3 | 0 |
Zona vs Tipo de Vivienda
El valor de chi-cuadrado es muy alto (690.93) y el p-valor es extremadamente pequeño (< 2.2e-16). Esto indica una relación significativa entre la zona y el tipo de vivienda. Es decir, las categorías de zona están fuertemente asociadas con el tipo de vivienda, lo que sugiere que la distribución de los tipos de vivienda varía significativamente según la zona.
Estrato vs Zona
El valor de chi-cuadrado es muy alto (3830.44) y el p-valor es igual a 0, lo que indica una relación altamente significativa entre el estrato y la zona. Esto sugiere que la zona está fuertemente relacionada con el estrato, es decir, las categorías de estrato varían significativamente según la zona.
Estrato vs Tipo de Vivienda
El valor de chi-cuadrado es de 224.33 y el p-valor es 0, lo que también indica una relación significativa entre el estrato y el tipo de vivienda. Esto sugiere que el tipo de vivienda varía significativamente según el estrato.
Las pruebas de chi-cuadrado han indicado que las variables Zona, Tipo de Vivienda y Estrato están fuertemente relacionadas. Estas relaciones significativas sugieren que sería útil aplicar un análisis de correspondencia múltiple (ACM) para explorar las asociaciones entre varias variables categóricas de manera más integral.
La variable más representada en la Dimensión 1 es zona, seguida de estrato. Zona es la variable que más explica la variabilidad en los datos.
Estrato también es importante, lo que sugiere que el nivel socioeconómico tiene una relación fuerte con las zonas.
Tipo de Vivienda tiene menor representación, lo que indica que no está tan directamente relacionada con la variabilidad en las dos primeras dimensiones.
Los Apartamentos están más cercanos a los estratos 4 y 5, lo que indica que son más comunes en esos niveles.
Las Casas están en una posición más dispersa, lo que sugiere que pueden estar distribuidas en diferentes estratos y zonas.
A la derecha del grafico MCA Factor tenemos Zona Oriente, Zona Centro, Estrato 3, Casa: significa que en esas zonas hay más casas en proporción dentro del conjunto de datos, hay barrios tradicionales con más casas, en comparación con otras zonas y corresponde con estratos socieconomicos medios.
A la izquierda Arriba se encuentra Zona Oeste y estrato 6, Representa zonas de alto nivel socioeconómico, viviendas de lujo, torres residenciales exclusivas.
Ala Izquierda abajo se encuentra Zona Sur, estrato 4 y 5: por su cercania con apartamento y casas, podria representar un desarrollo mixto, un poco más sesgado hacia el tipo de vivienda apartamento, la Zona Sur tiene un desarrollo inmobiliario donde hay predominio de estratos 4 y 5.
Aunque Oriente y Centro pueden ser zonas urbanizadas, en este conjunto de datos, hay una mayor proporción de casas en esas zonas. Esto puede indicar que en Oriente y Centro hay barrios tradicionales con más casas.
Dim1 (21.08%) Las principales variables contribuyentes son: Estrato 3, Zona Oriente, Zona Oeste, Casa, por lo cual esta dimensión puede estar representando Diferencia en el tipo de vivienda y estructura urbana. Representa una distinción entre áreas con mayor proporción de casas (Zona Oriente) vs. otras zonas con una distribución más variada.
Dim2 (16.99%) Las Principales Variables Contribuyentes son: Zona Oeste, Estrato 6, Estrato 4, Zona Sur, por lo cual esta dimensión puede estar representando diferencia en el tipo de urbanización dentro de los estratos altos. Separa zonas residenciales consolidadas (Oeste, Estrato 6) de zonas en crecimiento con estratos altos (Sur, Estrato 4 y 5).
Zona Norte y Centro tienen mayor proporción de casas, lo que sugiere que la demanda en estas zonas puede estar más inclinada hacia viviendas familiares.
Zona Oeste muestra una alta asociación con apartamentos de estratos altos, indicando una demanda por edificios de lujo y exclusivos.
Zona Sur está vinculada a estratos 4 y 5 con un desarrollo mixto (casas y apartamentos), lo que sugiere oportunidades en proyectos de vivienda de interés medio-alto.