## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## [1] 4808 13
## id zona piso estrato
## Min. : 1 Length:4808 Length:4808 Min. :3.000
## 1st Qu.:2479 Class :character Class :character 1st Qu.:4.000
## Median :4474 Mode :character Mode :character Median :5.000
## Mean :4427 Mean :4.838
## 3rd Qu.:6413 3rd Qu.:6.000
## Max. :8316 Max. :6.000
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 40.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 244.5 1st Qu.: 85.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 350.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 457.2 Mean : 174.8 Mean : 1.815 Mean : 3.219
## 3rd Qu.: 560.0 3rd Qu.: 225.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1500.0 Max. :10.000 Max. :10.000
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:4808 Length:4808 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.564 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## latitud
## Min. :3.333
## 1st Qu.:3.378
## Median :3.408
## Mean :3.414
## 3rd Qu.:3.451
## Max. :3.498
## id zona piso estrato preciom areaconst
## 0 0 0 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 36 886 753 97 3036
##
## Apartamento Casa
## 3182 1626
En este histograma se observa la distribucion de los precios. Se aprecia la concentracion de valores en los rangos medios y la presencia de algunos valores altos que alargan la cola derecha.
Aqui se observa la distribucion del area construida, con mayor frecuencia en areas intermedias y algunas propiedades de mayor tamano.
Este histograma muestra la frecuencia por estrato. Se identifica en que estratos se concentra la mayor parte de las viviendas.
Se observa la distribucion del numero de habitaciones y banos. Predominan valores bajos a medios, mientras que los valores altos son menos frecuentes.
Este boxplot compara precios por zona. Se observan diferencias en medianas y dispersion, lo que sugiere zonas con precios tipicamente mas altos o mas variables.
Se comparan los precios segun el tipo de vivienda. Las diferencias en medianas y rangos indican que ciertos tipos tienden a ser mas costosos.
Se observa un incremento general del precio al aumentar el estrato, con variabilidad distinta entre niveles.
Este grafico muestra el area construida por tipo. Se aprecian diferencias en medianas y dispersion, indicando tipos con mayores areas tipicas.
Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
El reto principal consiste en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:
A continuación, se aplica un Análisis de Componentes Principales con el propósito de reducir la dimensionalidad del conjunto de datos y examinar la estructura subyacente de las variables. Esta metodología permite sintetizar la información contenida en el conjunto de datos y analizar la variabilidad observada en los precios y en la oferta del mercado inmobiliario urbano.
En la Tabla 1.1. se presentan las variables numéricas consideradas en el Análisis de Componentes Principales, las cuales se incorporan de manera conjunta en la construcción de los componentes seleccionados conforme al criterio de varianza explicada, facilitando así la interpretación de los factores estructurales que inciden en el comportamiento del mercado.
| Variable |
|---|
| Estrato |
| Precio |
| Area construida |
| Parqueaderos |
| Baños |
| Habitaciones |
La Tabla 1.2 presenta los estadísticos descriptivos de las variables numéricas una vez estandarizadas. Este paso es fundamental en el Análisis de Componentes Principales, ya que garantiza que todas las variables se encuentren en una escala comparable, independientemente de sus unidades de medida originales. Al observar medias cercanas a cero y desviaciones estándar próximas a uno, se confirma que el proceso de estandarización fue aplicado correctamente. De este modo, se evita que variables con magnitudes o unidades más grandes ejerzan una influencia desproporcionada en la construcción de los componentes principales, permitiendo que el PCA capture patrones reales de variación conjunta entre las variables y no efectos derivados de diferencias de escala.
| Variable | Media | Desviacion |
|---|---|---|
| Estrato | 0 | 1 |
| Precio | 0 | 1 |
| Area construida | 0 | 1 |
| Parqueaderos | 0 | 1 |
| Baños | 0 | 1 |
| Habitaciones | 0 | 1 |
La Tabla 1.3 muestra la proporción de varianza explicada por cada componente principal, así como la varianza acumulada a medida que se incorporan componentes adicionales. Esta información permite evaluar la capacidad de cada componente para resumir la variabilidad presente en el conjunto de datos original. A partir de estos resultados, se aplica el criterio de varianza explicada acumulada del 70 % como umbral para determinar el número óptimo de componentes a conservar. Dicho criterio busca lograr un equilibrio entre la reducción de la dimensionalidad y la preservación de la mayor cantidad de información posible, asegurando una representación sintética pero informativa de la estructura del mercado inmobiliario urbano.
| Componente | Varianza | Acumulada |
|---|---|---|
| PC1 | 0.6235 | 0.6235 |
| PC2 | 0.1961 | 0.8196 |
| PC3 | 0.0781 | 0.8977 |
| PC4 | 0.0462 | 0.9440 |
| PC5 | 0.0394 | 0.9833 |
| PC6 | 0.0167 | 1.0000 |
Las cargas factoriales reflejan el grado de contribución de cada variable original en la construcción de los componentes principales. Los valores absolutos más elevados indican aquellas variables que ejercen una mayor influencia en cada componente y, por tanto, resultan clave para su interpretación. El análisis de estas cargas permite identificar las características que estructuran el mercado inmobiliario urbano, al revelar qué dimensiones subyacentes concentran la mayor parte de la variabilidad observada en los datos.
| Variable | PC1 | PC2 |
|---|---|---|
| Estrato | 0.304 | 0.653 |
| Precio | 0.475 | 0.225 |
| Area construida | 0.465 | - 0.178 |
| Parqueaderos | 0.407 | 0.128 |
| Baños | 0.457 | - 0.158 |
| Habitaciones | 0.302 | - 0.671 |
El scree plot permite visualizar la varianza explicada por cada componente principal y facilita la identificación del punto a partir del cual la incorporación de componentes adicionales aporta ganancias marginales de información. Este gráfico sirve como una herramienta complementaria para validar, de manera visual, el número de componentes seleccionados según el criterio de varianza explicada acumulada, reforzando la decisión de retener únicamente aquellos componentes que capturan la estructura esencial del mercado inmobiliario urbano.
Figura 1.1. Scree plot de varianza explicada
El biplot permite analizar de forma simultánea la proyección de las observaciones y la contribución de las variables originales en el espacio definido por los componentes principales. Esta representación facilita la interpretación conjunta de la estructura del conjunto de datos, al mostrar cómo se distribuyen los inmuebles según los componentes seleccionados y qué variables están asociadas a dichas direcciones de variación, proporcionando una visión integrada de los patrones subyacentes del mercado inmobiliario urbano.
Figura 1.2. Biplot de los dos primeros componentes
El biplot del Análisis de Componentes Principales permite interpretar de manera conjunta la distribución de los inmuebles y la contribución de las variables originales en el espacio definido por los dos primeros componentes. Se observa que el primer componente (PC1) está principalmente asociado con variables relacionadas con el tamaño y el valor del inmueble, como el precio, el área construida, el número de habitaciones, baños y parqueaderos, lo que sugiere que este eje captura una dimensión de escala y calidad de la vivienda. Por su parte, el segundo componente (PC2) se encuentra fuertemente influenciado por el estrato y, en menor medida, por variables de localización, reflejando una dimensión socioespacial del mercado inmobiliario urbano. La orientación y magnitud de las flechas evidencian relaciones de correlación entre variables, mientras que la dispersión de las observaciones muestra cómo estos factores estructuran la heterogeneidad del mercado.
El análisis de conglomerados tiene como objetivo agrupar las propiedades residenciales en segmentos homogéneos a partir de características comunes, tales como el precio, el área construida, el número de habitaciones, baños y parqueaderos, así como el estrato y la localización. Cada conglomerado representa un perfil residencial con atributos similares, lo que permite identificar patrones diferenciados de la oferta inmobiliaria en distintas zonas de la ciudad y a lo largo de los estratos socioeconómicos. Esta segmentación facilita la comparación entre grupos y contribuye a comprender la distribución de la oferta de vivienda, desde inmuebles de alto valor hasta segmentos de menor costo, apoyando la toma de decisiones en procesos de compra, venta y valoración.
En esta etapa se aplicó un análisis de clustering jerárquico utilizando el método de Ward (Ward.D2) sobre las variables previamente estandarizadas, con el fin de explorar la estructura natural subyacente de los datos. El dendrograma resultante evidencia incrementos relevantes en la altura de fusión, particularmente a partir de un nivel cercano a 70 en la medida de disimilitud, lo que sugiere la presencia de agrupaciones bien diferenciadas. Con base en este comportamiento, y considerando criterios de interpretabilidad y operatividad, se seleccionó una solución de cinco conglomerados mediante un corte horizontal del dendrograma. Esta segmentación sirvió como base para la asignación de cada observación a un cluster específico y para el análisis posterior de los perfiles residenciales mediante el algoritmo K-means.
Figura 2.1. Dendrograma Jerarquico (Ward.D2) con Corte en 5 Conglomerados
A partir del número de clusters definido mediante el método de Ward, se aplicó el algoritmo K-means con 𝑘=5 para asignar cada propiedad a un conglomerado específico. Posteriormente, se calcularon estadísticas descriptivas por cluster para las principales variables del mercado inmobiliario, cuyos valores promedio y medianos se presentan a continuación con el fin de caracterizar los distintos segmentos residenciales.
| Cluster | Estrato | Precio | Area construida | Parqueaderos | Baños | Habitaciones | longitud | latitud |
|---|---|---|---|---|---|---|---|---|
| 1 | 4 | 503.1 | 302.7 | 2 | 4.314165 | 6 | -76.52931 | 3.415368 |
| 2 | 5 | 334.5 | 133.2 | 1 | 2.690844 | 3 | -76.51335 | 3.468274 |
| 3 | 5 | 286.4 | 102.1 | 1 | 2.460247 | 3 | -76.53291 | 3.398154 |
| 4 | 6 | 873.5 | 242.6 | 3 | 4.439820 | 4 | -76.54194 | 3.405729 |
| 5 | 6 | 1317.3 | 650.2 | 5 | 6.158416 | 6 | -76.53300 | 3.379756 |
| Cluster | Estrato | Precio | Area construida | Parqueaderos | Baños | Habitaciones | longitud | latitud |
|---|---|---|---|---|---|---|---|---|
| 1 | 5 | 450 | 280 | 2 | 4 | 5 | -76.53026 | 3.40861 |
| 2 | 5 | 315 | 104 | 1 | 2 | 3 | -76.51900 | 3.47487 |
| 3 | 5 | 265 | 90 | 1 | 2 | 3 | -76.53199 | 3.39205 |
| 4 | 6 | 790 | 220 | 2 | 4 | 4 | -76.54200 | 3.43053 |
| 5 | 6 | 1300 | 600 | 6 | 6 | 5 | -76.53638 | 3.36300 |
Interpretacion detallada de cada cluster. Se presenta un resumen con valores medianos y una lectura cualitativa para cada segmento. La interpretacion se apoya en las Tablas 2.1 y 2.2.
Cluster 1 – Vivienda amplia de alto valor
Interpretacion: Segmento con precio alto, area alto y estrato medio frente al promedio. Representa un perfil de mayor valor en terminos de tamano, dotacion y posicion socioeconomica.
Cluster 2 – Vivienda compacta / economica
Interpretacion: Segmento con precio bajo, area bajo y estrato medio frente al promedio. Representa un perfil medio o de menor valor en terminos de tamano, dotacion y posicion socioeconomica.
Cluster 3 – Vivienda compacta / economica
Interpretacion: Segmento con precio bajo, area bajo y estrato medio frente al promedio. Representa un perfil medio o de menor valor en terminos de tamano, dotacion y posicion socioeconomica.
Cluster 4 – Vivienda amplia de alto valor
Interpretacion: Segmento con precio alto, area alto y estrato alto frente al promedio. Representa un perfil de mayor valor en terminos de tamano, dotacion y posicion socioeconomica.
Cluster 5 – Vivienda amplia de alto valor
Interpretacion: Segmento con precio alto, area alto y estrato alto frente al promedio. Representa un perfil de mayor valor en terminos de tamano, dotacion y posicion socioeconomica.
Gráfico PCA con clusters. La siguiente figura proyecta las observaciones en los dos primeros componentes y colorea los puntos por conglomerado, permitiendo evaluar la separacion de los segmentos en el espacio reducido.
Figura 2.2. PCA con clusters (k = 5)
Con el propósito de analizar la relación entre las variables categóricas del mercado inmobiliario urbano, se llevó a cabo un Análisis de Correspondencia. Esta técnica permite examinar las asociaciones entre categorías como el tipo de vivienda, la zona y el barrio, a partir de tablas de contingencia que sintetizan la estructura cualitativa de la oferta residencial. A través de este enfoque, es posible identificar patrones de comportamiento del mercado, evidenciando qué combinaciones de categorías se presentan con mayor frecuencia y cómo se organiza la oferta inmobiliaria en los distintos contextos urbanos.
Las tablas de contingencia presentadas permiten examinar la relación entre las principales variables categóricas del mercado inmobiliario urbano. En particular, el cruce entre tipo de vivienda y zona evidencia patrones espaciales de la oferta residencial, mientras que la relación entre tipo de vivienda y estrato socioeconómico permite analizar la dimensión social del mercado. Por su parte, la tabla que cruza barrio y tipo de vivienda, considerando únicamente los barrios más representativos, facilita la identificación de submercados locales con perfiles tipológicos diferenciados. En conjunto, estas tablas constituyen la base del Análisis de Correspondencia y permiten explorar asociaciones entre categorías, proporcionando una visión estructurada del comportamiento de la oferta inmobiliaria.
| Tipo de vivienda | Zona Centro | Zona Norte | Zona Oeste | Zona Oriente | Zona Sur |
|---|---|---|---|---|---|
| Apartamento | 4 | 632 | 669 | 17 | 1860 |
| Casa | 32 | 254 | 84 | 80 | 1176 |
La oferta inmobiliaria urbana está fuertemente dominada por apartamentos en las zonas con mayor actividad residencial, mientras que las casas muestran una presencia más localizada y menos intensiva.
| Tipo de vivienda | Estrato 3 | Estrato 4 | Estrato 5 | Estrato 6 |
|---|---|---|---|---|
| Apartamento | 213 | 808 | 1286 | 875 |
| Casa | 221 | 405 | 573 | 427 |
La tipología de apartamentos constituye el tipo de vivienda dominante a lo largo de los distintos estratos socioeconómicos, lo que sugiere una preferencia estructural del mercado por este tipo de oferta, incluso en segmentos de mayores ingresos.
| Barrio | Apartamento | Casa |
|---|---|---|
| Ciudad Jardín | 173 | 200 |
| El Caney | 74 | 59 |
| El Ingenio | 100 | 48 |
| La Flora | 213 | 52 |
| La Hacienda | 88 | 43 |
| Los Cristales | 108 | 8 |
| Normandía | 101 | 3 |
| Otros | 1494 | 972 |
| Pance | 150 | 125 |
| Santa Teresita | 154 | 8 |
| Valle Del Lili | 527 | 108 |
Existen patrones de especialización residencial a nivel barrial, donde ciertos barrios concentran predominantemente un tipo de vivienda específico, mientras que otros presentan una oferta más diversificada.
A partir del análisis de las tablas de contingencia, se identifican patrones claros en la distribución de la oferta inmobiliaria urbana. Los apartamentos constituyen el tipo de vivienda predominante en la mayoría de las zonas y estratos socioeconómicos, especialmente en aquellas áreas con mayor concentración de actividad residencial. Por su parte, las casas presentan una distribución más localizada, asociada a barrios específicos y con menor participación relativa en el total de la oferta. Estos resultados evidencian una segmentación espacial y tipológica del mercado inmobiliario, que refleja diferencias estructurales en el comportamiento de la oferta según el contexto urbano y socioeconómico.
El presente estudio permitió analizar la estructura del mercado inmobiliario urbano a partir de un enfoque multivariado que integra técnicas para variables cuantitativas y cualitativas. Mediante el Análisis de Componentes Principales (PCA), se identificaron las dimensiones fundamentales que explican la variabilidad de la oferta residencial, destacándose un primer componente asociado al valor y la escala del inmueble —reflejado en variables como el precio, el área construida y la dotación— y un segundo componente vinculado a factores socioespaciales, relacionados con la localización y el estrato socioeconómico.
A partir de estas dimensiones, el Análisis de Conglomerados permitió segmentar el mercado en cinco clusters claramente diferenciados, que representan perfiles residenciales homogéneos en términos de tamaño, precio, dotación y nivel socioeconómico. Esta segmentación evidenció la coexistencia de submercados que van desde viviendas compactas y de menor valor hasta segmentos de alto valor y oferta premium, confirmando la heterogeneidad estructural del mercado inmobiliario urbano.
De manera complementaria, el Análisis de Correspondencia aportó una lectura cualitativa de la oferta, permitiendo examinar las asociaciones entre el tipo de vivienda, la localización urbana y el estrato socioeconómico. A partir de las tablas de contingencia, se identificó un predominio consistente de los apartamentos en la mayoría de las zonas y estratos, particularmente en aquellos con mayor dinamismo del mercado, mientras que las casas presentan una distribución más localizada y una menor participación relativa, asociada a barrios específicos.
En conjunto, los resultados muestran una coherencia entre los análisis cuantitativos y cualitativos: los clusters de mayor valor identificados mediante el análisis multivariado se corresponden con zonas y estratos donde predomina la oferta de apartamentos, mientras que los segmentos de menor valor o carácter más residencial se vinculan con tipologías y localizaciones específicas. Este enfoque integral permite comprender no solo cómo se agrupan las propiedades según sus características, sino también cómo se distribuye y especializa la oferta inmobiliaria en el espacio urbano, proporcionando una base sólida para la toma de decisiones en contextos de planificación, valoración y análisis de mercado.