Analisis de la base de datos

## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1147 Zona O… <NA>        3     250        70            1      3            6
## 2  1169 Zona O… <NA>        3     320       120            1      2            3
## 3  1350 Zona O… <NA>        3     350       220            2      2            4
## 4  5992 Zona S… 02          4     400       280            3      5            3
## 5  1212 Zona N… 01          5     260        90            1      2            3
## 6  1724 Zona N… 01          5     240        87            1      3            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Limpieza de datos (sin valores faltantes)

## [1] 4808   13

Analisis descriptivo de viviendaSNA

##        id           zona               piso              estrato     
##  Min.   :   1   Length:4808        Length:4808        Min.   :3.000  
##  1st Qu.:2479   Class :character   Class :character   1st Qu.:4.000  
##  Median :4474   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4427                                         Mean   :4.838  
##  3rd Qu.:6413                                         3rd Qu.:6.000  
##  Max.   :8316                                         Max.   :6.000  
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  40.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 244.5   1st Qu.:  85.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 350.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 457.2   Mean   : 174.8   Mean   : 1.815   Mean   : 3.219  
##  3rd Qu.: 560.0   3rd Qu.: 225.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1500.0   Max.   :10.000   Max.   :10.000  
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:4808        Length:4808        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.564                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.378  
##  Median :3.408  
##  Mean   :3.414  
##  3rd Qu.:3.451  
##  Max.   :3.498
##           id         zona         piso      estrato      preciom    areaconst 
##            0            0            0            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            0            0            0 
##      latitud 
##            0
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##           36          886          753           97         3036
## 
## Apartamento        Casa 
##        3182        1626

Histogramas

En este histograma se observa la distribucion de los precios. Se aprecia la concentracion de valores en los rangos medios y la presencia de algunos valores altos que alargan la cola derecha.

Aqui se observa la distribucion del area construida, con mayor frecuencia en areas intermedias y algunas propiedades de mayor tamano.

Este histograma muestra la frecuencia por estrato. Se identifica en que estratos se concentra la mayor parte de las viviendas.

Se observa la distribucion del numero de habitaciones y banos. Predominan valores bajos a medios, mientras que los valores altos son menos frecuentes.

Boxplots

Este boxplot compara precios por zona. Se observan diferencias en medianas y dispersion, lo que sugiere zonas con precios tipicamente mas altos o mas variables.

Se comparan los precios segun el tipo de vivienda. Las diferencias en medianas y rangos indican que ciertos tipos tienden a ser mas costosos.

Se observa un incremento general del precio al aumentar el estrato, con variabilidad distinta entre niveles.

Este grafico muestra el area construida por tipo. Se aprecian diferencias en medianas y dispersion, indicando tipos con mayores areas tipicas.

Evaluación de la oferta inmobiliaria urbana

Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

Retos

El reto principal consiste en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:

Análisis de Componentes Principales

A continuación, se aplica un Análisis de Componentes Principales con el propósito de reducir la dimensionalidad del conjunto de datos y examinar la estructura subyacente de las variables. Esta metodología permite sintetizar la información contenida en el conjunto de datos y analizar la variabilidad observada en los precios y en la oferta del mercado inmobiliario urbano.

En la Tabla 1.1. se presentan las variables numéricas consideradas en el Análisis de Componentes Principales, las cuales se incorporan de manera conjunta en la construcción de los componentes seleccionados conforme al criterio de varianza explicada, facilitando así la interpretación de los factores estructurales que inciden en el comportamiento del mercado.

Tabla 1.1. Variables numéricas utilizadas en el PCA
Variable
Estrato
Precio
Area construida
Parqueaderos
Baños
Habitaciones

La Tabla 1.2 presenta los estadísticos descriptivos de las variables numéricas una vez estandarizadas. Este paso es fundamental en el Análisis de Componentes Principales, ya que garantiza que todas las variables se encuentren en una escala comparable, independientemente de sus unidades de medida originales. Al observar medias cercanas a cero y desviaciones estándar próximas a uno, se confirma que el proceso de estandarización fue aplicado correctamente. De este modo, se evita que variables con magnitudes o unidades más grandes ejerzan una influencia desproporcionada en la construcción de los componentes principales, permitiendo que el PCA capture patrones reales de variación conjunta entre las variables y no efectos derivados de diferencias de escala.

Tabla 1.2. Resumen de estandarización (z-score)
Variable Media Desviacion
Estrato 0 1
Precio 0 1
Area construida 0 1
Parqueaderos 0 1
Baños 0 1
Habitaciones 0 1

La Tabla 1.3 muestra la proporción de varianza explicada por cada componente principal, así como la varianza acumulada a medida que se incorporan componentes adicionales. Esta información permite evaluar la capacidad de cada componente para resumir la variabilidad presente en el conjunto de datos original. A partir de estos resultados, se aplica el criterio de varianza explicada acumulada del 70 % como umbral para determinar el número óptimo de componentes a conservar. Dicho criterio busca lograr un equilibrio entre la reducción de la dimensionalidad y la preservación de la mayor cantidad de información posible, asegurando una representación sintética pero informativa de la estructura del mercado inmobiliario urbano.

Tabla 1.3. Varianza explicada por componente (PCA)
Componente Varianza Acumulada
PC1 0.6235 0.6235
PC2 0.1961 0.8196
PC3 0.0781 0.8977
PC4 0.0462 0.9440
PC5 0.0394 0.9833
PC6 0.0167 1.0000

Las cargas factoriales reflejan el grado de contribución de cada variable original en la construcción de los componentes principales. Los valores absolutos más elevados indican aquellas variables que ejercen una mayor influencia en cada componente y, por tanto, resultan clave para su interpretación. El análisis de estas cargas permite identificar las características que estructuran el mercado inmobiliario urbano, al revelar qué dimensiones subyacentes concentran la mayor parte de la variabilidad observada en los datos.

Tabla 1.4. Cargas PCA (PC1 y PC2) con valores destacados
Variable PC1 PC2
Estrato 0.304 0.653
Precio 0.475 0.225
Area construida 0.465 - 0.178
Parqueaderos 0.407 0.128
Baños 0.457 - 0.158
Habitaciones 0.302 - 0.671

El scree plot permite visualizar la varianza explicada por cada componente principal y facilita la identificación del punto a partir del cual la incorporación de componentes adicionales aporta ganancias marginales de información. Este gráfico sirve como una herramienta complementaria para validar, de manera visual, el número de componentes seleccionados según el criterio de varianza explicada acumulada, reforzando la decisión de retener únicamente aquellos componentes que capturan la estructura esencial del mercado inmobiliario urbano.

Figura 1.1. Scree plot de varianza explicada

Figura 1.1. Scree plot de varianza explicada

El biplot permite analizar de forma simultánea la proyección de las observaciones y la contribución de las variables originales en el espacio definido por los componentes principales. Esta representación facilita la interpretación conjunta de la estructura del conjunto de datos, al mostrar cómo se distribuyen los inmuebles según los componentes seleccionados y qué variables están asociadas a dichas direcciones de variación, proporcionando una visión integrada de los patrones subyacentes del mercado inmobiliario urbano.

Figura 1.2. Biplot de los dos primeros componentes

Figura 1.2. Biplot de los dos primeros componentes

El biplot del Análisis de Componentes Principales permite interpretar de manera conjunta la distribución de los inmuebles y la contribución de las variables originales en el espacio definido por los dos primeros componentes. Se observa que el primer componente (PC1) está principalmente asociado con variables relacionadas con el tamaño y el valor del inmueble, como el precio, el área construida, el número de habitaciones, baños y parqueaderos, lo que sugiere que este eje captura una dimensión de escala y calidad de la vivienda. Por su parte, el segundo componente (PC2) se encuentra fuertemente influenciado por el estrato y, en menor medida, por variables de localización, reflejando una dimensión socioespacial del mercado inmobiliario urbano. La orientación y magnitud de las flechas evidencian relaciones de correlación entre variables, mientras que la dispersión de las observaciones muestra cómo estos factores estructuran la heterogeneidad del mercado.

Análisis de Conglomerados

El análisis de conglomerados tiene como objetivo agrupar las propiedades residenciales en segmentos homogéneos a partir de características comunes, tales como el precio, el área construida, el número de habitaciones, baños y parqueaderos, así como el estrato y la localización. Cada conglomerado representa un perfil residencial con atributos similares, lo que permite identificar patrones diferenciados de la oferta inmobiliaria en distintas zonas de la ciudad y a lo largo de los estratos socioeconómicos. Esta segmentación facilita la comparación entre grupos y contribuye a comprender la distribución de la oferta de vivienda, desde inmuebles de alto valor hasta segmentos de menor costo, apoyando la toma de decisiones en procesos de compra, venta y valoración.

En esta etapa se aplicó un análisis de clustering jerárquico utilizando el método de Ward (Ward.D2) sobre las variables previamente estandarizadas, con el fin de explorar la estructura natural subyacente de los datos. El dendrograma resultante evidencia incrementos relevantes en la altura de fusión, particularmente a partir de un nivel cercano a 70 en la medida de disimilitud, lo que sugiere la presencia de agrupaciones bien diferenciadas. Con base en este comportamiento, y considerando criterios de interpretabilidad y operatividad, se seleccionó una solución de cinco conglomerados mediante un corte horizontal del dendrograma. Esta segmentación sirvió como base para la asignación de cada observación a un cluster específico y para el análisis posterior de los perfiles residenciales mediante el algoritmo K-means.

Figura 2.1. Dendrograma Jerarquico (Ward.D2) con Corte en 5 Conglomerados

Figura 2.1. Dendrograma Jerarquico (Ward.D2) con Corte en 5 Conglomerados

A partir del número de clusters definido mediante el método de Ward, se aplicó el algoritmo K-means con 𝑘=5 para asignar cada propiedad a un conglomerado específico. Posteriormente, se calcularon estadísticas descriptivas por cluster para las principales variables del mercado inmobiliario, cuyos valores promedio y medianos se presentan a continuación con el fin de caracterizar los distintos segmentos residenciales.

Tabla 2.1. Medias por Cluster
Cluster Estrato Precio Area construida Parqueaderos Baños Habitaciones longitud latitud
1 4 503.1 302.7 2 4.314165 6 -76.52931 3.415368
2 5 334.5 133.2 1 2.690844 3 -76.51335 3.468274
3 5 286.4 102.1 1 2.460247 3 -76.53291 3.398154
4 6 873.5 242.6 3 4.439820 4 -76.54194 3.405729
5 6 1317.3 650.2 5 6.158416 6 -76.53300 3.379756
Tabla 2.2. Medianas por Cluster
Cluster Estrato Precio Area construida Parqueaderos Baños Habitaciones longitud latitud
1 5 450 280 2 4 5 -76.53026 3.40861
2 5 315 104 1 2 3 -76.51900 3.47487
3 5 265 90 1 2 3 -76.53199 3.39205
4 6 790 220 2 4 4 -76.54200 3.43053
5 6 1300 600 6 6 5 -76.53638 3.36300

Interpretacion detallada de cada cluster. Se presenta un resumen con valores medianos y una lectura cualitativa para cada segmento. La interpretacion se apoya en las Tablas 2.1 y 2.2.

Cluster 1 – Vivienda amplia de alto valor

  • Estrato: 5
  • Precio mediano: 450
  • Area: 280
  • Habitaciones: 5
  • Banos: 4
  • Parqueaderos: 2

Interpretacion: Segmento con precio alto, area alto y estrato medio frente al promedio. Representa un perfil de mayor valor en terminos de tamano, dotacion y posicion socioeconomica.


Cluster 2 – Vivienda compacta / economica

  • Estrato: 5
  • Precio mediano: 315
  • Area: 104
  • Habitaciones: 3
  • Banos: 2
  • Parqueaderos: 1

Interpretacion: Segmento con precio bajo, area bajo y estrato medio frente al promedio. Representa un perfil medio o de menor valor en terminos de tamano, dotacion y posicion socioeconomica.


Cluster 3 – Vivienda compacta / economica

  • Estrato: 5
  • Precio mediano: 265
  • Area: 90
  • Habitaciones: 3
  • Banos: 2
  • Parqueaderos: 1

Interpretacion: Segmento con precio bajo, area bajo y estrato medio frente al promedio. Representa un perfil medio o de menor valor en terminos de tamano, dotacion y posicion socioeconomica.


Cluster 4 – Vivienda amplia de alto valor

  • Estrato: 6
  • Precio mediano: 790
  • Area: 220
  • Habitaciones: 4
  • Banos: 4
  • Parqueaderos: 2

Interpretacion: Segmento con precio alto, area alto y estrato alto frente al promedio. Representa un perfil de mayor valor en terminos de tamano, dotacion y posicion socioeconomica.


Cluster 5 – Vivienda amplia de alto valor

  • Estrato: 6
  • Precio mediano: 1300
  • Area: 600
  • Habitaciones: 5
  • Banos: 6
  • Parqueaderos: 6

Interpretacion: Segmento con precio alto, area alto y estrato alto frente al promedio. Representa un perfil de mayor valor en terminos de tamano, dotacion y posicion socioeconomica.


Gráfico PCA con clusters. La siguiente figura proyecta las observaciones en los dos primeros componentes y colorea los puntos por conglomerado, permitiendo evaluar la separacion de los segmentos en el espacio reducido.

Figura 2.2. PCA con clusters (k = 5)

Figura 2.2. PCA con clusters (k = 5)

Análisis de Correspondencia

Con el propósito de analizar la relación entre las variables categóricas del mercado inmobiliario urbano, se llevó a cabo un Análisis de Correspondencia. Esta técnica permite examinar las asociaciones entre categorías como el tipo de vivienda, la zona y el barrio, a partir de tablas de contingencia que sintetizan la estructura cualitativa de la oferta residencial. A través de este enfoque, es posible identificar patrones de comportamiento del mercado, evidenciando qué combinaciones de categorías se presentan con mayor frecuencia y cómo se organiza la oferta inmobiliaria en los distintos contextos urbanos.

Las tablas de contingencia presentadas permiten examinar la relación entre las principales variables categóricas del mercado inmobiliario urbano. En particular, el cruce entre tipo de vivienda y zona evidencia patrones espaciales de la oferta residencial, mientras que la relación entre tipo de vivienda y estrato socioeconómico permite analizar la dimensión social del mercado. Por su parte, la tabla que cruza barrio y tipo de vivienda, considerando únicamente los barrios más representativos, facilita la identificación de submercados locales con perfiles tipológicos diferenciados. En conjunto, estas tablas constituyen la base del Análisis de Correspondencia y permiten explorar asociaciones entre categorías, proporcionando una visión estructurada del comportamiento de la oferta inmobiliaria.

Tabla 3.1. Tipo de vivienda por zona
Tipo de vivienda Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
Apartamento 4 632 669 17 1860
Casa 32 254 84 80 1176

La oferta inmobiliaria urbana está fuertemente dominada por apartamentos en las zonas con mayor actividad residencial, mientras que las casas muestran una presencia más localizada y menos intensiva.

Tabla 3.2. Tipo de vivienda por estrato socioeconómico
Tipo de vivienda Estrato 3 Estrato 4 Estrato 5 Estrato 6
Apartamento 213 808 1286 875
Casa 221 405 573 427

La tipología de apartamentos constituye el tipo de vivienda dominante a lo largo de los distintos estratos socioeconómicos, lo que sugiere una preferencia estructural del mercado por este tipo de oferta, incluso en segmentos de mayores ingresos.

Tabla 3.3. Tipo de vivienda por barrio representativos
Barrio Apartamento Casa
Ciudad Jardín 173 200
El Caney 74 59
El Ingenio 100 48
La Flora 213 52
La Hacienda 88 43
Los Cristales 108 8
Normandía 101 3
Otros 1494 972
Pance 150 125
Santa Teresita 154 8
Valle Del Lili 527 108

Existen patrones de especialización residencial a nivel barrial, donde ciertos barrios concentran predominantemente un tipo de vivienda específico, mientras que otros presentan una oferta más diversificada.

A partir del análisis de las tablas de contingencia, se identifican patrones claros en la distribución de la oferta inmobiliaria urbana. Los apartamentos constituyen el tipo de vivienda predominante en la mayoría de las zonas y estratos socioeconómicos, especialmente en aquellas áreas con mayor concentración de actividad residencial. Por su parte, las casas presentan una distribución más localizada, asociada a barrios específicos y con menor participación relativa en el total de la oferta. Estos resultados evidencian una segmentación espacial y tipológica del mercado inmobiliario, que refleja diferencias estructurales en el comportamiento de la oferta según el contexto urbano y socioeconómico.

Conclusion

El presente estudio permitió analizar la estructura del mercado inmobiliario urbano a partir de un enfoque multivariado que integra técnicas para variables cuantitativas y cualitativas. Mediante el Análisis de Componentes Principales (PCA), se identificaron las dimensiones fundamentales que explican la variabilidad de la oferta residencial, destacándose un primer componente asociado al valor y la escala del inmueble —reflejado en variables como el precio, el área construida y la dotación— y un segundo componente vinculado a factores socioespaciales, relacionados con la localización y el estrato socioeconómico.

A partir de estas dimensiones, el Análisis de Conglomerados permitió segmentar el mercado en cinco clusters claramente diferenciados, que representan perfiles residenciales homogéneos en términos de tamaño, precio, dotación y nivel socioeconómico. Esta segmentación evidenció la coexistencia de submercados que van desde viviendas compactas y de menor valor hasta segmentos de alto valor y oferta premium, confirmando la heterogeneidad estructural del mercado inmobiliario urbano.

De manera complementaria, el Análisis de Correspondencia aportó una lectura cualitativa de la oferta, permitiendo examinar las asociaciones entre el tipo de vivienda, la localización urbana y el estrato socioeconómico. A partir de las tablas de contingencia, se identificó un predominio consistente de los apartamentos en la mayoría de las zonas y estratos, particularmente en aquellos con mayor dinamismo del mercado, mientras que las casas presentan una distribución más localizada y una menor participación relativa, asociada a barrios específicos.

En conjunto, los resultados muestran una coherencia entre los análisis cuantitativos y cualitativos: los clusters de mayor valor identificados mediante el análisis multivariado se corresponden con zonas y estratos donde predomina la oferta de apartamentos, mientras que los segmentos de menor valor o carácter más residencial se vinculan con tipologías y localizaciones específicas. Este enfoque integral permite comprender no solo cómo se agrupan las propiedades según sus características, sino también cómo se distribuye y especializa la oferta inmobiliaria en el espacio urbano, proporcionando una base sólida para la toma de decisiones en contextos de planificación, valoración y análisis de mercado.