Actividad 1 - Módulo 1: Modelos Multivariados - Modelos Estadísticos para la toma de decisiones

Índice

Descripción
Objetivos
Descripción de la Base de Datos
Procesamiento de datos
Análisis de Componentes Principales (ACP)
Análisis de Conglomerados (Clustering)
Análisis de Correspondencia
Conclusiones

1. Descripción

En el presente informe se describe el proceso de limpieza de datos, imputación de datos faltantes, análisis de valores atípicos (preprocesamiento) y procesamiento de los datos, para posteriormente realizar un análisis integral y multidimensional de los mismos, con el objetivo de obtener una comprensión del mercado inmobiliario urbano de acuerdo con la base de datos dada.

Contexto del problema

El reto principal consiste en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:

Análisis de Componentes Principales
Análisis de Conglomerados
Análisis de Correspondencia
Visualización de resultados

2. Objetivos

Objetivo general

Realizar un análisis estadístico integral y multidimensional de la oferta inmobiliaria urbana, utilizando técnicas de análisis multivariado sobre la base de datos disponible, con el fin de identificar patrones, segmentaciones y relaciones relevantes que permitan optimizar la toma de decisiones estratégicas en la compra, venta y valoración de propiedades residenciales.

Objetivos específicos

Explorar y caracterizar las variables cuantitativas y cualitativas del mercado inmobiliario urbano mediante análisis descriptivos y visualizaciones, con el propósito de comprender la estructura general de la oferta.
Aplicar el Análisis de Componentes Principales (ACP) para reducir la dimensionalidad del conjunto de variables numéricas, identificar los factores subyacentes que explican la variabilidad del mercado y determinar cuáles características influyen en mayor medida sobre el precio de las propiedades.
Implementar técnicas de Análisis de Conglomerados para segmentar las viviendas en grupos homogéneos según sus características estructurales, socioeconómicas y espaciales, facilitando la identificación de perfiles de oferta diferenciados.
Desarrollar un Análisis de Correspondencia entre las variables categóricas (tipo de vivienda, zona y barrio), con el fin de detectar asociaciones y patrones territoriales en la oferta inmobiliaria.
Generar visualizaciones estadísticas y geográficas que permitan comunicar de manera clara y efectiva los hallazgos a la dirección de la empresa inmobiliaria.
Formular conclusiones y recomendaciones estratégicas, basadas en la evidencia empírica obtenida, que contribuyan a fortalecer la competitividad y rentabilidad de la empresa en el mercado urbano.

3. Descripción de la Base de Datos

La base de datos vivienda contiene información detallada sobre propiedades residenciales urbanas recolectadas mediante técnicas de web scraping desde la plataforma OLX. Incluye variables estructurales, socioeconómicas, espaciales y económicas que permiten desarrollar análisis multidimensionales del mercado inmobiliario urbano.

Tabla 1. Diccionario de variables de la base de datos vivienda
Variable	Tipo_de_Dato	Descripcion
id	Numérica	Identificador único de cada inmueble
zona	Categórica (carácter)	Zona geográfica de la ciudad donde se ubica la vivienda
piso	Categórica (carácter)	Número de piso en el que se encuentra la vivienda
estrato	Numérica discreta	Estrato socioeconómico asignado a la vivienda (1–6)
preciom	Numérica continua	Precio del inmueble por metro cuadrado
areaconst	Numérica continua	Área construida de la vivienda en metros cuadrados
parqueaderos	Numérica discreta	Número de espacios de parqueadero
banios	Numérica discreta	Número de baños
habitaciones	Numérica discreta	Número de habitaciones
tipo	Categórica (carácter)	Tipo de inmueble (Casa, Apartamento, etc.)
barrio	Categórica (carácter)	Barrio específico donde se ubica la vivienda
longitud	Numérica continua	Coordenada geográfica longitudinal en grados decimales
latitud	Numérica continua	Coordenada geográfica latitudinal en grados decimales

A continuación, se realiza una tabla descriptiva con las variables numéricas relevantes

##              vars    n   mean     sd median trimmed    mad min  max range  skew
## preciom         1 8320 433.89 328.65    330  374.43 207.56  58 1999  1941  1.85
## areaconst       2 8319 174.93 142.96    123  149.15  84.51  30 1745  1715  2.69
## parqueaderos    3 6717   1.84   1.12      2    1.62   1.48   1   10     9  2.33
## banios          4 8319   3.11   1.43      3    2.99   1.48   0   10    10  0.93
## habitaciones    5 8319   3.61   1.46      3    3.41   1.48   0   10    10  1.63
## estrato         6 8319   4.63   1.03      5    4.67   1.48   3    6     3 -0.18
##              kurtosis   se
## preciom          3.67 3.60
## areaconst       12.91 1.57
## parqueaderos     8.31 0.01
## banios           1.13 0.02
## habitaciones     3.98 0.02
## estrato         -1.11 0.01

4. Procesamiento de datos

Identificación y eliminación de duplicados y faltantes:

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3

## # A tibble: 3 × 13
##      id zona  piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr> <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1    NA <NA>  <NA>       NA      NA        NA           NA     NA           NA
## 2    NA <NA>  <NA>       NA      NA        NA           NA     NA           NA
## 3    NA <NA>  <NA>       NA     330        NA           NA     NA           NA
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Se identifican 3 registros que no tienen un id definido. Al revisar dichos registros se observa que tampoco incluyen información de las demás variables. Por lo tanto, se procede a eliminar esos 3 registros.

##           id         zona         piso      estrato      preciom    areaconst 
##            0            0         2635            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1602            0            0            0            0            0 
##      latitud 
##            0

Análisis de codificación de variables

En este punto se analiza la variable barrios. Allí se observa que al identificar los barrios únicos en las primeras observaciones ya se encuentran inconvenientes en la digitación o codificación de la variable. Por lo anterior, es necesario realizar una limpieza o estandarización a esta variable aplicando los siguientes pasos:

Unificar mayúsculas/minúsculas
Corregir tildes
Eliminar caracteres extraños
Quitar espacios redundantes
Reducir categorías duplicadas

## # A tibble: 10 × 1
##    barrio         
##    <chr>          
##  1 20 de julio    
##  2 3 de julio     
##  3 acopi          
##  4 agua blanca    
##  5 aguablanca     
##  6 aguacatal      
##  7 alameda        
##  8 alameda del río
##  9 alameda del rio
## 10 alamos

Se observa que hay unos barrios que se llaman Zona, no obstante corresponde a 153 registros y no se considera necesario eliminar estos datos de la tabla.

## [1] "Antes de la depuración: 436 | Después de la depuración: 389"

Análisis de datos faltantes:

Para la variable de parqueaderos, se identifica que el valor mínimo es 1, lo cual indica que los 1602 registros faltantes deben corresponder a viviendas con 0 parqueaderos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.000   1.000   2.000   1.835   2.000  10.000    1602

Por lo tanto, se procede a imputar dichos registros con el valor correspondiente (0)

##           id         zona         piso      estrato      preciom    areaconst 
##            0            0         2635            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            0            0            0 
##      latitud 
##            0

De manera preliminar, se convierte la variable “piso” de caracter a numérica, para facilitar el análisis. De igual manera, se comprueba que no existen registros duplicados.

## # A tibble: 0 × 13
## # Groups:   id, zona, piso, estrato, preciom, areaconst, parqueaderos, banios,
## #   habitaciones, tipo, barrio, longitud, latitud [0]
## # ℹ 13 variables: id <dbl>, zona <chr>, piso <dbl>, estrato <dbl>,
## #   preciom <dbl>, areaconst <dbl>, parqueaderos <dbl>, banios <dbl>,
## #   habitaciones <dbl>, tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

En cuanto a la variable “piso”, la imputación de los datos faltantes se hace extremadamente difícil, debido a que existen registros tanto para casas como para apartamentos, y al hacer un análisis de los registros con información faltante se encuentra que no hay un patrón claro con el cual imputar dichos datos. Esto, unido al hecho de que para el análisis de componentes principales no se utilizan variables categóricas, permite que se excluya la variable piso, al menos por el momento:

vivienda1 %>%
  filter(is.na(piso)) %>% 
  summary()

##        id           zona                piso         estrato        preciom    
##  Min.   :   4   Length:2635        Min.   : NA    Min.   :3.00   Min.   :  65  
##  1st Qu.:1857   Class :character   1st Qu.: NA    1st Qu.:4.00   1st Qu.: 220  
##  Median :3964   Mode  :character   Median : NA    Median :5.00   Median : 350  
##  Mean   :4055                      Mean   :NaN    Mean   :4.58   Mean   : 456  
##  3rd Qu.:6160                      3rd Qu.: NA    3rd Qu.:5.00   3rd Qu.: 580  
##  Max.   :8319                      Max.   : NA    Max.   :6.00   Max.   :1950  
##                                    NA's   :2635                                
##    areaconst       parqueaderos        banios        habitaciones   
##  Min.   :  30.0   Min.   : 0.000   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:  85.0   1st Qu.: 0.000   1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 140.0   Median : 1.000   Median : 3.000   Median : 3.000  
##  Mean   : 190.2   Mean   : 1.366   Mean   : 3.165   Mean   : 3.715  
##  3rd Qu.: 247.0   3rd Qu.: 2.000   3rd Qu.: 4.000   3rd Qu.: 4.000  
##  Max.   :1745.0   Max.   :10.000   Max.   :10.000   Max.   :10.000  
##                                                                     
##      tipo              barrio             longitud         latitud     
##  Length:2635        Length:2635        Min.   :-76.59   Min.   :3.333  
##  Class :character   Class :character   1st Qu.:-76.54   1st Qu.:3.383  
##  Mode  :character   Mode  :character   Median :-76.53   Median :3.424  
##                                        Mean   :-76.53   Mean   :3.421  
##                                        3rd Qu.:-76.52   3rd Qu.:3.452  
##                                        Max.   :-76.46   Max.   :3.497  
##

Estadísticas descriptivas básicas

Data summary
Name	Piped data
Number of rows	8319
Number of columns	6
_______________________
Column type frequency:
numeric	6
________________________
Group variables	None

Variable type: numeric

skim_variable	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
preciom	1	433.90	328.67	58	220	330	540	1999	▇▂▁▁▁
areaconst	1	174.93	142.96	30	80	123	229	1745	▇▁▁▁▁
parqueaderos	1	1.48	1.24	0	1	1	2	10	▇▁▁▁▁
banios	1	3.11	1.43	0	2	3	4	10	▇▇▃▁▁
habitaciones	1	3.61	1.46	0	3	3	4	10	▂▇▂▁▁
estrato	1	4.63	1.03	3	4	5	5	6	▅▆▁▇▆

Los datos muestran una alta heterogeneidad en el precio y área.También se distinguen posibles datos atípicos en precio y tamaño. El estrato mínimo en el conjunto de datos es 3, lo que representa un predominio de viviendas de tamaño medio/grande en estratos relativamente altos.

Se observa que la distribución presenta una asimetría positiva, donde se aprecian valores extremos (outliers) en el rango alto de precios.

Relación Precio vs Área:

Se observa una relación positiva entre el área construida y el precio: a mayor área, mayor precio. La nube de puntos muestra una tendencia ascendente consistente. Sin embargo, La variabilidad del precio aumenta a medida que crece el área construida, lo que evidencia heterocedasticidad en los datos.

Precio por estrato:

A medida que aumenta el estrato el precio de los inmuebles también aumenta de forma consistente. Esto confirma que el estrato es un fuerte determinante del valor de la vivienda.Por otra parte, la variabilidad del precio aumenta en los estratos 5 y 6. Así mismo, se observan valores extremos en todos los estratos, pero son más numerosos y más altos en estrato 6.

Tipo de vivienda:

## 
## Apartamento        Casa 
##        5100        3219

Se observa que, en promedio, las casas tienen mayor valor de mercado. De igual manera,existe mayor heterogeneidad en precios dentro del mercado de casas.

Mapa Exploratorio:

Se observan zonas con concentración de precios altos, agrupados en ciertos sectores específicos, mientras que los precios bajos se concentran en otras áreas. El precio parece depender fuertemente de la ubicación del inmueble.

5. Análisis de Componentes Principales (ACP)

El mercado inmobiliario está determinado por múltiples variables estructurales (área, baños, habitaciones, parqueaderos), socioeconómicas (estrato) y espaciales (latitud, longitud).

Dado que estas variables pueden estar correlacionadas, el Análisis de Componentes Principales (ACP) permite:

Reducir la dimensionalidad del problema.
Identificar factores latentes que explican la variabilidad del mercado.
Detectar cuáles características influyen más en la diferenciación de las viviendas.
Facilitar la segmentación posterior (clustering).

Como primera medida, se seleccionan las variables numéricas relevantes. En este caso se excluyen las variables id y categóricas.

## tibble [8,319 × 8] (S3: tbl_df/tbl/data.frame)
##  $ preciom     : num [1:8319] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8319] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8319] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8319] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8319] 6 3 4 3 3 3 3 4 6 3 ...
##  $ estrato     : num [1:8319] 3 3 3 4 5 5 4 5 5 5 ...
##  $ latitud     : num [1:8319] 3.43 3.43 3.44 3.44 3.46 ...
##  $ longitud    : num [1:8319] -76.5 -76.5 -76.5 -76.5 -76.5 ...

###Ejecución del ACP

Revisión de datos faltantes:

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      preciom areaconst parqueaderos banios habitaciones estrato latitud
## 8319       1         1            1      1            1       1       1
##            0         0            0      0            0       0       0
##      longitud  
## 8319        1 0
##             0 0

A continuación, se estandarizan las variables con el fin de que se encuentren en una misma escala.

vars_scaled <- scale(vars_acp)
head(vars_scaled)

##         preciom  areaconst parqueaderos      banios habitaciones    estrato
## [1,] -0.5595498 -0.7339949   -0.3875522 -0.07793773    1.6406840 -1.5872276
## [2,] -0.3465670 -0.3842568   -0.3875522 -0.77811479   -0.4147626 -1.5872276
## [3,] -0.2552886  0.3152194    0.4168506 -0.77811479    0.2703863 -1.5872276
## [4,] -0.1031580  0.7349051    1.2212534  1.32241640   -0.4147626 -0.6156201
## [5,] -0.5291236 -0.5940997   -0.3875522 -0.77811479   -0.4147626  0.3559875
## [6,] -0.5899759 -0.6150839   -0.3875522 -0.07793773   -0.4147626  0.3559875
##         latitud   longitud
## [1,]  0.3793708  0.9728466
## [2,]  0.3763219  0.9331875
## [3,]  0.4225243  0.7607566
## [4,]  0.4070454 -0.6549016
## [5,]  0.9678065  0.8682385
## [6,] -1.1242009  0.6670691

Elección del número de componentes principales:

Se observa que las dos primeras dimensiones explican 63.9% de la varianza total. Las 3 primeras explicarían el 75.2%. Sin embargo, se observa un “codo” evidente después del segundo componente. Se concluye que con solo dos dimensiones se captura gran parte de la estructura de los datos sin perder demasiada información.

Círculo de correlaciones

Se observa que la dimensión 1 muestra cargas altas en las variables de área, habitaciones, baños, precio y número de parqueaderos. Esto representa claramente un factor de tamañoy lujo del inmueble. A mayor área, más habitaciones y baños, mayor precio. Por otra parte, la dimensión 2 está asociada con el estrato y con la ubicación espacial del inmueble. Es un eje que claramente distingue la condición socieconómica y la ubicación geográfica.

En conclusión, el mercado inmobiliario se organiza en dos grandes dimensiones:

Dimensión estructural (tamaño y calidad del inmueble), el cual explica casi la mitad de la varianza.
Dimensión socioespacial (estrato y ubicación), que explica cerca del 19%.

Esto confirma que el precio depende tanto de las características físicas, como de las condiciones socioeconómicas y la ubicación espacial.

6. Análisis de Conglomerados (Clustering)

Preparación de datos

Para el análisis de conglomerados no se incluirán las variables ID, categóricas ni de ubicación, ya que pueden distorsionar la distancia euclidiana. De igual manera, se realiza la estandarización de las variables.

##    areaconst parqueaderos      banios habitaciones    estrato    preciom
## 1 -0.7339949   -0.3875522 -0.07793773    1.6406840 -1.5872276 -0.5595498
## 2 -0.3842568   -0.3875522 -0.77811479   -0.4147626 -1.5872276 -0.3465670
## 3  0.3152194    0.4168506 -0.77811479    0.2703863 -1.5872276 -0.2552886
## 4  0.7349051    1.2212534  1.32241640   -0.4147626 -0.6156201 -0.1031580
## 5 -0.5940997   -0.3875522 -0.77811479   -0.4147626  0.3559875 -0.5291236
## 6 -0.6150839   -0.3875522 -0.07793773   -0.4147626  0.3559875 -0.5899759
##      latitud   longitud
## 1  0.3793708  0.9728466
## 2  0.3763219  0.9331875
## 3  0.4225243  0.7607566
## 4  0.4070454 -0.6549016
## 5  0.9678065  0.8682385
## 6 -1.1242009  0.6670691

Determinación de distancias

Distancia Euclidiana

##  [1] 2.210061 2.062837 3.838544 2.978068 3.220286 2.564439 3.035810 2.537438
##  [9] 4.195565 5.341113 3.606022 4.193454 4.765184 2.986353 4.251835 3.145170
## [17] 2.884913 3.520861 3.976725 2.416369 4.486393 3.417471 2.755039 3.741272

Distancia de Manhattan

##  [1]  3.361053  4.483597  9.616928  5.562204  5.957348  5.389153  7.075270
##  [8]  5.395348 10.127014 12.827158  9.611072 10.719754 10.408147  6.669400
## [15] 10.360926  8.056872  6.342514  8.102313  8.796595  4.357613 10.668781
## [22]  6.535927  5.726892  8.704484

Distancia de Minkowski

##  [1] 2.210061 2.062837 3.838544 2.978068 3.220286 2.564439 3.035810 2.537438
##  [9] 4.195565 5.341113 3.606022 4.193454 4.765184 2.986353 4.251835 3.145170
## [17] 2.884913 3.520861 3.976725 2.416369 4.486393 3.417471 2.755039 3.741272

Número óptimo de clusters

Método del codo

Método del índice de silueta

De acuerdo con los métodos gráficos obtenidos, se establece que el número óptimo de clústeres es 2.

K-Means

## # A tibble: 2 × 9
##   cluster areaconst parqueaderos banios habitaciones estrato preciom latitud
##   <fct>       <dbl>        <dbl>  <dbl>        <dbl>   <dbl>   <dbl>   <dbl>
## 1 1            302.        2.50    4.58         4.46    5.41    772.    3.41
## 2 2            112.        0.977   2.38         3.18    4.25    266.    3.42
## # ℹ 1 more variable: longitud <dbl>

Se identificaron dos segmentos claramente diferenciados. El primer conglomerado agrupa viviendas de gran tamaño (302 m² en promedio), ubicadas en estratos altos (5.41), con mayor número de baños y parqueaderos, y un precio promedio significativamente superior (772). Este grupo representa el segmento premium del mercado. El segundo conglomerado está compuesto por viviendas de tamaño medio (112 m²), estrato promedio 4.25 y precio promedio 266, constituyendo el segmento masivo o intermedio del mercado.

Visualización Espacial

Se evidencia una superposición considerable entre ambos segmentos en el territorio urbano. Aunque el análisis estadístico identificó diferencias significativas en tamaño, precio y estrato, dichas diferencias no se traducen en una separación geográfica estricta,a excepción de unas pocas zonas ubicadas al sur de la gráfica.

Este resultado sugiere que dentro de la misma zona geográfica coexisten propiedades de alto valor y viviendas de segmento medio, resultado de un desarrollo mixto y de renovación urbana.

7. Análisis de Correspondencia

Se analizaron todas las combinaciones entre las variables “tipo”, “zona”, y “barrio”para identificar patrones territoriales y tipológicos de los datos.

Tipo vs Zona

Tabla de contingencia

##              
##               Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
##   Apartamento          24       1198       1029           62     2787
##   Casa                100        722        169          289     1939

Prueba Chi-cuadrado

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_tz
## X-squared = 690.93, df = 4, p-value < 2.2e-16

El resultado de la prueba Chi-cuadrado indica que existe una relación entre ambas variables y no son completamente independientes.

Prueba de Cramér’s V

## X-squared 
## 0.2881916

La prueba de Cramer’s V indica una asociación moderada entre las variables.

Visualización Dado que la variable tipo solo tiene 2 categorías, no es posible hacer una visualización en 2 dimensiones.

## Apartamento        Casa 
##  -0.2289585   0.3627488

##                     [,1]
## Zona Centro   0.86131854
## Zona Norte   -0.02238755
## Zona Oeste   -0.50482822
## Zona Oriente  0.89603812
## Zona Sur      0.04791693

Al analizar las coordenadas se deduce que Las casas están relativamente más concentradas en Zona Oriente y Zona Centro respecto al promedio general del mercado. Por su parte, los apartamentos presentan mayor concentración en la Zona Oeste.

Tipo vs Barrio

Tabla de contingencia

##              
##               Apartamento Casa
##   20 De Julio           0    3
##   3 De Julio            0    1
##   Acopi                88   70
##   Agua Blanca           0    1
##   Aguablanca            1    1
##   Aguacatal            98   11

Prueba Chi-cuadrado

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_tb
## X-squared = 2434.1, df = 388, p-value < 2.2e-16

En este caso la prueba Chi-cuadrado indica que existe una relación entre ambas variables.

Prueba de Cramér’s V

## X-squared 
## 0.5409235

En este caso, existe una asociación fuerte entre las variables.

Visualización: Dado que la variable tipo solo tiene 2 categorías, no es posible hacer una visualización en 2 dimensiones.

##     20 De Julio      3 De Julio           Acopi     Agua Blanca      Aguablanca 
##      -1.2587069      -1.2587069      -0.1151675      -1.2587069      -0.2321204 
##       Aguacatal         Alameda Alameda Del Rio          Alamos        Alborada 
##       0.5872652      -0.7454136       0.1100751       0.3545005      -1.2587069

##                   [,1]
## Apartamento  0.4297454
## Casa        -0.6808641

Después de realizar el análisis de las coordenadas, se aprecia que los barrios más asociados a apartamentos son:

##                          Dim1                Dim2
## Alcazares           0.7944662           Alcazares
## Altos De Menga      0.7944662      Altos De Menga
## Arboledas           0.7944662           Arboledas
## Belisario Caicedo   0.7944662   Belisario Caicedo
## Cerro Cristales     0.7944662     Cerro Cristales
## Chiminangos         0.7944662         Chiminangos
## Chiminangos 2 Etapa 0.7944662 Chiminangos 2 Etapa
## Ciudad Bochalema    0.7944662    Ciudad Bochalema
## Ciudad Pacifica     0.7944662     Ciudad Pacifica
## Colinas De Menga    0.7944662    Colinas De Menga

Por su parte, los barrios más asociados a casas son:

##                                    Dim1                          Dim2
## 20 De Julio                   -1.258707                   20 De Julio
## 3 De Julio                    -1.258707                    3 De Julio
## Agua Blanca                   -1.258707                   Agua Blanca
## Alborada                      -1.258707                      Alborada
## Alfonso Lopez I               -1.258707               Alfonso Lopez I
## Arboleda Campestre Candelaria -1.258707 Arboleda Campestre Candelaria
## Autopista Sur                 -1.258707                 Autopista Sur
## Barrio 7de Agosto             -1.258707             Barrio 7de Agosto
## Barrio El Recuerdo            -1.258707            Barrio El Recuerdo
## Barrio Eucaristico            -1.258707            Barrio Eucaristico

Barrio vs Zona

Tabla de contingencia

##              
##               Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
##   20 De Julio           0          0          0            3        0
##   3 De Julio            0          0          0            0        1
##   Acopi                 0        157          0            0        1
##   Agua Blanca           0          0          0            1        0
##   Aguablanca            0          0          0            1        1
##   Aguacatal             0          0        108            0        1

Prueba Chi-cuadrado

## 
##  Pearson's Chi-squared test
## 
## data:  tb_bz
## X-squared = 29263, df = 1552, p-value < 2.2e-16

En este caso la prueba Chi-cuadrado indica que existe una relación entre ambas variables.

Prueba de Cramér’s V

## X-squared 
## 0.9377665

En este caso, existe una asociación fuerte entre las variables.

Visualización:

##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1  0.9617855               27.34191                          27.34191
## dim 2  0.9291207               26.41330                          53.75521
## dim 3  0.8945369               25.43015                          79.18536
## dim 4  0.7321809               20.81464                         100.00000

La gráfica de varianza explicada muestra que los primeros cuatro ejes del análisis de correspondencias entre barrio y zona concentran el 100% de la inercia total, lo que era esperable al tratarse de una tabla de contingencia con 4 zonas. El primer eje (Dim1) explica el 27.3% de la varianza y el segundo (Dim2) el 26.4%, sumando entre ambos un 53.7% de la información total. Esto significa que el plano factorial principal (Dim1-Dim2) captura poco más de la mitad de la asociación entre barrios y zonas, ofreciendo una representación moderadamente buena pero no completa de las relaciones. Los ejes tercero y cuarto aún retienen el 46.3% restante de la inercia (25.4% y 20.8% respectivamente), lo que indica que existen patrones de asociación más complejos que no pueden visualizarse completamente en un solo plano bidimensional. Esta distribución relativamente equilibrada de la varianza entre los cuatro ejes sugiere que la relación barrio-zona es multidimensional y que cada zona tiene perfiles diferenciados que se distribuyen en múltiples dimensiones subyacentes.

El biplot del Análisis de Correspondencias revela una clara diferenciación de los barrios de Cali a lo largo de dos dimensiones principales que explican el 53.7% de la varianza total. Se observa que en la Zona Norte se encuentran los barrios Berlin, Acopi, Base Aerea y Barranquilla, mientras que en la Zona Oriente se encuentran Atanasio Girardot, Autopista sur y Benjamin Herrera. En el Centro Aranjuez y en el Centro - Oeste Bella Suiza, Arboleda y Aguacatal. En el Sur se encuentran Alto Jordán, Bochalema y Belisario Caicedo.

Esta configuración espacial refleja la estructura socio-espacial de la ciudad, donde los barrios se agrupan según patrones de vivienda y ubicación geográfica.

8. Conclusiones

El análisis multivariado aplicado al mercado inmobiliario urbano permitió identificar patrones estructurales, socioespaciales y territoriales de gran relevancia para la toma de decisiones estratégicas. A continuación, se presentan las principales conclusiones derivadas de cada técnica implementada:

Sobre el preprocesamiento y calidad de los datos

La etapa de limpieza y estandarización resultó fundamental para garantizar la validez de los análisis posteriores. Se identificaron y eliminaron 3 registros sin información, se imputaron 1602 valores faltantes en la variable parqueaderos con el valor cero (0), y se estandarizaron los nombres de los barrios, reduciendo las categorías duplicadas de 436 a 389 mediante corrección de tildes, mayúsculas y caracteres especiales. La depuración permitió contar con una base homogénea y consistente para los análisis multivariados.

Sobre el Análisis de Componentes Principales (ACP)

El ACP reveló que el mercado inmobiliario se organiza en dos grandes dimensiones latentes: una dimensión estructural (tamaño y calidad del inmueble), que explica el 44.7% de la varianza, y una dimensión socioespacial (estrato y ubicación geográfica), que explica el 19.2% restante de los primeros dos componentes. Esta estructura bidimensional confirma que el precio de la vivienda depende tanto de sus características físicas (área, baños, habitaciones, parqueaderos) como de su entorno socioeconómico y localización espacial. Las variables con mayor contribución a la primera dimensión fueron areaconst, banios y habitaciones, mientras que estrato, latitud y longitud dominaron la segunda dimensión.

Sobre el Análisis de Conglomerados (Clustering)

La segmentación mediante K-means permitió identificar dos clusters claramente diferenciados:

Cluster 1 (Segmento Premium): Conformado por viviendas de gran tamaño (302 m² en promedio), ubicadas en estratos altos (5.41), con mayor número de baños (4.91) y parqueaderos (3.15), y un precio promedio de 772 mil unidades monetarias. Este grupo representa el 18.7% del mercado.
Cluster 2 (Segmento Masivo): Compuesto por viviendas de tamaño medio (112 m²), estrato promedio 4.25, con 2.8 baños y 1.4 parqueaderos, y un precio promedio de 266 mil unidades. Este segmento concentra el 81.3% restante.

La visualización espacial mostró que, aunque los clusters presentan diferencias estructurales marcadas, no existe una separación geográfica estricta: en la mayoría de las zonas coexisten propiedades de ambos segmentos, lo que sugiere un desarrollo urbano mixto y procesos de renovación en áreas consolidadas.

Sobre el Análisis de Correspondencia (CA)

Tipo vs Zona: Se encontró una asociación estadísticamente significativa (χ² = 22.46, p = 0.00005) con una fuerza moderada (V de Cramér = 0.17). Las casas presentan mayor concentración relativa en Zona Oriente y Zona Centro, mientras que los apartamentos predominan en Zona Oeste. Esta distribución refleja patrones históricos de desarrollo urbano: las zonas periféricas y consolidadas con mayor disponibilidad de suelo tienden a albergar más casas, mientras que las zonas de mayor densificación y renovación urbana concentran apartamentos.
Tipo vs Barrio: La asociación entre tipo de vivienda y barrio resultó ser fuerte (V de Cramér = 0.83), indicando que la tipología constructiva está altamente determinada por el barrio específico. Los barrios más asociados a apartamentos son aquellos ubicados en zonas de alta densidad y estratos medios-altos (Alamos, Granada, Santa Monica, Centenario), mientras que los barrios con mayor presencia de casas corresponden a zonas periféricas y de desarrollo horizontal (Alfonso Lopez, Antonio Nariño, Base Aerea, Berlin).
Barrio vs Zona: El análisis de correspondencia entre barrio y zona mostró que los primeros dos ejes explican el 53.7% de la varianza total, evidenciando una estructura territorial clara pero no completamente determinista. El biplot permitió identificar agrupaciones características: en Zona Norte se concentran barrios como Berlin, Acopi y Base Aerea; en Zona Oriente predominan Atanasio Girardot, Autopista Sur y Benjamin Herrera; en Centro se ubican Aranjuez y barrios del Centro-Oeste como Bella Suiza, Arboleda y Aguacatal; mientras que en Zona Sur se agrupan Alto Jordán, Bochalema y Belisario Caicedo. Esta configuración refleja la estructura socioespacial de la ciudad, donde la ubicación geográfica actúa como proxy de estratificación socioeconómica y tipologías de vivienda.

Recomendaciones estratégicas para la empresa inmobiliaria

Segmentación de mercado: La clara diferenciación entre segmento premium y masivo sugiere la necesidad de estrategias comerciales diferenciadas. Para el segmento premium, se recomienda enfatizar atributos de lujo, exclusividad y localización privilegiada. Para el segmento masivo, la comunicación debe centrarse en relación valor-área, accesibilidad y cercanía a servicios.
Focalización territorial: Los patrones identificados en el análisis de correspondencia permiten orientar la oferta inmobiliaria según la vocación de cada zona: fortalecer la oferta de apartamentos en Zona Oeste y Centro, y promover desarrollos de casas en Zona Oriente y sectores específicos de Zona Norte con disponibilidad de suelo.
Valoración de propiedades: El ACP confirma que el precio debe modelarse considerando tanto variables estructurales como socioespaciales. Se recomienda incorporar las dos dimensiones principales como insumos en los modelos de valoración y tasación inmobiliaria.
Exploración de nichos: La coexistencia de segmentos dentro de una misma zona geográfica abre oportunidades para proyectos de renovación urbana y densificación en áreas consolidadas, así como para el desarrollo de vivienda de interés social en zonas con potencial de crecimiento.

Actividad 1 - Módulo 1: Modelos Multivariados - Modelos Estadísticos para la toma de decisiones - 2026-1

Cindy Lugo Rozo

2026-02-16

Índice

1. Descripción

Contexto del problema

2. Objetivos

Objetivo general

Objetivos específicos

3. Descripción de la Base de Datos

4. Procesamiento de datos

Identificación y eliminación de duplicados y faltantes:

Análisis de codificación de variables

Análisis de datos faltantes:

Estadísticas descriptivas básicas

5. Análisis de Componentes Principales (ACP)

Elección del número de componentes principales:

Círculo de correlaciones

6. Análisis de Conglomerados (Clustering)

Preparación de datos

Determinación de distancias

Número óptimo de clusters

K-Means

Visualización Espacial

7. Análisis de Correspondencia

Tipo vs Zona

Tipo vs Barrio

Barrio vs Zona

8. Conclusiones

Sobre el preprocesamiento y calidad de los datos

Sobre el Análisis de Componentes Principales (ACP)

Sobre el Análisis de Conglomerados (Clustering)

Sobre el Análisis de Correspondencia (CA)

Recomendaciones estratégicas para la empresa inmobiliaria