1. Descripción

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

2.Variables

Tabla 1.1 - Resumen descriptivo de las variables dataset vivienda
Nombre	Descripción	Clasificación por naturaleza
id	Llave registro unico	Cuantitativa discreta
zona	Zona donde se encuentra ubicada la vivienda	Cualitativa nominal
piso	Piso dentro del edificio donde se encuentra la vivienda	Cuantitativa discreta
estrato	Nivel del estrato de la vivienda	Cualitativa ordinal
preciom	Precio de la vivienda	Cuantitativa discreta
areaconst	Area construida	Cuantitativa continua
parqueaderos	Numero de parqueaderos que posee la vivienda	Cuantitativa discreta
banios	Numero de baños que posee la vivienda	Cuantitativa discreta
habitaciones	Número de habitaciones que posee la vivienda	Cuantitativa discreta
tipo	Tipo de vivienda (Casa, Apartamento)	Cualitativa nominal
barrio	Nombre del barrio donde está ubicada la vivienda	Cualitativa nominal
longitud	Coordenadas de longitud	Cuantitativa continua
latitud	Coordenadas de latitud	Cuantitativa continua

3. EDA - ANALISIS EXPLORATRIO DE DATOS

3.1 Tipo Variable

3.2 Forma Dataset

## [1] 8322   13

Se cuenta con un dataset de 8322 registros y 13 variables o atributos.

3.3 Duplicados

El primer paso en el procesamiento y limpieza de los datos fue identificar los registros duplicados. Partiendo de un total de 8322 registros, aplicamos la función ‘duplicated’ de R. se encontraron un total de 1 registro duplicados, los cuales son removidos para quedar con 8321 registros.

3.4 Errores y datos atípicos

Los errores en los datos y valores atípicos se identificaron a partir de gráficas y tablas que permiten tener una visión completa y complementaria para evitar que se omitan datos que deben ser tratados; para esto se debe asegurar que se aplica el gráfico correcto por cada tipo de variable; por lo tanto, se hace división del análisis entre variables Cualitativas o categóricas (incluyendo las cuantitativas discretas de pocos valores) y las variables Cuantitativas continuas y discretas (con muchos valores).

3.4.1 Variables Cualitativas y Cuantitativas (pocos valores)

Para este tipo de variables se escogen las gráficas de barras al ser por excelencia la mejor forma de representarlas.

En la Figura 1, se pueden observar las gráficas de la 1.1 a la 1.6, donde aparentemente las variables parecen presentar valores dentro del rango esperado segun el contexto de cada variable; solo se observa en algunas graficas la etiqueta “NA” que será tratada mas adelante. La variable “barrio” no fue considerada dentro de estas graficas ya que presenta demasiadas categorías (>400) y no se hace legible su interpretación.

Figura 1: Gráficas de barras

3.4.2 Variables Cuantitativas

Para las variables cuantitativas, si bien se pueden representar con histogramas, no son tan buenas para identificar datos atípicos, por lo que se utilizaron mejor graficas de cajas.

En la Figura 2, se pueden observar las gráficas de la 2.1 y 2.2, donde estas variables presentan una gran cantidad de datos atípicos que se remontan unos con otros (para más detalle ver tabla 2.1), dificultando identificar la cantidad de estos. Analizando la lógica de los valores para estas variables, si bien valores altos para “preciom” o “areaconst” son poco comunes, siguen siendo valores posibles, por lo que no se observan inconsistencias en los valores o rango que estos están tomando.

Figura 2: Graficas de Cajas

Tabla 2.1
	Num_Inconsistencias	Num_Atipicos
preciom	0	552
areaconst	0	382

3.5 Análisis de datos faltantes

La Grafica 3.1 permite visualizar que variables presentan datos faltantes y su proporcion. En esta, a primera vista se observa que solo las variables piso y parqueadero presentan 2635 y 1602 registros respectivamente.

Grafica 3.1 Variables que tienen datos faltantes

Para comprobar y visualizar mejor estos datos, se utiliza la **Grafica 3.2* de matriz de patrones de faltantes, que muestra la cantidad y distribución de dichos faltantes entre las variables.

En esta grafica se puede evidenciar que en realidad todas las variables tienen al menos 1 faltante o en la mayoría de los casos 2 faltantes.

Grafica 3.2 Matriz de patrones de datos faltantes

En resumen, los datos faltantes y su frecuencia relativa se pueden observar más detalladamente en la tabla 3.3

Tabla 6.3 valores faltantes por variable
	Faltantes	Porcentaje %
piso	2637	31.69
parqueaderos	1604	19.28
id	2	0.02
zona	2	0.02
estrato	2	0.02
areaconst	2	0.02
banios	2	0.02
habitaciones	2	0.02
tipo	2	0.02
barrio	2	0.02
longitud	2	0.02
latitud	2	0.02
preciom	1	0.01

Se por las gráficas 3.2 y 3.3, se puede comprobar que los datos contienen 1 fila totalmente vacía y otra solo con un valor en preciom, por lo que al ser registros prácticamente vacios, se procede a eliminarlos. Esto nos deja con un dataframe de 8319 registros y 13 variables.

## [1] 8319   13

3.6 Determinación tipo de faltantes

Como se revisó anteriomente, la variable “piso” presenta una gran cantidad de datos faltantes (>30%), por lo que se determina no utilizar esta variable en adelante debido a que una imputación podria afectar fuertemente la variación real de los datos y segar el modelo.

Para la variable “parqueadero”, si bien un 19.28% sigue siendo un porcentaje alto de faltantes, se considera hacer una imputación de datos. Para eso, se hace en primer lugar, un análisis de correlacion entre variables para tener un mejor entendimiento de los datos.

Figura 3.4 Matriz de correlación entre variables.

Se observa una correlación alta (0.7) entre la variable parqueadero y la variable preciom, sin embargo, se considera hacer la prueba de little para asegurar que el comportamiento de los datos faltantes siguen un patro MCAR Ver anexo 2.

El resultado del valor - p de la prueba fue < a 0.0001, que es menor al límite 0.05, esto significa que se descarta la hipótesis nula de que los datos faltantes siguen un comportamiento MCAR para la variable parqueadero. Esto nos deja en el escenario que probablemente sean MAR debido a la correlación de 0.7 que tienen con preciom. Debido a lo anterior, no es correcto utilizar una imputación con media o mediana sino una imputación multiple (mice)

3.7 Manejo de datos faltantes

Partiendo de lo anterior, la prueba de Little indica que el patrón de datos faltantes no es completamente aleatorio (MCAR). Por lo tanto, se justifica el uso de imputación múltiple bajo el supuesto MAR. Revisar Anexo 3 para más detalle.

Una vez imputados los valores faltantes en la variable parqueadero, se revisar la distribución de densidad con el fin de corroborar que no se haya alterado su distribución inicial, para esto revisar

Finalmente, se quitan variables que no agregan valor para futuros modelos como id, tambien la variable barrio por tener tantas categorias (>400) y las variables de coordenadas (latitud y longitud). El resumen fincal de las variables es:

##      zona              estrato         preciom         areaconst     
##  Length:8319        Min.   :3.000   Min.   :  58.0   Min.   :  30.0  
##  Class :character   1st Qu.:4.000   1st Qu.: 220.0   1st Qu.:  80.0  
##  Mode  :character   Median :5.000   Median : 330.0   Median : 123.0  
##                     Mean   :4.634   Mean   : 433.9   Mean   : 174.9  
##                     3rd Qu.:5.000   3rd Qu.: 540.0   3rd Qu.: 229.0  
##                     Max.   :6.000   Max.   :1999.0   Max.   :1745.0  
##   parqueaderos       banios        habitaciones        tipo          
##  Min.   : 1.00   Min.   : 0.000   Min.   : 0.000   Length:8319       
##  1st Qu.: 1.00   1st Qu.: 2.000   1st Qu.: 3.000   Class :character  
##  Median : 1.00   Median : 3.000   Median : 3.000   Mode  :character  
##  Mean   : 1.76   Mean   : 3.111   Mean   : 3.605                     
##  3rd Qu.: 2.00   3rd Qu.: 4.000   3rd Qu.: 4.000                     
##  Max.   :10.00   Max.   :10.000   Max.   :10.000

4. Modelación y Analisis

4.1 Separación listas por tipo de variables

Se empieza por hacer una separación de variables entre Cualitativas y Cuantitativas para tener un mejor manejo según la tecnica de análisis que se vaya a utilizar.

## [1] "Variables Cuantitativas"

## [1] "preciom"      "areaconst"    "habitaciones" "banios"       "parqueaderos"

## [1] "Variables Cualitativas"

## [1] "zona"    "tipo"    "estrato"

Las variables cuantitativas fueron seleccionadas porque permiten construir la matriz de varianza–covarianzas, base del Análisis de Componentes Principales. Las variables cualitativas fueron reservadas para el Análisis de Correspondencia, el cual estudia asociaciones entre categorías mediante tablas de contingencia.

4.2 Matriz de Varianza-Covarianzas

##                  preciom   areaconst habitaciones      banios parqueaderos
## preciom      108020.6984 32296.81839  126.6842104 314.0987608  248.3530114
## areaconst     32296.8184 20438.74133  107.8597766 132.3955034   91.0635599
## habitaciones    126.6842   107.85978    2.1302478   1.2296749    0.4363664
## banios          314.0988   132.39550    1.2296749   2.0397843    0.8800272
## parqueaderos    248.3530    91.06356    0.4363664   0.8800272    1.1977127

4.3 ACP - Análisis de Componentes Principales

## Standard deviations (1, .., p=5):
## [1] 1.7966610 0.9325111 0.6060966 0.5851674 0.4389286
## 
## Rotation (n x k) = (5 x 5):
##                    PC1         PC2        PC3        PC4        PC5
## preciom      0.4705779  0.40191521 -0.2987622  0.2615784  0.6777452
## areaconst    0.4811713 -0.03341439 -0.5837050 -0.5439232 -0.3616541
## habitaciones 0.3491544 -0.78951189  0.2476170 -0.1762786  0.4029565
## banios       0.4841686 -0.17451052  0.0501865  0.7064706 -0.4832261
## parqueaderos 0.4366952  0.42844452  0.7114750 -0.3248838 -0.1182642

Figura 4.1 - Cantidad variacion explicada por cada componente

En la figura 4.1 se observa que de los 5 componentes principales, la mayor variacion esta explicada o contenida en el componente 1 (64.8%) y el componente 2 (17.4%) para un total del 82.1%. con esto se puede concluir que estos 2 primeros componentes explican más del 80% de la información del mercado inmobiliario.

Figura 4.2 - Calidad de Representación Variables

A primera vista en la Figura 4.2, se observa que tan bien están representados las variables según el componente seleccionado. para este caso puntual, se observa que la variable “habitaciones” está muy bien representada y tambien “preciom” aunque en menor medida. otras variables como “parqueaderos”, “banios” y “areacont” puede que no están tan bien representadas en el plano, sin embargo eso lo que significa es que pueden estar mejor representadas en otros componentes.

En cuanto a la relación de variables segun su ángulo de inclinacion, se observa que las variables “parqueadero” y “preciom” están muy relacionadas entre ellas, al igual que “areaconst” y “banios” entre ellas, sin embargo “habitaciones” se muestra que no esta tan relacionado con las demás variables.

En este caso en particular, entonces, las variables “parqueadero”, “preciom”, “areaconst” y “banios” están mas relacionadas con el componente 1 (algunas de ellas como areaconst, banios y parqueaderos pudiendo estar más relacionadas con otros componentes), y la variable “habitaciones” esta más relacionada con el componente 2. Siendo así, podriamos llamar al componente 1 “Factor estructurar y valor vivienda”.

Con respecto al componente 2, observamos en la tabla de cargas que apunta fuertemente hacia abajo (-0.793), es decir que tiene carga negativa en el Dim 2, “parqueadero” y “precio” tienen componentes positivos en Dim 2 y “areaconst” y “banios” están casi mas cerca del eje horizontal, esto significa que el componente 2 no captura el “tamaño general” de la vivienda, eso lo hace el componente 1, más bien, esta capturando una diferencia estructurar, podríamos decir interna, o en otras palabras, viviendas con características de tamaños similar, pueden tener en su distribución interna. por ejemplo 2 apartamentos, ambos de 60mt2, pero uno con 3 habitaciones y el otro solo con 1. uno con parqueadero y el otro no. este componente 2 podría llevar el nombre de “distribución interna”.

Figura 4.3 - Calidad de Representacion Individuos

En la figura 4.3 se puede representar entonces como eje x = componente 1 “Factor estructural y de valor” vs eje y = componente 2 “distribución interna”. revisando la carga de los componentes se podría determinar el sentido en el que incrementan, sin embargo, se tomaran los casos extremos por componentes para tener esta representación de manera grafica.

para este ejercicio, se toman los scores:

##             PC1         PC2         PC3         PC4        PC5
## [1,] -0.3847072 -1.77970833  0.50375715  0.13426187  0.6671540
## [2,] -1.1728702  0.03919419 -0.30812088 -0.13258038  0.1951063
## [3,] -0.1550992 -0.09693756  0.07608008 -0.90680237  0.1720235
## [4,]  1.2952461  0.51603870  0.37152510  0.21259544 -1.2758316
## [5,] -1.3597477 -0.02716635 -0.13109350 -0.06619486  0.1472699
## [6,] -1.0594767 -0.17311087 -0.06552509  0.42395585 -0.2247272

## [1] "Vivienda con mayor participación en CP1"

## [1] 1762

## [1] "Vivienda con menor participación en CP1"

## [1] 3108

## [1] "Datos de vivienda de los respectivos valores (mayor y menor) en el score"

## # A tibble: 1 × 5
##   preciom areaconst habitaciones banios parqueaderos
##     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1    1800      1586            5      4           10

## # A tibble: 1 × 5
##   preciom areaconst habitaciones banios parqueaderos
##     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1     160        76            0      0            1

Estos valores significan que para el componente 1,cuando el “preciom”, “areaconst”, “banios”, “parqueaderos” y “habitaciones” aumentam, entonces el componente aumenta hacia la derecha del grafica tal como lo confirma la matriz de cargas. en otras palabras, el componente 1 aumenta hacia viviendas más grandes, mejor equipadas y más costosas.

## [1] "Vivienda con mayor participación en CP2"

## [1] 2926

## [1] "Vivienda con menor participación en CP2"

## [1] 8199

## [1] "Datos de vivienda de los respectivos valores (mayor y menor) en el score"

## # A tibble: 1 × 5
##   preciom areaconst habitaciones banios parqueaderos
##     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1     950       280            0      0           10

## # A tibble: 1 × 5
##   preciom areaconst habitaciones banios parqueaderos
##     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1     680       452           10     10            1

para el componente 2, ya un poco más empiricamente, se puede comprobar que los valores altos en este componente tienden a tener menos habitaciones pero con mayor parqueadero y precio, mientras que para valores bajos, tiende a tener mayor número de habitaciones.

En otras palabras, un CP2 alto significa pocas habitaciones, muchos parqueaderos y una “alta valorización” por equipamiento externo. Este tipo de infraestructura, aunque el dataset habla de vivienda, podría calificarse como salon de eventos. Por otro lado, valores bajos de CP2, es decir muchas habitaciones, pocos parqueaderos y mayor distribución interna del espacio, podría clasificarse como aquellas viviendas que son adecuadas para arrendar habitaciones por separado para estudiantes de otras ciudades.

4.4 Análisis de Conglomerados

Aunque se realizó un análisis exploratorio de los datos, no se conoce en si la naturaleza de los mismos, por lo que determinar un numero especifico de conglomerados puede ser desgastante. Partiendo de este escenario, se utilizará un método de conglomerado jerárquico (método ward) donde se comprobará el numero k de conglomerados optimo partiendo del índice de Silhouette.

A partir de las variables cuantitativas estandarizadas que se utilizaron en el paso anterior, se calculara la matriz de las distancias euclidianas y realiza la gráfica de dendograma para tener una visual inicial:

básicamente el eje y nos muestra la distancia en la que se “fusionan” los grupos, es decir, a partir de qué momento se considera como un grupo o se divide en 2. Se busca un punto donde estos “saltos de altura” sean grandes, ya que suelen indicar un buen punto para cortar para determinar el número de grupos. Existe una metodología para encontrar el punto óptimo la cual se evalúa a continuación.

Estos resultados indican una mejor agrupación cuando se eligen k=2 conglomerados ya que valores más cercanos a 1 indican un agrupamiento más coherente, por lo que quedaría algo como esto:

## [1] "numero de conglomerados 'k' optimo según indice de silhouette"

## [1] 2

## 
##    1    2 
## 3208 5111

##   Cluster  preciom areaconst habitaciones   banios parqueaderos
## 1       1 699.3033  291.8375     4.651808 4.432045     2.575436
## 2       2 267.3226  101.5592     2.948542 2.282332     1.248484

Se tiene como resultado 2 conglomerados, el 1ro con 3208 registros y el 2do con 5111 registros. queda entonces empezar a hacer la caracterización para entender mejor las características de dichas agrupaciones.

4.3.1 Caracterizacion Conglomerados

4.3.1.1 Por Promedio variables Cuantitativas

##   Cluster  preciom areaconst habitaciones   banios parqueaderos
## 1       1 699.3033  291.8375     4.651808 4.432045     2.575436
## 2       2 267.3226  101.5592     2.948542 2.282332     1.248484

Al sacar los promedios de las variables cuantitativas, se obtiene que:

Conglomerado 1: el precio promedio de estas viviendas es alto con un valor de 699.3, tambien su área construida es de 291.8, se consideran entonces viviendas muy amplias, tiene en promedio entre 4 y 5 habitaciones, en promedio entre4 y 5 baños y entre 2 y 3 parqueaderos. se puede entonces pensar en este conglomerado como un segmento de viviendas grandes con alta disponibilidad de infraestructura o extras que pueden hacer que su precio suba. Podría esta orientado a una clase o estrato media alta o alta llamado segmento premium. se comprobará mas adelante con otra caracterización adicional.

Conglomerado 2: el precio promedio de estas viviendas en general es más bajo que el conglomerado 1, con un valor de 267.3. tambien su área construida es mucho menor con un valor promedio de 101.5, tiene en promedio solo entre 2 y 3 habitaciones, en promedio entre 2 y 3 baños y solo entre 1 y 2 parqueaderos. este conglomerado se puede pensar que es un tipo de vivienda más sencillo, con menos infraestructura o extras que aumenten su valor. podría estar orientado a personas de clase media llamado segmento medio o masivo.

4.3.1.2 Por Estrato

##    
##        3    4    5    6
##   1  393  426  948 1441
##   2 1060 1703 1802  546

##    
##             3         4         5         6
##   1 0.1225062 0.1327930 0.2955112 0.4491895
##   2 0.2073958 0.3332029 0.3525729 0.1068284

Efectivamente cuando se hace la caracterización por estrato, se observa que para el conglomerado #1, casi el 75% está compuesto por estrato 5 y 6, que es el estrado de clase media alta o alta al que puede estar dirigido. aun así, se observa que algunas viviendas (poco más del 25%) está compuesto por viviendas ubicadas en estratos de clase media.

Para el conglomerado 2, si bien tiene mucha participación entre los estratos de clase media 3 y 4 con un total del 54% entre los 2, se observa que el estrato de clase media-alta o 5 es que el individualmente más está aportando en la conformación del conglomerado con un 35.3%. esto significa que este segmento si bien tiene un perfil de clase media, tambien puede alcanzar a personas con alto poder adquisitivo.

4.3.1.3 Por Tipo

##    
##     Apartamento Casa
##   1        1036 2172
##   2        4064 1047

##    
##     Apartamento      Casa
##   1   0.3229426 0.6770574
##   2   0.7951477 0.2048523

Esta caracterización es muy clara y parece coherente con lo que comúnmente se suele encontrar en el mercado. Aqui se observa como el conglomerado 1, donde los precios son más altos, las areas más grandes, se cuenta con mayor habitaciones, baños y parqueadero, son principalmente casas con un casi 70% de participación. generalmente las casas tienen a cumplir con estas características que predominan en el conglomerado 1.

para el conglomerado 2 se presenta una situación similar pero invertida, donde por las características de este (menores precios, áreas, habitaciones, baños y parqueaderos) son principalmente apartamentos con un porcentaje de participación del 79.5%. generalmente este tipo de vivienda se ajusta a estas características, lo que demuestra una buena clasificación en los conglomerados.

4.3.1.4 Por Zona

##    
##     Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
##   1          58        567        663          158     1762
##   2          66       1353        535          193     2964

##    
##     Zona Centro Zona Norte Zona Oeste Zona Oriente   Zona Sur
##   1  0.01807980 0.17674564 0.20667082   0.04925187 0.54925187
##   2  0.01291332 0.26472315 0.10467619   0.03776169 0.57992565

En la caracterización por zona, se observa que tanto para el conglomerado 1 como para el 2, la “zona sur” es la que predomina con mayor % de participación, donde presentan una participación del 54.9% y 57.9% respectivamente. Para conglomerado 1 la 2da zona con mayor participación es “zona oeste” con un 20.6% mientras que para el conglomerado 2 es “zona norte” con un 26.4%. “zona oriente” es similar para ambos conglomerados con menos del 5% en cada uno y en general la zona menos poblada por ambos conglomerados es “zona centro” con menos del 2% en cada uno.

4.5 Análisis de Correspondencia Simple

Tabla de contingencia

Se construye una tabla cruzada con las variables “estrato” y “zona” disponibles en el dataset:

##    
##     Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
##   3         105        572         54          340      382
##   4          14        407         84            8     1616
##   5           4        769        290            2     1685
##   6           1        172        770            1     1043

##    
##      Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur
##   3 0.0126217093 0.0687582642 0.0064911648 0.0408702969 0.0459189806
##   4 0.0016828946 0.0489241495 0.0100973675 0.0009616540 0.1942541171
##   5 0.0004808270 0.0924389951 0.0348599591 0.0002404135 0.2025483832
##   6 0.0001202068 0.0206755620 0.0925592018 0.0001202068 0.1253756461

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_tz
## X-squared = 3830.4, df = 12, p-value < 2.2e-16

El resultado de la prueba Chi-cuadraro para probar la independencia entre las variables, indica que se rechaza la hipótesis de independencia de las variables (p-value: 0.0000), indicando que existe asociacion estadistica significativa entre estrato y zona.

Finalmente se procede a realizar el análisis de correspondencia que consiste en estimar las coordenadas para cada uno de los niveles de ambas variables y representarlas en un plano cartesiano

El gráfico nos permite establecer relaciones y validarlas asi:

El estrato 6 se encuentra ubicado en la Zona Oeste
Los estratos 4 y 5 están ubicados principalmente en la Zona Sur y Norte
El estrato 3 está presente en las Zonas Oriente y Centro

Esto arroja un resultado muy similar al del ejemplo del curso donde se tomó una muestra de 4000 registros.

Para medir el grado de representatividad del proceso calculas los valores de la varianza acumulada, utilizando para ellos los valores propios de la matriz de discrepancias

##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.32215213              69.965515                          69.96551
## dim 2 0.12745096              27.680002                          97.64552
## dim 3 0.01084108               2.354483                         100.00000

Los resultados indican que la primera componente resumen el 70% y los dos primeros componentes prepresentados en el plano factorial, mientras que los dos primeros ejes resumen un 97.7% de los datos.

5. Conclusiones

segun el ACP. el mercado se explica principalemten por un factor “tamaño + valor”, ya que este mostró que los 2 primeros compornentes explican aproximadamente el 82% de la variabilidad del mercado. Esto indica que la mayor parte de las diferencias entre viviendas se resume en pocas dimensiones explicadas asi:

CP1: “Factor estructural y de valor de la vivienda” - Aumenta con precio, área, baños, parqueaderos y habitaciones, por lo que representa el “nivel” general del inmueble (viviendas grandes/valiosas vs pequeñas/económicas).
CP2: “Distribución interna” - Diferencia inmuebles con más habitaciones frente a aquellos con más parqueaderos/valor (una configuración interna distinta incluso con tamaños similares).

con un modelos jerarquico (Ward) + Silhouette, el mejor numero de conglomerados es k=2, lo que sugiere que el mercado se divide principalmente en 2 segmentos principales asi segun su caracterizacion:

Conglomerado 1 (Premium): Precio ~ 699, área ~ 292, habitaciones ~ 4.65, baños ~ 4.43, parqueaderos ~ 2.58, esto se traduce en viviendas amplias, alta dotación, alto valor.
Conglomerado 2 (Medio/Masivo):Precio ~ 267, área ~ 102, habitaciones ~ 2.95, baños ~ 2.28, parqueaderos ~ 1.25, esto se traduce en viviendas más estándar, menor dotación, mayor alcance de mercado.

Con esto se puede estructurar y/o diseña un portafolio en las 2 lineas antes mencionadas, “Premium” y “Masivo/Medio”

Hay una concentración geográfica fuerte (zona sur domina principalemte) ya que en ambos clusters la Zona Sur es la de mayor presencia (≈55–58%). al complementar esto con el analisis de correspondencia, se observa que zona y estrato no son independientes (esto se compueba con la prueba Chi-cuadrada) dando como resultado que:

Estrato 6 ↔︎ Zona Oeste
Estratos 4–5 ↔︎ Zona Sur y Norte
Estrato 3 ↔︎ Zonas Oriente y Centro

Y además, los dos primeros ejes explican ~97.7% de la inercia, por lo que el plano factorial representa muy bien la estructura. esto implica que se confirma una “geografía socioeconómica” del mercado.

Anexo 1

Código utilizado para revisar en consola las frecuencias de las variables cuantitativas

# Mostrar resultados de valores atípicos por variable
cat("Resultados del análisis multivariado:\n")

## Resultados del análisis multivariado:

for (var in names(resultados_multivariado)) {
  cat(paste("Variable: ", var, "\n"))
  cat("  Límites: ", resultados_multivariado[[var]]$Limites, "\n")
  cat("  Inconsistencias: ", resultados_multivariado[[var]]$Inconsistencias, "\n")
  cat("  Atípicos: ", resultados_multivariado[[var]]$Atipicos, "\n\n")
}

## Variable:  preciom 
##   Límites:  -260 1020 
##   Inconsistencias:   
##   Atípicos:  1400 1400 1150 1200 1100 1130 1850 1950 1050 1200 1400 1100 1190 1106 1300 1350 1350 1050 1250 1150 1050 1050 1300 1200 1220 1100 1090 1126 1100 1300 1700 1500 1700 1300 1200 1300 1200 1200 1350 1200 1200 1380 1850 1300 1200 1600 1200 1195 1200 1700 1400 1800 1200 1500 1300 1100 1125 1400 1400 1120 1200 1450 1450 1250 1380 1350 1450 1370 1250 1195 1200 1480 1100 1700 1700 1400 1750 1600 1150 1150 1550 1100 1561 1400 1700 1600 1550 1100 1050 1650 1100 1200 1680 1500 1250 1550 1100 1600 1150 1300 1800 1500 1500 1600 1100 1600 1200 1400 1240 1700 1350 1150 1150 1150 1600 1500 1280 1200 1100 1800 1800 1200 1500 1200 1200 1150 1200 1500 1200 1100 1800 1700 1800 1400 1700 1800 1650 1500 1200 1400 1900 1800 1200 1100 1400 1350 1700 1500 1100 1280 1250 1250 1250 1050 1200 1200 1250 1200 1255 1590 1100 1390 1350 1590 1350 1650 1090 1385 1150 1150 1200 1250 1400 1450 1250 1200 1300 1400 1250 1400 1100 1500 1150 1800 1100 1200 1050 1080 1100 1200 1250 1200 1100 1700 1650 1250 1800 1200 1400 1800 1500 1390 1385 1600 1440 1300 1133 1600 1077 1090 1100 1180 1250 1800 1500 1250 1200 1200 1200 1200 1250 1300 1400 1400 1400 1280 1750 1350 1100 1100 1200 1400 1400 1400 1400 1150 1100 1500 1050 1200 1320 1180 1400 1100 1400 1300 1200 1200 1200 1850 1100 1500 1370 1400 1250 1050 1350 1180 1850 1300 1400 1850 1200 1200 1850 1100 1300 1500 1400 1300 1300 1250 1650 1900 1600 1700 1700 1700 1200 1150 1250 1600 1600 1600 1800 1200 1398 1700 1250 1500 1400 1480 1650 1800 1300 1400 1300 1600 1500 1100 1550 1100 1200 1450 1450 1200 1300 1450 1300 1300 1200 1700 1100 1170 1200 1250 1200 1280 1200 1700 1800 1250 1300 1280 1160 1200 1100 1700 1850 1280 1350 1400 1150 1600 1700 1250 1300 1600 1750 1050 1050 1200 1100 1350 1250 1270 1900 1850 1400 1400 1300 1150 1250 1900 1580 1500 1200 1200 1280 1350 1350 1200 1900 1900 1400 1100 1150 1500 1300 1300 1300 1280 1590 1300 1800 1300 1300 1800 1400 1200 1300 1300 1700 1280 1700 1900 1350 1200 1350 1600 1200 1150 1680 1100 1360 1100 1300 1200 1500 1800 1100 1330 1200 1200 1900 1500 1300 1600 1700 1900 1500 1500 1100 1600 1999 1600 1350 1530 1650 1940 1950 1300 1051 1078 1200 1103 1580 1500 1100 1270 1100 1160 1350 1500 1900 1600 1800 1550 1300 1150 1830 1200 1200 1850 1584 1100 1500 1550 1100 1950 1400 1500 1300 1250 1250 1200 1150 1200 1350 1350 1150 1226 1150 1300 1150 1250 1250 1150 1450 1200 1220 1850 1900 1850 1800 1350 1200 1220 1250 1350 1800 1050 1100 1300 1800 1270 1149 1200 1200 1550 1250 1750 1600 1400 1300 1200 1150 1400 1090 1500 1400 1400 1583 1250 1150 1080 1200 1180 1250 1400 1350 1050 1400 1500 1290 1330 1330 1350 1801 1200 1800 1230 1110 1330 1200 1395 1100 1250 1200 1400 1600 1590 1400 1450 1200 1400 1400 1500 1500 1250 1650 1600 1200 1200 1400 1050 1100 1100 1550 1400 1650 1800 
## 
## Variable:  areaconst 
##   Límites:  -143.5 452.5 
##   Inconsistencias:   
##   Atípicos:  455 480 480 550 540 460 595 480 960 500 752 463 460 750 487 1365 520 900 700 660 600 1000 730 467 520 520 870 650 500 540 760 530 530 485 490 930 560 724 1000 520 960 500 530 800 520 505 619 1050 490 520 500 588 1040 500 910 540 600 460 480 500 480 630 836 500 464 510 500 610 640 520 534 900 1000 520 1586 535 850 480 620 600 590 500 540 550 800 600 600 600 600 480 800 660 600 600 600 550 600 530 530 542 470 517 780 700 1188 500 500 1000 500 500 500 550 500 460 616 600 750 486 600 1200 750 500 550 453 610 454 600 750 500 551 500 550 700 584 476 552 600 520 600 480 550 550 470 470 605 550 600 500 460 700 1745 455 607 500 520 495 573 728 850 460 650 736 468 736 463 920 480 503 503 503 500 500 600 600 536 500 560 470 457 460 490 640 455 520 520 838 550 500 597 474.63 500 500 460 600 530 460 500 590 495 500 800 487 700 489 800 483 670 600 510 510 530 806 537 540 600 1500 455 463 500 550 619 565 1500 619 461 619 600 720 596 570 1000 462 480 520 844 835 1000 575 500 500 469 1090 550 833 565 600 619 700 650 619 619 800 850 1100 465 700 619 1250 550 700 500 550 461 470 550 1000 619 650 503 980 480 740 980 480 900 1092 773 1600 500 500 765 700 510 472 500 800 500 583 560 759 480 510 502 900 500 700 530 500 776 850 734 734 500 490 624 792 552 520 454 1200 453 600 950 496 650 455 453 470 800 525 453 463 615 500 628 638 550 550 480 500 480 457 459 459 475 475 474 720 480 825 637 530 740 739 627 487 470 500 487 630 487 467 741 500 490 500 455 455 900 500 484 600 475 640 640 480 480 932 465 496 942 496 523.3 660 730 520 588 500 1440 537 507 460

Anexo 2

Código para realizar la prueba de Little a los faltantes

# datos_complemento3 <- dplyr::select(datos_limpio1, 
#                                     parqueaderos
#                                     ,preciom)
# 
# littles_test <- mcar_test(datos_complemento3)
littles_test <- mcar_test(datos_limpio1)
littles_test

## # A tibble: 1 × 4
##   statistic    df p.value missing.patterns
##       <dbl> <dbl>   <dbl>            <int>
## 1      366.    12       0                2

Anexo 3

metodo mice - Multivariate Imputation by Chained Equations

# datos_original <- datos_limpio1

# imputacion <- mice(datos_limpio1, method = "pmm", m = 5)

# datos_imputados <- complete(imputacion)

M1U1 Actividad 1 - Modelos Multivariados

Felipe Sampedro Giraldo

2026-02-16