Carolina de la Espriella Alvarez
Modelos Estadísticos Para la Toma de Decisiones
Maestría en Ciencia de Datos
En este informe se presenta en análisis del dataset Vivienda desde diferentes puntos de vista con ayuda de los métodos: Análisis de Componentes Principales (ACP), Análisis de Conglomerados y Análisis de Correspondencia, para finalizar con un resumen general para transmitir de manera efectiva y explicativa los resultados obtenidos.
Inicialmente se realiza una sensibilización con los datos por medio de una exploración general de estos, con el fin de asegurar la calidad de los datos antes de aplicar modelos multivariados; comprender distribuciones, valores atípicos y relaciones iniciales. Esta fase incluye: verificación de estructura, tratamiento de ausentes (imputación simple por media, como en clase), estandarización para métodos que lo requieran y visualizaciones univariantes/bivariantes.
A continuación, se presentan los datos generales del dataset con el fin de identificar de manera ordenada, el número de observaciones y de columnas, el tipo de dato de cada variable (numérica o categórica). Esta lectura rápida permite anticipar qué técnicas aplican a cada subconjunto (cuantitativas para ACP y clustering y cualitativas para correspondencia).
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : chr [1:8322] NA NA NA "02" ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "problems")=<externalptr>
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
Ahora, se desea cuantificar y localizar los ausentes a través de un mapa/tabla de NA por variable, para establecer si los faltantes se concentran en una variable específica o si están dispersos. Además, de distinguir si el patrón podría depender de otra característica (lo que sugiere MAR/MNAR) o si es aleatorio (MCAR).
## # A tibble: 13 × 4
## variable tipo n_na pct_na
## <chr> <chr> <int> <dbl>
## 1 id numeric 3 0.04
## 2 zona character 3 0.04
## 3 piso character 2638 31.7
## 4 estrato numeric 3 0.04
## 5 preciom numeric 2 0.02
## 6 areaconst numeric 3 0.04
## 7 parqueaderos numeric 1605 19.3
## 8 banios numeric 3 0.04
## 9 habitaciones numeric 3 0.04
## 10 tipo character 3 0.04
## 11 barrio character 3 0.04
## 12 longitud numeric 3 0.04
## 13 latitud numeric 3 0.04
El conjunto de datos presenta datos faltantes principalmente en piso y parqueaderos, lo cual puede indicar que los usuarios omiten repetitivamente este dato por algún motivo y que los datos faltantes puede que no sean completamente al azar, y en un contexto real sería relevante analizarlo con el proveedor de los datos.
En este apartado, se espera observar la distribución de cada
atributo, ademas, dependiendo del tipo de dato identificar, en variables
numéricas asimetrías, colas pesadas y posibles valores extremos, ya que
tales rasgos condicionan distancias y varianzas, y en variables
categóricas importa detectar concentración en pocas categorías o
desbalance severo, pues esto afecta la contribución de cada nivel en
análisis posteriores.
El mapa confirma dos bloques bien definidos. Por un lado, precio, área construida, baños, habitaciones y parqueaderos tienen correlaciones positivas de moderadas a altas (tonos azules). En particular, precio–área es la relación más fuerte del conjunto, seguida por precio–baños/área–baños
El estrato se asocia positivamente con las variables de valor y tamaño (azules), aunque con magnitud algo menor frente a precio–área. Esto sugiere un comportamiento socioeconómico coherente con el mercado (estratos más altos concentran inmuebles más grandes y costosos).
En contraste, latitud y longitud muestran correlaciones bajas y mayoritariamente negativas (tonos cálidos) con el bloque de tamaño/valor. La señal es espacial: a medida que nos desplazamos en una dirección geográfica, cambian sistemáticamente las características y los precios. Entre latitud y longitud la correlación es baja, lo que indica que aportan información complementaria.
A continuación se procede a la reducción de dimensionalidad mediante ACP con el fin de identificar ejes latentes que concentren la mayor parte de la variabilidad conjunta de las métricas. Para mantener los supuestos del método, se excluye estrato por su naturaleza ordinal y se trabaja sobre la matriz cuantitativa previamente estandarizada.
Debido a que este método es sensible a datos faltantes, incialmente, se realiza un gráfico del patrón de valores faltantes, donde cada columna es una variable; cada fila representa un patrón de completitud y el número a la izquierda es la cantidad de registros que siguen ese patrón. El color azul indica dato presente y el rosado dato faltante.
A partir de esta identificación de datos faltantes, se decide
imputarlos con su media.
## preciom areaconst banios habitaciones longitud latitud parqueaderos
## 6717 1 1 1 1 1 1 1 0
## 1602 1 1 1 1 1 1 0 1
## 1 1 0 0 0 0 0 0 6
## 2 0 0 0 0 0 0 0 7
## 2 3 3 3 3 3 1605 1622
Aspectos relevantes:
A continuación, se muestra, para cada componente, su desviación estándar, la proporción de varianza individual y la proporción acumulada. Con el fin de alcanzar al menos el 70% de la varianza explicada se define que PCA1 al PCA3 son los componentes principales que deben ser abordados.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.8047 1.1128 0.9200 0.8525 0.64077 0.57489 0.43646
## Proportion of Variance 0.4653 0.1769 0.1209 0.1038 0.05865 0.04721 0.02721
## Cumulative Proportion 0.4653 0.6422 0.7631 0.8669 0.92557 0.97279 1.00000
## PC1 PC2 PC3 PC4 PC5
## preciom 0.47338926 0.11577241 0.31140064 -0.09599405 0.38893978
## areaconst 0.47055089 -0.16045740 0.01424439 -0.04490433 0.44370803
## parqueaderos 0.40404798 0.05415421 0.37082645 -0.45483504 -0.68576815
## banios 0.47916704 -0.09332928 -0.18241412 0.11105431 0.08435709
## habitaciones 0.33096698 -0.43256039 -0.55522310 0.28159010 -0.36534593
## longitud -0.20548446 -0.60384103 -0.14700651 -0.71243065 0.19613417
## latitud -0.09932595 -0.63045591 0.63415768 0.42744632 -0.05008699
## PC6 PC7
## preciom -0.21418775 0.67761612
## areaconst 0.64920129 -0.36369884
## parqueaderos 0.09145051 -0.10384714
## banios -0.68815817 -0.48518330
## habitaciones 0.15700409 0.39706267
## longitud -0.15062837 0.05316277
## latitud -0.05828577 -0.04344472
De manera visual se identifica que el mayor salto entre las varianzas está entre PCA 1 y 2, sin embargo, se considera hasta el PCA 3 con el fin de tener el 76,3% de la varianza explicada y así obtener resultados mas confiables en los análisis posteriores.
En el gráfico se puede observar que el primer componente sintetiza un gradiente de tamaño/valor; ello se evidencia en cargas altas y concordantes de precio, área, baños y habitaciones. A su vez, latitud y longitud conforman un eje de localización geográfica relativamente independiente del anterior, lo cual explica desplazamientos en el plano que no están asociados al tamaño. La variable parqueaderos muestra aporte moderado, coherente con su patrón inicial de ausentes.
El mercado muestra superposición entre zonas, con ligeras diferencias sobre la primera dimensión asociadas al tamaño y al valor. Las posiciones más altas en Dim1 corresponden a viviendas con mayor dotación y precio, mientras que Dim2 introduce matices espaciales.
Ahora, se implementa el análisis de conglomerados con el objetivo de segmentar viviendas en grupos homogéneos según su perfil cuantitativo.
Inicialmente se identifica la cantidad de observaciones que serán tenidas en cuenta para el modelo:
## [1] 8322
Luego, se realiza el dendograma para identificar cómo se agrupan las
observaciones de manera visual.
Ahora, al ordenar de mayor a menor las alturas de fusión, el gráfico
exhibe de manera clara los escalones que separan fusiones de alta
disonancia de aquellas más finas. Es precisamente ese “quiebre” abrupto
el que orienta la elección de un rango razonable de k antes de trazar el
corte en el dendrograma.
A partir de estos resultados, se identifica que la distribución de los grupos es altamente desigual:
## grp_complete
## 1 2 3 4
## 7754 451 47 70
El dendrograma representa la secuencia de fusiones jerárquicas usando distancia euclidiana sobre variables estandarizas. El eje vertical (Height) es la distancia de fusión: cuanto más alta, más diferentes son los grupos que se unieron. Al cortar el árbol en k = 4 (rectángulo rojo), se obtienen cuatro subárboles claramente separados por encima de muchas fusiones de baja altura, lo que respalda la existencia de macrogrupos diferenciados.
## [1] 0.4034143
## cluster size ave.sil.width
## 1 1 7754 0.42
## 2 2 451 0.19
## 3 3 47 0.01
## 4 4 70 0.27
El gráfico muestra, para cada observación, su ancho de silhouette [−1,1]: valores cercanos a 1 implican asignación muy consistente al clúster, valores aproximados a 0 denotan ambigüedad, y valores negativos sugieren que el punto estaría mejor en otro clúster. La línea punteada marca el promedio global, que aquí se ubica alrededor de 0,4, indicador de separación aceptable a nivel general.
Conclusión general del modelo: con k = 4 se obtiene una partición coherente: un clúster principal bien definido (C1), un submercado cercano pero distinguible (C2) y dos nichos pequeños (C3–C4) cuya separabilidad es limitada. Para la toma de decisiones, C1 define el estándar del mercado; C2 puede requerir tácticas específicas; C3–C4 deben perfilase con cautela: si representan propuestas de valor claras, se comunican como nichos, y si reflejan ruido o casos extremos, se tratan como segmentos de baja prioridad en acciones masivas.
Finalmente, se exploran asociaciones entre categorías mediante Análisis de Correspondencia. A diferencia de las técnicas previas, aquí no se emplean métricas continuas, sino tablas de contingencia que recogen la relación entre dos variables cualitativas que en este caso serán zona y estrato.
Inicialmente, se identifican datos faltantes en los atributos de interés y se eliminan los na debido a que son muy pocos y no afectarían al resultado del análisis:
## zona estrato
## 3999 1 1 0
## 1 0 0 2
## 1 1 2
Luego, se construye la tabla cruzada y se aplica la prueba \(X^2\) de independencia, con el fin de observar el valor‑p y el estadístico, ya que, si se rechaza la hipótesis de independencia (valor‑p < 0.05), se justifica avanzar al mapa factorial para describir qué asociaciones específicas explican dicha dependencia.
##
## Estrato3 Estrato4 Estrato5 Estrato6
## Zona Centro 50 8 3 0
## Zona Norte 265 168 393 82
## Zona Oeste 24 38 147 377
## Zona Oriente 170 0 1 0
## Zona Sur 180 776 809 508
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 1933.4, df = 12, p-value < 2.2e-16
Ahora, se construye el biplot de correspondencia con el fin de identificar la distancia al origen y la proximidad entre puntos para tener una idea visual de su contrinución y asociación entre variables.
El plano Dim1–Dim2 explica 96.4% de la inercia total (Dim1 = 69.8%, Dim2
= 26.6%), de modo que la lectura en dos dimensiones es fiable. En este
tipo de biplot, la proximidad entre puntos indica asociación relativa
respecto a la independencia; a su vez, los puntos alejados del origen
aportan más a las dimensiones, mientras que los cercanos al (0,0) tienen
contribución baja y deben interpretarse con cautela.
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.33730884 69.767822 69.76782
## dim 2 0.12866848 26.613355 96.38118
## dim 3 0.01749605 3.618823 100.00000
De acuerdo con estos resultados, se muestra que la Dimensión 1 explica 69,8% de la inercia y Dimensión 2 aporta 26,6% adicionales; en conjunto, las dos primeras dimensiones concentran 96,4% de la variabilidad del cruce (zona × estrato). La Dimensión 3 es residual (3,6%), por lo que no añade información sustantiva. En AC, estas proporciones se interpretan como la fracción del \(χ^2\) total (inercia) que captura cada eje; por tanto, representar los puntos en el plano Dim1–Dim2 es fiel y suficiente para interpretar asociaciones sin distorsiones relevantes.
Conclusión general del modelo: Con un 96% de inercia capturada por dos ejes, el mapa factorial resume con solvencia la estructura del cruce zona × estrato. El patrón es claro:
El presente informe resume, los principales hallazgos del análisis del conjunto vivienda, elaborado con información inmobiliaria estructurada (precio, área, baños, habitaciones, parqueaderos y localización, entre otras variables).
El objetivo central es convertir los resultados analíticos en información útil para la gestión. Para ello, se presentan conclusiones de valor práctico, se muestran visualizaciones comprensibles y se indican implicaciones para la estrategia (producto, territorio y precios).
Este análisis está estructurado de la siguiente manera: diagnostico del estado actual de los datos; sintetiza la información en ejes interpretables (ACP); segmentación la base en grupos accionables (conglomerados), y evidencia asociaciones entre categorías relevantes (correspondencia).
Los datos utilizados como base para este análisis se cuenta con métricas cuantitativas (precio, área, baños, habitaciones, parqueaderos y coordenadas) y variables categóricas (zona, entre otras).
En términos gerenciales, dos aspectos son críticos:
| variable | NAs | min | p50 | mean | max |
|---|---|---|---|---|---|
| areaconst | 3 | 30.00000 | 123.000 | 174.934938 | 1745.0000 |
| banios | 3 | 0.00000 | 3.000 | 3.111311 | 10.0000 |
| habitaciones | 3 | 0.00000 | 3.000 | 3.605361 | 10.0000 |
| latitud | 3 | 3.33300 | 3.416 | 3.417644 | 3.4977 |
| longitud | 3 | -76.58915 | -76.530 | -76.528606 | -76.4630 |
| parqueaderos | 1605 | 1.00000 | 2.000 | 1.835194 | 10.0000 |
| preciom | 2 | 58.00000 | 330.000 | 433.891947 | 1999.0000 |
Análisis de componentes principales ACP
Objetivo: Simplificar la lectura de muchas métricas en pocos ejes comprensibles, de modo que sea fácil explicar qué distingue a unas viviendas de otras.
Beneficio esperado: Identificar el eje de valor/tamaño que ordena el mercado y un eje espacial que introduzca matices por ubicación.
Resultados principales: El ACP concentra cerca del 76% de la información en tres componentes. El primero resume el tamaño y la dotación (área, baños, habitaciones) junto con el precio; el segundo y tercero incorporan ubicación geográfica (latitud/longitud).
Análisis de conglomerados
Objetivo: Segmentar el mercado en grupos accionables para orientar estrategia de producto y precios.
Beneficio esperado: Contar con perfiles claros de vivienda que faciliten decisiones: qué ofrecer, a qué precio y en qué territorio.
Resultados principales: Con 4 clústeres, se observa un grupo principal que concentra la mayor parte de la base (93%), un subgrupo diferenciado (5%) y dos nichos pequeños (<1% cada uno). El grupo principal marca el estándar del mercado; el segundo sugiere tácticas específicas, y los nichos aportan una lectura de oportunidades puntuales o de casos extremos que deben tratarse con cautela.
| cluster | preciom | areaconst | banios | habitaciones | parqueaderos | longitud | latitud |
|---|---|---|---|---|---|---|---|
| 1 | 374.1743 | 152.6533 | 2.938589 | 3.503032 | 1.670698 | -76.52786 | 3.418505 |
| 2 | 1241.3703 | 435.9955 | 5.490022 | 4.995565 | 3.162963 | -76.54114 | 3.410083 |
| 3 | 1214.1277 | 983.4468 | 5.106383 | 5.340426 | 4.756098 | -76.52297 | 3.391334 |
| 4 | 1320.8571 | 417.3143 | 5.571429 | 4.814286 | 7.014286 | -76.53462 | 3.388675 |
Análisis de correspondencia
Objetivo: Detectar afinidades entre las categorías zona–estrato, útiles para el mix de producto y la focalización territorial.
Beneficio esperado: Alineamiento de portafolio y mensaje con el perfil predominante de cada zona (evitando estrategias homogéneas donde el comportamiento es distinto).
Resultados principales: Con dos ejes se explica 96% de la variación del cruce zona–estrato. Se observan asociaciones claras, por ejemplo, Zona Oriente/Centro con Estrato 3, y Zona Oeste con Estrato 6; en cambio, Zona Sur y Estrato 5 se comportan de forma cercana al promedio (sin afinidades marcadas). Esto facilita decisiones focalizadas por territorio–perfil.
En síntesis, el mercado analizado se organiza principalmente por un eje de tamaño y dotación que, de forma natural, se traduce en rango de precios. Este patrón, consistente a lo largo del análisis, permite alinear la definición de escalas de producto con expectativas de precio.
La segmentación en cuatro clústeres confirma la presencia de un perfil mayoritario y de submercados con necesidades específicas. Por tanto, se recomienda gestionar el catálogo y los precios tomando como referencia el clúster principal, al tiempo que se diseñan ofertas diferenciadas para el subgrupo intermedio. Los microsegmentos, por su tamaño, deben abordarse como nichos o casos de baja prioridad en acciones masivas.
Por su parte, el análisis de correspondencia corrobora asociaciones territoriales: ciertas zonas muestran afinidades con estratos específicos. En consecuencia, conviene priorizar combinaciones zona–estrato donde la evidencia es más fuerte y mantener mensajes generales en categorías cercanas al promedio.
Aspectos a monitorear. 1. La variable parqueaderos presentó el mayor volumen de faltantes que, aunque se imputó para no perder casos, es recomendable mejorar su captura para afinar la lectura de dotación. 2. La existencia de valores atípicos en precio/área sugiere comunicar resultados usando medianas/percentiles cuando el público sea sensible a rangos.