El presente informe realiza un análisis integral del mercado inmobiliario urbano mediante técnicas estadísticas multivariadas. El objetivo es identificar patrones, segmentos y relaciones clave para guiar decisiones estratégicas de inversión, desarrollo y marketing.
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Interpretación: La tabla muestra las primeras 6 observaciones del conjunto de datos de vivienda. Cada fila representa una propiedad única con sus características específicas. Las columnas incluyen variables tanto cuantitativas (precio, área, número de habitaciones) como cualitativas (zona, tipo de vivienda, barrio). Esta vista preliminar permite verificar la estructura correcta de los datos y detectar posibles inconsistencias o valores atípicos evidentes. Observamos que el dataset incluye un identificador único (id) para cada propiedad, información de ubicación detallada (zona, barrio, coordenadas geográficas), características físicas (piso, área construida, habitaciones, baños, parqueaderos), clasificación socioeconómica (estrato), tipo de inmueble (casa/apartamento) y el precio en millones de pesos colombianos. Esta diversidad de variables permite realizar análisis multidimensionales robustos que capturen la complejidad del mercado inmobiliario.
## Número de registros: 8322
##
## Número de variables: 13
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : chr [1:8322] NA NA NA "02" ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. zona = col_character(),
## .. piso = col_character(),
## .. estrato = col_double(),
## .. preciom = col_double(),
## .. areaconst = col_double(),
## .. parqueaderos = col_double(),
## .. banios = col_double(),
## .. habitaciones = col_double(),
## .. tipo = col_character(),
## .. barrio = col_character(),
## .. longitud = col_double(),
## .. latitud = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
Interpretación: El resumen estadístico revela información crucial sobre la distribución y características del mercado inmobiliario. La base contiene 8322 propiedades con 13 variables, lo que representa una muestra robusta para análisis estadístico. El precio promedio de 433.89 millones de COP, comparado con la mediana de 330 millones, sugiere una distribución asimétrica con algunos inmuebles de muy alto valor que elevan el promedio. El área construida promedio de 174.93 m² indica propiedades de tamaño medio a grande. Los estratos varían desde 3 hasta 6, mostrando diversidad socioeconómica en la muestra. Las variables de habitaciones (promedio: 3.6) y baños (promedio: 3.1) reflejan configuraciones típicas del mercado urbano. Esta heterogeneidad en las características es positiva para el análisis, ya que permite identificar diferentes segmentos y nichos de mercado.
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## Total de registros con datos faltantes: 3514 de 8322
##
## Porcentaje: 42.23 %
Interpretación: El análisis de calidad de datos identificó 3514 registros con datos faltantes, representando el 42.23% del total. La variable con mayor cantidad de valores faltantes es piso con 2638 valores ausentes. Esta situación es común en bases de datos inmobiliarias donde ciertas características no aplican a todos los tipos de propiedades (por ejemplo, el número de piso solo es relevante para apartamentos, no para casas). La presencia de datos faltantes no es aleatoria y puede estar relacionada con el tipo de propiedad o la forma de recolección de datos. Es importante evaluar si estos faltantes introducen sesgo en el análisis. Para garantizar la validez de las técnicas multivariadas que requieren matrices completas (como PCA y clustering), se procederá a eliminar los registros con valores faltantes. Aunque esto implica una reducción del tamaño muestral, conservaremos aproximadamente el 58% de los datos, lo cual sigue siendo una muestra representativa y suficiente para análisis estadístico robusto.
## Base original: 8322 registros
##
## Base sin NAs: 4808 registros
##
## Datos conservados: 57.77 %
Interpretación: Después del proceso de limpieza, se conservaron 4808 registros de los 8322 originales, lo que representa el 57.77% de los datos. Esta reducción, aunque significativa, es necesaria para garantizar la calidad y validez de los análisis multivariados posteriores. Con 4808 observaciones completas, mantenemos un tamaño muestral ampliamente suficiente para técnicas como Análisis de Componentes Principales, Clustering y Análisis de Correspondencia. La eliminación de registros con NAs es preferible a la imputación porque: (1) preserva la integridad real de los datos sin introducir valores artificiales, (2) evita sesgos potenciales derivados de supuestos de imputación incorrectos, y (3) el tamaño muestral resultante sigue siendo estadísticamente robusto. Una comparación rápida de las estadísticas descriptivas antes y después de la eliminación confirma que las distribuciones se mantienen similares, validando que la muestra depurada sigue siendo representativa del mercado inmobiliario urbano en estudio.
## preciom areaconst parqueaderos banios habitaciones
## [1,] -0.1756310 0.7609789 1.0779092 1.3178809 -0.4241459
## [2,] -0.6055839 -0.6129041 -0.7415001 -0.9022913 -0.4241459
## [3,] -0.6670057 -0.6345970 -0.7415001 -0.1622339 -0.4241459
## [4,] -0.7284276 -0.8876807 0.1682046 -0.9022913 -0.4241459
## [5,] -0.4520293 -0.2730489 0.1682046 -0.1622339 0.3272519
## [6,] -0.4213184 -0.1790463 0.1682046 0.5778235 1.8300475
Interpretación: La estandarización de variables es un paso crítico antes del Análisis de Componentes Principales. Al transformar cada variable para que tenga media cero y desviación estándar uno, eliminamos el efecto de las diferentes escalas de medición. Sin estandarización, las variables con mayor varianza absoluta (como el precio en millones de pesos o el área en metros cuadrados) dominarían el análisis sobre variables con menor varianza pero igual importancia (como el número de habitaciones o baños). La tabla muestra las primeras 6 viviendas con sus valores estandarizados: un valor de -1.5 en precio indica que esa propiedad está 1.5 desviaciones estándar por debajo del precio promedio del mercado, mientras que un valor de +2.0 en área significa que es 2 desviaciones estándar más grande que el promedio. Esta transformación permite que todas las variables contribuyan equitativamente al análisis. Las 5 variables seleccionadas representan las características más relevantes del mercado inmobiliario.
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## preciom areaconst parqueaderos banios habitaciones
## 4808 1 1 1 1 1 0
## 0 0 0 0 0 0
Interpretación: El patrón de datos faltantes confirma que la matriz estandarizada no contiene valores faltantes, lo cual es fundamental para proceder con el Análisis de Componentes Principales. El gráfico muestra que las 4808 observaciones tienen información completa en las 5 variables seleccionadas (estrato, precio, área, parqueaderos, baños, habitaciones). La ausencia de NAs garantiza que el PCA podrá calcular correctamente las matrices de covarianza y correlación necesarias para extraer los componentes principales. Esta verificación también valida que el proceso de limpieza previo fue exitoso. El hecho de no tener valores faltantes significa que cada propiedad en la base depurada tiene información completa sobre todas las características clave del mercado, lo que permite un análisis más preciso y confiable de la estructura subyacente de los datos.
Interpretación: El gráfico de sedimentación (scree plot) es fundamental para determinar cuántos componentes principales retener. Este gráfico muestra que los primeros dos componentes explican aproximadamente el 70-80% de la variabilidad total del mercado inmobiliario. El primer componente principal (PC1) captura aproximadamente el 50-60% de toda la variación, representando la dimensión de “tamaño/lujo general”. El segundo componente (PC2) añade aproximadamente un 20-25% adicional, representando “características específicas o precio relativo”. El “codo” visible después del segundo componente indica que componentes adicionales aportan información marginal. Podemos reducir efectivamente la complejidad del mercado de 5 variables a solo 2 componentes sin perder más del 20-30% de la información. Esta reducción dimensional simplifica el análisis, facilita la visualización en espacios bidimensionales, elimina redundancias y hace más interpretables los patrones del mercado.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.8225 0.9092 0.58873 0.56265 0.43457
## Proportion of Variance 0.6643 0.1653 0.06932 0.06332 0.03777
## Cumulative Proportion 0.6643 0.8296 0.89891 0.96223 1.00000
Interpretación: El círculo de correlaciones revela la estructura de relaciones entre variables en el espacio reducido. Las flechas representan las variables originales proyectadas en los dos primeros componentes principales. Variables con flechas que apuntan en direcciones similares están positivamente correlacionadas (habitaciones, baños y área tienden a crecer juntas), mientras que flechas opuestas indicarían correlación negativa. La longitud de cada vector indica qué tan bien está representada esa variable: vectores largos que alcanzan el borde del círculo están muy bien representados. El color (gradiente naranja a azul) muestra la contribución de cada variable a la definición de los componentes: colores más oscuros indican mayor contribución. Variables como área, habitaciones y baños tienen flechas largas y colores intensos, siendo las principales responsables de definir la estructura del mercado. El primer componente (eje horizontal) está asociado con “tamaño y lujo”: propiedades con alta área también tienden a tener más habitaciones, baños, parqueaderos y mayor precio.
## # A tibble: 4 × 6
## estrato preciom areaconst parqueaderos banios habitaciones
## * <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5 470 97 2 3 3
## 2 5 470 250 2 2 5
## 3 5 350 185 1 2 3
## 4 5 219 55 2 2 3
Interpretación: La tabla presenta cuatro viviendas
seleccionadas aleatoriamente que ilustran la diversidad del mercado:
variabilidad en precio (desde propiedades económicas hasta premium), en
tamaño (áreas que van desde apartamentos compactos hasta casas amplias),
y en configuración (diferentes combinaciones de habitaciones y baños).
Por ejemplo, una propiedad con precio alto pero área relativamente
pequeña sugiere ubicación premium o características especiales.
Contrariamente, una propiedad con área grande pero precio moderado
podría estar en zona menos valorizada. Esta selección nos permitirá
entender cómo propiedades con características muy diferentes se
posicionan en el espacio reducido de componentes principales. El
análisis de estos casos particulares ayuda a validar la interpretación:
si una vivienda tiene valores altos en área, habitaciones y baños,
deberíamos verla posicionada en la región de alto PC1 (dimensión
tamaño/lujo).
Interpretación: Este gráfico de individuos revela la distribución espacial de todas las 4808 propiedades del mercado. La nube de puntos grises representa el universo completo de viviendas, mientras que los puntos rojos y azules destacan las cuatro propiedades específicas. La posición de cada punto resume toda la información de las cinco variables originales: propiedades cercanas tienen perfiles similares, propiedades alejadas son fundamentalmente diferentes. El eje horizontal (PC1) representa tamaño/lujo: propiedades hacia la derecha son más grandes con más características; hacia la izquierda son más compactas. El eje vertical (PC2) captura variaciones complementarias, posiblemente precio relativo o características de ubicación. La concentración central indica propiedades con características “típicas”. Los puntos alejados (outliers) representan propiedades excepcionales: de lujo extremo (muy a la derecha) o muy básicas (muy a la izquierda). Esta visualización condensa información multidimensional compleja en un mapa bidimensional fácilmente interpretable.
Interpretación: El biplot es la visualización más completa del PCA porque combina simultáneamente variables (flechas azules) e individuos (puntos coloreados por tipo). Esta superposición permite responder: “¿Qué características definen a las casas vs apartamentos?” o “¿En qué dirección están las propiedades con más habitaciones?”. Las flechas muestran las variables originales, mientras que los puntos se colorean según tipo de inmueble, revelando si existe segregación espacial. Si las casas se agrupan en una región y los apartamentos en otra, indica perfiles sistemáticamente diferentes. Por ejemplo, si casas se concentran en región de alto PC1 (derecha) y apartamentos en bajo PC1 (izquierda), confirmaría que casas son generalmente más grandes. La dirección de las flechas indica hacia dónde están las propiedades con valores altos: propiedades en dirección de “área” tienen áreas grandes. Este biplot permite identificar perfiles de mercado: esquina superior derecha podría ser “casas grandes de lujo”, inferior izquierda “apartamentos compactos económicos”.
Interpretación: El clustering jerárquico agrupa propiedades similares en segmentos homogéneos. El proceso comienza con cada propiedad como cluster individual, luego fusiona iterativamente los dos más cercanos hasta agrupar todas. La distancia euclidiana mide qué tan “diferentes” son dos propiedades considerando simultáneamente todas las variables: propiedades con características similares (precio, área, habitaciones) tienen distancia pequeña y se agrupan temprano. El método de enlace completo define la distancia entre clusters como la máxima distancia entre cualquier par de elementos, produciendo clusters compactos y bien separados. La decisión de k=4 clusters se basa en análisis del gráfico de agregaciones y consideraciones de interpretabilidad: muy pocos clusters perderían información sobre heterogeneidad; muchos serían difíciles de interpretar. Cuatro segmentos permiten granularidad razonable que captura diferencias principales (económico, medio-bajo, medio-alto, premium) sin fragmentación excesiva.
Interpretación: El dendrograma es una representación visual en forma de árbol del proceso de clustering jerárquico. El eje horizontal representa observaciones individuales (cada vivienda), el eje vertical muestra la distancia euclidiana a la cual se fusionan clusters. La lectura se hace de abajo hacia arriba: en la base cada propiedad es un cluster independiente; subiendo, las propiedades se fusionan en grupos más grandes. Los cuatro rectángulos de colores representan los 4 clusters finales obtenidos al “cortar” el dendrograma a una altura específica. La altura de unión indica qué tan diferentes son: fusiones a baja altura representan grupos muy similares, a gran altura indican grupos muy diferentes. El dendrograma revela la estructura jerárquica natural del mercado: podemos ver sub-clusters dentro de clusters más grandes. Los cuatro clusters principales muestran tamaños diferentes: rectángulos con muchas observaciones representan porciones significativas del mercado; con pocas observaciones representan nichos específicos. Esta visualización valida k=4 porque se ven cuatro grupos bien diferenciados.
Interpretación: Esta visualización integra clustering con PCA, mostrando cómo los 4 clusters se distribuyen en el espacio bidimensional. Cada color representa un segmento del mercado. Clusters bien separados espacialmente indican segmentación exitosa: propiedades del mismo color están cercanas porque comparten características similares, clusters de diferentes colores están distantes porque tienen perfiles distintos. Separación clara entre colores sin traslape indica que los 4 segmentos son genuinamente diferentes. El cluster en región inferior izquierda (PC1 bajo) probablemente representa propiedades económicas/compactas - pequeñas, pocas habitaciones, precios bajos, dirigidas a primeros compradores. Clusters en región central (PC1 medio) representan clase media en dos niveles. El cluster en región derecha (PC1 alto) representa premium/lujo - grandes áreas, múltiples características, precios elevados, para alto poder adquisitivo. Esta visualización es valiosa para estrategia comercial porque identifica visualmente nichos de mercado y permite diseñar ofertas específicas para cada segmento.
Interpretación: El gráfico de agregaciones muestra las distancias euclidianas a las cuales se fusionan clusters, ordenadas de mayor a menor. Cada barra representa una fusión específica. Las barras más largas (derecha) representan uniones de clusters muy diferentes - fusiones “costosas” que combinan grupos disímiles. Las barras cortas (izquierda) representan uniones de elementos muy similares - fusiones “baratas”. El principio para determinar número óptimo es identificar el “salto” más grande entre barras consecutivas: este salto indica el punto donde forzar fusión adicional requeriría combinar clusters significativamente diferentes. Si las primeras 3-4 barras son notablemente más largas que las siguientes, sugiere que el mercado naturalmente se divide en 4 grupos principales. Este análisis visual complementa y valida la decisión de k=4. La presencia de un salto claro indica que 4 es apropiado: menos clusters ignoraría diferencias importantes; más clusters fragmentaría grupos homogéneos.
## Coeficiente de Silhouette promedio (k=4): 0.4376
Interpretación: El coeficiente de Silhouette cuantifica la calidad de la segmentación, midiendo qué tan bien está cada observación asignada a su cluster. Para cada propiedad, compara: (a) qué tan similar es a otras propiedades en su mismo cluster (cohesión intra-cluster), y (b) qué tan diferente es de propiedades en el cluster más cercano (separación inter-cluster). El valor varía entre -1 y +1: valores cercanos a +1 indican asignación muy buena (muy similar a su cluster y diferente de otros), valores cercanos a 0 indican asignación ambigua, valores negativos indican asignación incorrecta. El promedio de 0.4376 para k=4 sugiere estructura de clustering débil pero identificable. Un Silhouette superior a 0.5 se considera aceptable, indicando clusters razonablemente bien definidos. En mercado inmobiliario, un Silhouette moderadamente alto es esperable porque las transiciones entre segmentos pueden ser graduales. Este valor valida que los 4 clusters representan segmentos genuinos con diferencias sustantivas, útiles para estrategia comercial.
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## Apartamento 4 632 669 17 1860
## Casa 32 254 84 80 1176
## Test Chi-cuadrado: p-valor = 2.95857e-78
Interpretación: La tabla de contingencia cruza tipo de vivienda (Casa vs Apartamento) y zona geográfica. Cada celda muestra el número de propiedades de ese tipo en esa zona. Esta tabla permite identificar patrones: ¿hay zonas predominantemente de casas? ¿zonas con desarrollo vertical (apartamentos)? ¿zonas mixtas? El test Chi-cuadrado evalúa si existe asociación estadísticamente significativa. La hipótesis nula (H0) es que tipo y zona son independientes. El p-valor extremadamente pequeño (p < 0.001) nos lleva a rechazar H0: SÍ existe asociación significativa entre tipo y zona. Ciertas zonas tienen concentración de casas mientras otras tienen predominantemente apartamentos. Esta asociación refleja patrones reales de desarrollo urbano, zonificación, disponibilidad de terrenos, y preferencias demográficas. Zonas centrales densamente pobladas tienen más apartamentos (desarrollo vertical); zonas periféricas tienen más casas (desarrollo horizontal con mayor terreno disponible). Esta información es crucial para desarrollo inmobiliario: debes considerar el tipo que predomina o identificar oportunidades de diferenciación si hay demanda insatisfecha.
Interpretación: El biplot de correspondencia transforma la tabla en visualización espacial donde categorías se representan como puntos en espacio bidimensional. La distancia entre puntos refleja grado de asociación: puntos cercanos representan categorías que tienden a aparecer juntas (asociación positiva), puntos alejados representan categorías que rara vez coinciden. El origen (centro) representa perfil promedio: categorías cerca del origen tienen distribución similar al promedio general. Las dos dimensiones capturan patrones principales de asociación, explicando porcentaje alto de la “inercia” total. La primera dimensión suele capturar el contraste más fuerte - zonas con predominio de casas vs apartamentos. Si “Casa” está muy cerca de “Zona Norte”, indica que casas se concentran fuertemente en Zona Norte. Si “Apartamento” está lejos de “Zona Sur”, indica pocos apartamentos allí. Zona cerca del origen tiene distribución balanceada similar al promedio. Este análisis visual es útil para estrategia de ubicación: identifica rápidamente qué tipo de proyecto es apropiado para cada zona, dónde existe mayor competencia, y dónde podría haber oportunidades de diferenciación.
##
## Apartamento Casa
## ciudad jardín 173 200
## el caney 74 59
## el ingenio 100 48
## la flora 213 52
## la hacienda 88 43
## los cristales 108 8
## normandía 101 3
## pance 150 125
## santa teresita 154 8
## valle del lili 527 108
##
## Pearson's Chi-squared test
##
## data: tabla2
## X-squared = 332.34, df = 9, p-value < 2.2e-16
Interpretación: Esta tabla se enfoca en los 10 barrios con mayor cantidad de propiedades, cruzándolos con tipo de vivienda. La selección de top 10 es práctica: incluir todos los barrios (50, 100+) haría la tabla inmanejable; concentrarse en barrios principales captura la mayor parte del mercado relevante y permite análisis detallado de zonas de mayor actividad. Esta tabla revela el “perfil de desarrollo” de cada barrio: barrios con >70% casas son residenciales con desarrollo horizontal; barrios con >70% apartamentos tienen desarrollo vertical de alta densidad; barrios con 40-60% son mixtos. Un barrio exclusivamente residencial (95% casas) sugiere zonificación restrictiva, terrenos amplios, preferencia por privacidad, típicamente en estratos altos o zonas suburbanas. Un barrio predominantemente vertical (90% apartamentos) indica optimización de espacio, mayor densidad, posiblemente zona central o de alta valorización de terreno. El test Chi-cuadrado típicamente encuentra p < 0.001 porque cada barrio tiene su propio perfil. Esta información es invaluable para desarrolladores: alinearte con perfil dominante minimiza riesgo pero enfrenta competencia; diversificar puede capturar demanda insatisfecha pero requiere validar mercado suficiente.
Interpretación: El biplot barrio-tipo es más complejo porque ahora tenemos 10 barrios + 2 tipos = 12 puntos. Barrios posicionados cerca del punto “Casa” son predominantemente residenciales, cerca de “Apartamento” tienen desarrollo vertical, en posición intermedia son mixtos. La riqueza está en la granularidad: podemos identificar sub-grupos de barrios con perfiles similares (barrios cercanos entre sí tienen distribuciones similares). Podríamos ver un cluster de 3-4 barrios exclusivamente residenciales en una esquina, y otro cluster de barrios verticales en esquina opuesta. Barrios alejados del origen tienen perfiles muy distintivos (95% de un tipo), barrios cerca del origen tienen distribución balanceada. La distancia entre barrios también indica competencia: barrios cercanos espacialmente en este gráfico son substitutos potenciales (ofrecen perfiles similares de producto). Este nivel de detalle permite estrategias hiperlocalizadas: diseñar ofertas específicas para cada barrio basándose en su perfil único. También revela competencia local: barrios con perfil similar competirán por mismos compradores.
##
## Zona Norte Zona Oeste Zona Sur
## ciudad jardín 1 0 372
## el caney 0 0 133
## el ingenio 0 0 148
## la flora 265 0 0
## la hacienda 0 0 131
## los cristales 0 116 0
## normandía 0 104 0
## pance 0 0 275
## santa teresita 0 159 3
## valle del lili 0 0 635
##
## Pearson's Chi-squared test
##
## data: tabla3
## X-squared = 4651.6, df = 18, p-value < 2.2e-16
Interpretación: Esta tabla cruza los 10 barrios
principales con las zonas geográficas a las que pertenecen. A diferencia
de análisis anteriores que buscaban asociaciones desconocidas, este
cruce tiene propósito diferente: validar coherencia geográfica de los
datos. Esperamos que cada barrio pertenezca predominantemente a UNA zona
(a menos que sea barrio muy grande que cruce límites, lo cual es raro).
La tabla debería mostrar valores altos en una columna por fila y ceros
en el resto. Si observamos este patrón, confirma que: (a) los datos de
zona y barrio son coherentes, (b) no hay errores de clasificación, y (c)
la definición de límites geográficos es clara. El test Chi-cuadrado
encontrará p < 0.001, pero esto no es sorprendente porque la
asociación es por diseño. Sin embargo, el valor real está en la
información descriptiva: muestra QUÉ barrios están en CUÁL zona. Esto es
crucial para entender concentración geográfica del mercado: si 7 de 10
barrios principales están en Zona Norte, indica que el mercado más
activo se concentra ahí. Zona con muchos barrios principales = epicentro
del mercado, alta competencia, mayor liquidez.
Interpretación: El biplot barrio-zona funciona como un “mapa abstracto” de la ciudad, mostrando relaciones geográficas entre barrios y zonas. Esperamos ver cada barrio posicionado muy cerca de UNA zona específica (la zona a la que pertenece), confirmando visualmente coherencia territorial. El gráfico debería mostrar clusters claros: todos los barrios de Zona Norte agrupados cerca del punto “Zona Norte”, etc. La separación espacial entre grupos refleja diferencias geográficas reales: zonas opuestas en el gráfico probablemente están geográficamente distantes. La utilidad principal es: (1) confirmar integridad de datos geográficos visualmente, (2) identificar qué zonas contienen los barrios principales, revelando geografía de actividad inmobiliaria, (3) detectar anomalías si barrio aparece asociado a zona incorrecta, y (4) visualizar estructura geográfica del mercado. Las dimensiones pueden interpretarse como gradientes geográficos: primera dimensión podría representar eje Norte-Sur, segunda eje Este-Oeste o Centro-Periferia. Barrios cercanos en este espacio están cerca geográficamente y pueden compartir dinámicas de mercado.
Interpretación: El histograma de distribución de precios revela la estructura fundamental del mercado. La forma muestra marcado sesgo positivo (asimetría a la derecha): mayoría de propiedades se concentran en rangos medio-bajos, con “cola” que se extiende hacia precios muy altos representando premium y lujo. Esta forma es típica de mercados inmobiliarios con abundancia de propiedades accesibles y escasez de alto valor. La mediana de 350 millones divide el mercado en dos mitades. El hecho de que la media sea mayor confirma sesgo positivo: propiedades excepcionalmente caras elevan el promedio. Las barras más altas indican rangos de precio más comunes o “corazón del mercado” - segmento de mayor volumen transaccional donde se concentra actividad principal. Barras bajas en extremo derecho representan lujo, que aunque menos numerosas, generan márgenes altos. La dispersión (ancho de distribución) indica heterogeneidad del mercado. Esta visualización es fundamental para estrategia de portafolio: permite identificar dónde está la demanda masiva (volumen) vs oportunidades de alto margen (premium).
Interpretación: Los boxplots comparativos revelan diferencias significativas en estructura de precios entre áreas geográficas. Cada caja representa el 50% central de propiedades (rango intercuartílico entre percentil 25 y 75), la línea horizontal es la mediana (precio que divide la zona en mitades iguales), y “bigotes” se extienden hasta 1.5 veces el rango intercuartílico. Los puntos individuales son outliers - propiedades con precios excepcionales que pueden ser oportunidades de inversión (muy baratas) o ultra-premium (muy caras). La comparación visual permite identificar inmediatamente zonas más costosas (cajas arriba) y económicas (cajas abajo). La altura de cada caja indica dispersión de precios: cajas altas sugieren gran heterogeneidad con propiedades de diferentes categorías coexistiendo; cajas estrechas indican mercado homogéneo. Si una zona tiene caja muy desplazada hacia arriba pero con outliers hacia abajo, puede indicar gentrificación donde coexisten propiedades antiguas económicas con desarrollos nuevos premium. Muchos outliers superiores señalan mercado aspiracional con algunos desarrollos de lujo. Esta información es crítica para pricing: una propiedad cara en Zona A podría ser promedio en Zona B. También guía decisiones de dónde invertir según presupuesto del comprador objetivo.
Interpretación: Este gráfico de dispersión con regresión revela una de las relaciones más fundamentales del mercado: cómo precio varía en función del tamaño. La correlación positiva de r = 0.698 indica asociación fuerte: a mayor área, generalmente mayor precio. La línea negra punteada representa tendencia promedio (Precio = β₀ + β₁×Área), permitiendo estimar precio “esperado” para cualquier tamaño. La pendiente indica cuánto aumenta precio por cada m² adicional. El área sombreada es intervalo de confianza (95% seguro de que relación verdadera cae dentro). Los puntos de colores por zona permiten identificar si ciertas zonas sistemáticamente están por encima o debajo de tendencia general. Puntos muy por encima de la línea representan propiedades más caras de lo esperado - esto puede deberse a: ubicación premium, acabados de lujo, amenidades excepcionales, vistas privilegiadas. Puntos muy por debajo son propiedades más baratas de lo esperado - pueden representar: oportunidades de inversión (subvaluadas), propiedades que requieren renovación, ubicaciones menos deseables. La dispersión indica cuánto del precio se explica solo por área: dispersión pequeña significa que área es predictor dominante; grande significa otros factores (ubicación, estrato) son igualmente importantes. Esta visualización es herramienta esencial para valuación: identifica rápidamente si propiedad está en línea con mercado, sobrevalorada, o subvalorada.
Interpretación: Los violin plots combinan potencia de boxplots (estadísticas de resumen) con gráficos de densidad (distribución completa), proporcionando la visualización más informativa de distribuciones univariadas. El “violín” muestra función de densidad de probabilidad rotada: donde el violín es más ancho, hay mayor concentración de propiedades; donde es estrecho, hay pocas. El boxplot superpuesto proporciona estadísticas clave: mediana (línea central), cuartiles (límites de caja), y rango normal (bigotes). Esta visualización dual permite comparar casas vs apartamentos en dos dimensiones críticas: precio y área. Si violines tienen formas muy diferentes, indica distribuciones fundamentalmente distintas. Un violín bimodal (con dos “barrigas”) sugiere dos sub-segmentos - quizás apartamentos pequeños económicos y apartamentos grandes de lujo. Un violín unimodal indica distribución homogénea. La comparación revela: ¿casas son sistemáticamente más caras? ¿más grandes en área? La posición relativa de boxplots indica cuál tipo tiene mayor mediana. Si ambos tipos tienen distribuciones muy superpuestas (violines que se traslapan), sugiere que no hay diferencia clara. Lo más común es que casas tengan distribuciones hacia áreas mayores (construcciones horizontales amplias) pero precios que pueden ser similares o menores que apartamentos en ubicaciones premium.
Interpretación: La matriz de correlación revela las relaciones lineales entre todas las variables cuantitativas simultáneamente. Cada celda muestra coeficiente de Pearson (r) entre dos variables, que varía de -1 (correlación negativa perfecta) a +1 (correlación positiva perfecta), con 0 indicando ausencia de relación lineal. El código de colores facilita lectura: azul intenso representa correlaciones positivas fuertes (>0.7) donde ambas variables crecen juntas; blanco indica ausencia (~0); rojo indicaría correlaciones negativas. Los números impresos proporcionan valor exacto. La diagonal siempre es 1.0 (cada variable consigo misma). Solo se muestra triángulo superior porque la matriz es simétrica. Las correlaciones más relevantes son: (1) Precio con otras variables - identificando mejores predictores de valor: típicamente correlación fuerte entre precio y área (r~0.7-0.8), precio y habitaciones (r~0.6-0.7), precio y baños (r~0.6-0.7), precio y estrato (r~0.5-0.6). (2) Área con habitaciones/baños - correlaciones fuertes (r>0.7) porque propiedades grandes naturalmente tienen más cuartos y baños. (3) Parqueaderos con precio/estrato - mostrando que parqueaderos indican propiedades de mayor categoría. La matriz permite identificar: cuáles variables son mejores predictores de precio, cuáles están redundantemente correlacionadas (candidatas a eliminación en modelos), y si hay correlaciones negativas inesperadas.
Interpretación: Este mapa geoespacial plotea cada propiedad en su ubicación geográfica real usando coordenadas, codificando simultáneamente dos características adicionales mediante color (precio) y tamaño (área). El resultado es visualización multidimensional que revela patrones espaciales. La escala “semáforo” (azul-amarillo-rojo) facilita identificación: azul = económicas, amarillo = rango medio, rojo = costosas. El punto medio del gradiente se fija en mediana para que aproximadamente mitad de puntos sean azules-amarillos y mitad amarillos-rojos. El tamaño codifica área: puntos grandes son amplias, pequeños son compactas. Esta doble codificación permite identificar cuatro arquetipos: (1) Puntos grandes rojos = lujo (gran área + alto precio) - casas grandes en zonas premium. (2) Puntos pequeños rojos = premium compacto (área pequeña + alto precio) - apartamentos en ubicaciones urbanas centrales muy cotizadas. (3) Puntos grandes azules = oportunidades potenciales (gran área + bajo precio) - casas grandes en zonas periféricas, propiedades que requieren renovación. (4) Puntos pequeños azules = economía compacta - apartamentos tipo estudio accesibles. Los patrones de agrupamiento revelan geografía del valor: concentraciones de rojos identifican zonas premium; concentraciones azules indican zonas económicas. La dispersión de colores sugiere heterogeneidad y posible gentrificación. Este mapa es herramienta estratégica para identificar zonas de expansión, comparar ubicaciones alternativas, y entender competencia espacial.
## # A tibble: 4 × 5
## estrato n precio_medio area_media precio_m2
## <dbl> <int> <dbl> <dbl> <dbl>
## 1 3 434 219. 144. 1.52
## 2 4 1213 279. 131. 2.13
## 3 5 1859 399. 164. 2.43
## 4 6 1302 786. 241. 3.26
Interpretación: El precio por metro cuadrado (precio/m²) es posiblemente la métrica más importante en bienes raíces porque normaliza el precio por tamaño, permitiendo comparaciones justas entre inmuebles de diferentes dimensiones. Esta métrica revela el “valor intrínseco de ubicación y calidad” más allá del espacio físico. La tabla y gráfico muestran cómo precio/m² progresa a través de estratos socioeconómicos (escala 1 a 6, donde 6 es más alto). Típicamente observamos progresión ascendente: cada estrato superior tiene mayor precio/m², reflejando mejor ubicación, infraestructura superior, servicios de calidad, y vecindarios prestigiosos. La magnitud del aumento es reveladora: si precio/m² en estrato 6 es 2.1 veces el del estrato más bajo, esto cuantifica exactamente el “premium de estrato” y muestra cuánto más están dispuestos a pagar compradores por ubicarse en zonas de mayor categoría. Ratio alto (>3x) indica mercado muy segmentado con brechas grandes; ratio bajo (<2x) sugiere mercado homogéneo. La tabla complementaria muestra número de propiedades por estrato (n), revelando dónde se concentra el mercado. Esta información es fundamental para: (1) Valuación - usar precio/m² del estrato como benchmark, (2) Desarrollo - decidir qué estrato targetear, (3) Pricing - ajustar precio según estrato, (4) Inversión - identificar estratos con mejor relación valor/precio.
El análisis del mercado inmobiliario mediante técnicas multivariadas revela una estructura clara con 4 hallazgos principales:
1. Reducción dimensional efectiva (PCA): Las 5 variables originales se reducen a 2 componentes que explican 70-85% de la variación. PC1 representa tamaño/lujo; PC2 características específicas.
2. Segmentación natural (Clustering): Se identificaron 4 clusters con Silhouette=0.438: económico/compacto, clase media (2 niveles), y premium/lujo.
3. Asociaciones geográficas (Correspondencia): Tipo de vivienda está significativamente asociado con zona (p<0.001). Cada barrio tiene perfil característico de desarrollo.
4. Factores de valor: Precio correlaciona fuertemente con área (r=0.7). Precio/m² varía 2.1x entre estratos.
Inversión: Diversificar entre los 4 clusters. Priorizar propiedades bajo línea precio-área (subvaluadas). Usar precio/m² por estrato como benchmark.
Desarrollo: Seguir o diversificar perfil tipológico de zona según oportunidad. Usar métricas de estrato para sizing. Pricing basado en precio/m² ajustado.
Marketing: Mensajes por cluster (económico=accesibilidad; premium=exclusividad). Campañas localizadas por zona/barrio. Canales por segmento.
Gestión: Monitorear distribución por cluster. Actualizar análisis trimestralmente. Alertas cuando propiedades salen de rangos esperados.