Introducción

Este informe presenta un análisis multidimensional del mercado inmobiliario en la ciudad, utilizando técnicas estadísticas avanzadas para identificar patrones y tendencias clave. Se emplean Análisis de Componentes Principales (PCA), Clustering y Análisis de Correspondencia para obtener información relevante que optimice la toma de decisiones estratégicas.

Carga de Datos

## package 'factoextra' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\lcmar\AppData\Local\Temp\RtmpwtCOoL\downloaded_packages
Primeras 10 filas del DataFrame ‘vivienda’
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971
2326 Zona Norte 01 4 220 52 2 2 3 Apartamento acopi -76.51974 3.42627
4386 Zona Norte 01 5 310 137 2 3 4 Apartamento acopi -76.53105 3.38296
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721

Explorar la estructura de los datos

Revisar el número de filas, columnas y tipos de variables.

Dimensiones del DataFrame: Filas y Columnas
Descripción Valor
Número de filas 8322
Número de columnas 13
Tipos de Datos de las Variables
Tipo_de_dato
id numeric
zona character
piso character
estrato numeric
preciom numeric
areaconst numeric
parqueaderos numeric
banios numeric
habitaciones numeric
tipo character
barrio character
longitud numeric
latitud numeric

El dataset contiene tanto variables numéricas (precio, área, número de habitaciones, número de baños, parqueaderos) que son fundamentales para los análisis cuantitativos, como variables categóricas (tipo de propiedad, estrato, piso, zona, barrio) que proporcionan un contexto geográfico y social relevante para segmentar el mercado.

Estadísticas Descriptivas de Variables Categóricas
Variable Categoria Frecuencia Proporcion
Apartamento tipo Apartamento 5100 0.6130545
Casa tipo Casa 3219 0.3869455
3 estrato 3 1453 0.1746604
4 estrato 4 2129 0.2559202
5 estrato 5 2750 0.3305686
6 estrato 6 1987 0.2388508
01 piso 01 860 0.1513019
02 piso 02 1450 0.2551020
03 piso 03 1097 0.1929979
04 piso 04 607 0.1067910
05 piso 05 567 0.0997537
06 piso 06 245 0.0431034
07 piso 07 204 0.0358902
08 piso 08 211 0.0371217
09 piso 09 146 0.0256861
10 piso 10 130 0.0228712
11 piso 11 84 0.0147783
12 piso 12 83 0.0146024
Zona Centro zona Zona Centro 124 0.0149056
Zona Norte zona Zona Norte 1920 0.2307970
Zona Oeste zona Zona Oeste 1198 0.1440077
Zona Oriente zona Zona Oriente 351 0.0421926
Zona Sur zona Zona Sur 4726 0.5680971

Limpieza y Preprocesamiento

Como paso inicial convertir las variables categóricas en factores es esencial para asegurarnos de que el modelo y los análisis que realicemos interpreten correctamente los datos.

Identificar valores faltantes y valores atípicos.

La imputación de valores faltantes es un proceso importante dentro de la limpieza y preprocesamiento de los datos, especialmente cuando los conjuntos de datos contienen valores nulos o faltantes (NA). La imputación tiene como objetivo reemplazar los valores faltantes con estimaciones razonables, para que el análisis no se vea afectado por la falta de datos, mejorando la calidad del modelo.

Identificamos los valores faltantes por cada atributo:

Valores Faltantes por Variable
x
id 3
zona 3
piso 2638
estrato 3
preciom 2
areaconst 3
parqueaderos 1605
banios 3
habitaciones 3
tipo 3
barrio 3
longitud 3
latitud 3

Analizamos por cada a tributo los valores faltantes a que porcentaje corresponden:

Porcentaje de Valores Faltantes por Variable
x
id 0.0360490
zona 0.0360490
piso 31.6991108
estrato 0.0360490
preciom 0.0240327
areaconst 0.0360490
parqueaderos 19.2862293
banios 0.0360490
habitaciones 0.0360490
tipo 0.0360490
barrio 0.0360490
longitud 0.0360490
latitud 0.0360490

Las filas con valores faltantes en id son las mismas que presentan faltantes en otras variables como zona, piso, estrato, preciom, entre otras. Esto significa que estas observaciones están incompletas en la mayoria de atributos, por lo cual la estrategia a aplicar es la eliminación, lo cual no afectará el respectivo análisis.

Al eliminarlas los valores faltantes por cada atributo nos quedan así:

Valores Faltantes por Variable
x
id 0
zona 0
piso 2635
estrato 0
preciom 0
areaconst 0
parqueaderos 1602
banios 0
habitaciones 0
tipo 0
barrio 0
longitud 0
latitud 0

Con respecto al atributo piso es la que cuenta con más valores faltantes (2638), lo cual corresponde al 31,7% de los datos de dicho atributo, el cual se refiera a la ubicación del piso de un inmueble, para el caso de TIPO = APARTAMENTO o la cantidad de pisos, para el caso de TIPO = CASA, la estrategia establecida es imputar los valores faltantes con la moda de acuerdo al tipo de vivienda.

Imputar con la moda según el tipo de vivienda asegura que los valores imputados sean más representativos para cada tipo de inmueble, lo que favorece la coherencia de los datos, La moda es una estrategia útil y robusta cuando se tiene un alto porcentaje de valores faltantes.

Moda de ‘Piso’ por Tipo de Vivienda
tipo moda_piso
Apartamento 03
Casa 02

Imputamos el valor de la moda en el atributo piso, teniendo como referencia el tipo de vivienda y observamos como quedan las primeras filas de nuestro dataset.

Primeras 5 Filas del DataFrame Después de la Imputación
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente 2 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente 2 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente 2 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 2 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 1 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891

Para el atributo parqueaderos cuenta con 1605 valores faltantes 19,3% de los datos, al realizar exploración del dataset se evidencia que no hay viviendas con 0 parqueaderos, por lo cual los datos faltantes a podrían referirse a propiedades sin parqueadero.

Para verificar realizamos un comparativo del promedio de preciom de viviendas con datos faltantes en parquedero, lo cual permitirá identificar si corresponden a viviendas de menor valor lo cual justificaría que se hace referencia a viviendas sin parqueadero

Análisis Comparativo del Precio Promedio de Viviendas con Datos Faltantes en la Variable “Parqueaderos”

## [1] 0

Al realizar un análisis comparativo entre el precio promedio por metro cuadrado (preciom) de las viviendas en general y el de aquellas viviendas con datos faltantes en la variable parqueaderos, se observa una diferencia significativa en los valores.

El precio promedio general de las viviendas es de 433.89, mientras que el promedio de las viviendas con datos faltantes en parqueaderos es de 287.25. Esta diferencia sugiere que las viviendas con información incompleta en la variable parqueaderos tienen un precio significativamente inferior al promedio general.

Este hallazgo favorece la idea de que las viviendas con datos faltantes en parqueaderos podrían ser propiedades sin parqueadero, lo que explicaría su menor valor en comparación con el resto del conjunto de datos, lo que justifica una posible imputación de los valores faltantes con un valor de “0” para indicar la ausencia de parqueadero.

Luego de la imputación Verificamos que el atributo parqueadero no cuente con valores faltantes.

## [1] 0

Tratamiento de datos atipicos.

El tratamiento de datos atípicos, es fundamental en el análisis porque estos valores pueden distorsionar los resultados y generar conclusiones erróneas.

Eliminar o corregir estos datos puede mejorar la precisión de los modelos, garantizar que los resultados sean representativos y asegurar que los análisis sean válidos.

Se usan los rangos intercuartílicos (IQR) para identificar los outliers. Los valores fuera de este rango se consideran atípicos:

Los valores atípicos se reemplazan con los límites inferior o superior aceptables.

Variable: areaconst (Área construida), Presenta varios valores atípicos grandes, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con casas grandes.

## Límite superior (Upper Bound): 452.5

Para determinar los límites de los valores atípicos, usamos la siguiente estrategia:

  • Límite Inferior (Lower Bound): \[Lower\_Bound = Q1 - 1.5 \times IQR\]
  • Límite Superior (Upper Bound): \[Upper\_Bound = Q3 + 1.5 \times IQR\]

Variable: parqueaderos tiene valores atípicos, posiblemente en propiedades de lujo, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Variables: banios y habitaciones poseen valores atípicos los cuales podrían corresponder con viviendas grandes o comerciales. Se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Análisis de Componentes Principales (PCA)

PCA es un método de reducción de dimensionalidad.

Primera Dimensión (PC1):

Explica 66.2% de la varianza en los datos. Es el componente principal más relevante, lo que significa que captura la mayoría de la información.

Segunda Dimensión (PC2):

Explica 17.1% de la varianza adicional. Combinada con PC1, estas dos dimensiones explican 83.3% de la varianza total.

La alta varianza explicada en el primer componente sugiere que hay una fuerte relación lineal entre las variables, por lo cual probablemente algunas de ellas pueden ser predichas a partir de las demás.

La curva en la gráfica de varianza explicada acumulada muestra que los primeros dos componentes son suficientes para capturar la mayor parte de la información, por lo que no sería necesario considerar los siguientes componentes.

Correlación entre Variables Originales

Área construida, habitaciones y precio tienen una correlación positiva fuerte entre sí. Esto indica que estas características suelen aumentar juntas. El tamaño y precio (representado por área construida, habitaciones, baños y precio) es un factor clave en la agrupación de propiedades.

PC1: representa una dimensión de tamaño - precio de las propiedades. Las viviendas más grandes con más habitaciones y baños tienen un mayor precio.

La variable de parqueaderos aunque influye en el precio, tiene un comportamiento un poco diferente al de las demás variables, posiblemente relacionadas con la calidad o nivel socioeconómico. Este componente podría capturar la calidad y el nivel socioeconómico de la propiedad.

PC2: describe una dimensión de exclusividad, diferenciando propiedades según nivel de acceso socioeconómico.

Gráfico de Variables - PCA (Plano Factorial)

Contribuciones de las variables:

PC1 (66.2% de la varianza): Está altamente influenciada por área construida, habitaciones y precio, lo que indica que este componente representa una dimensión de tamaño y precio. PC2 (17.1% de la varianza): Está influenciada principalmente por parqueaderos, lo que sugiere que este componente captura una dimensión de calidad socioeconómica, exclusividad o disposición de parqueaderos.

Gráfico de Individuos - PCA

Los puntos representan propiedades, y están dispersos a lo largo de las dimensiones PC1 y PC2.

Las propiedades con valores extremos en PC1 son más grandes o más pequeñas en términos de tamaño. Las propiedades con valores extremos en PC2 tienen más parqueaderos.

Implicaciones para el Problema Segmentación del Mercado:

Las dos dimensiones principales identificadas (PC1 y PC2) permiten segmentar el mercado en propiedades basadas en: Tamaño - precio: Propiedades grandes con más baños y habitaciones. Disposicion de parqueaderos: Propiedades con más parqueaderos.

Perfil de los clientes y estrategias de mercado:

Alto en Dim1 (propiedades grandes y costosas)

Cliente objetivo: Compradores de alto poder adquisitivo, interesados en propiedades espaciosas, con más habitaciones y baños.

Estrategia: Ofrecer financiamiento especial, destacar exclusividad y calidad, ubicación en zonas de lujo.

Bajo en Dim1 (propiedades pequeñas y económicas)

Cliente objetivo: Compradores iniciales, inversionistas de rentas, personas con menor presupuesto. Estrategia: Enfocar publicidad en accesibilidad financiera, cercanía a servicios esenciales y oportunidad de inversión.

Alto en Dim2 (propiedades con más parqueaderos)

Cliente objetivo: Familias con múltiples vehículos, compradores en zonas suburbanas o que priorizan estacionamiento.

Estrategia: Enfocar esfuerzos de venta en clientes con necesidades de movilidad, ofrecer incentivos como parqueaderos adicionales o paquetes de compra de parqueadero y/o bodega.

Bajo en Dim2 (propiedades con pocos o ningún parqueadero)

Cliente objetivo: Personas que dependen del transporte público, jóvenes profesionales, personas que buscan vivienda en zonas céntricas.

Estrategia: Resaltar ventajas como proximidad a estaciones de transporte, enfoque en vida urbana, flexibilidad de espacios.

ANÁLISIS DE CONGLOMERADOS

El objetivo del análisis de conglomerados es identificar segmentos homogéneos de propiedades residenciales con características similares. Esto nos permitirá analizar las dinámicas específicas del mercado inmobiliario.

Basado en el gráfico, 3 o 4 clusters son una buena elección para segmentar las propiedades.

Usaremos K-Means con 4 clusters, ya que la disminución en la inercia se estabiliza y los cambios son más pequeños. para agrupar las propiedades y visualizar los resultados.

## 
##    1    2    3    4 
## 1227 1215 2109 3768

Análisis de las características promedio de cada cluster

Resumen de Características Promedio por Cluster
cluster promedio_area promedio_parqueaderos promedio_banios promedio_habitaciones promedio_preciom
1 341.4127 2.9225754 5.027710 4.233904 869.7033
2 269.0235 0.9045267 4.014815 4.945267 446.8716
3 153.3225 1.9760550 3.336652 3.286392 468.7349
4 85.4604 0.7423036 2.041932 2.840632 216.9331

El gráfico muestra cómo se agrupan las propiedades residenciales en el espacio definido por las dos primeras componentes principales (Dim1 y Dim2) después de aplicar K-Means con 4 clusters

Cluster 1 (Rojo) - Propiedades de Gran Tamaño y Alto Valor: propiedades grandes, costosas y con muchas comodidades, Aunque cuenta con parqueaderos, su principal característica es el tamaño y el valor. Probablemente ubicadas en zonas de alta concentración de viviendas, con menos espacio de estacionamiento. Representan un segmento de alto valor,Se encuentran en zonas exclusivas y están dirigidas a clientes de alto poder adquisitivo.

Cluster 2 (Verde) - Propiedades de tamaño significativo pero con Mas Parqueaderos: Propiedades espaciosas con mas parqueaderos, probablemente ubicadas en zonas no tan centricas. Representan un segmento de alto valor, pero más accesible en comparación con el Cluster 1.

Cluster 3 (Azul) - Propiedades de Tamaño Medio y Costo Moderado: propiedades más accesibles en costo y tamaño, dirigidas a familias de clase media-alta.Se encuentran en ubicaciones equilibradas entre espacio y costo, adecuadas para compradores con presupuestos intermedios.

Cluster 4 (Morado) - Propiedades Pequeñas y Económicas: Propiedades pequeñas, económicas y con pocos o ningún parqueadero. Orientadas a jóvenes profesionales, inversionistas o compradores de primera vivienda. Probablemente ubicadas en zonas de alta densidad urbana con acceso a transporte público.

Conclusiones

La segmentación basada en el PCA y Clustering permite una diferenciación clara del mercado inmobiliario.

Los cuatro segmentos identificados tienen perfiles de compradores específicos, lo que permite optimizar estrategias de marketing y precios.

El analisis posibilita personalizar la publicidad y oferta según las necesidades de cada segmento, enfocándose en factores como precio, espacio, ubicación y disponibilidad de parqueaderos.

Decisiones Estratégicas:

Cluster 1: Enfocar estrategias en familias que buscan espacio. Marketing de exclusividad, financiamiento, venta directa

Cluster 2: Orientar estrategias hacia compradoresde ingresos altos.Viviendas Probablemente ubicadas en zonas menos densamente pobladas con mayor disponibilidad de parqueaderos.

Cluster 3: Propiedades de gama media-alta, atractivas para familias con ingresos medios pero que buscan una opción más accesible. Publicidad en accesibilidad, calidad de viday financiamiento

Cluster 4: Propiedades pequeñas y económicas, pocos parqueaderos, enfoque en Marketing digital, financiamiento accesible, enfoque en movilidad.

ANALISIS DE CORRESPONDENCIA

El Análisis de Correspondencia (AC) nos permite identificar patrones en datos categóricos y visualizar cómo se relacionan entre sí. En este caso, examinaremos la relación entre:

tipo de vivienda. zona. barrio estrato

Excluiremos “barrio” del análisis de correspondencia ya que como resultado la tabla de contingencia tiene muchas celdas con cero (categorías poco representadas). Esto puede hacer que el Análisis de Correspondencia (CA) sea menos estable, por lo que centrarnos en Zona, Estrato y Tipo de Vivienda.Evitando la alta dispersión de categorías en la variable “barrio”.

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_zona_tipo
## X-squared = 690.93, df = 4, p-value < 2.2e-16
Relación Valor Chi-Square Grados de Libertad p-valor
X-squared Zona vs Tipo de Vivienda 690.93 4 0
Relación Valor Chi-Square Grados de Libertad p-valor
X-squared Estrato vs Zona 3830.44 12 0
Relación Valor Chi-Square Grados de Libertad p-valor
X-squared Estrato vs Tipo de Vivienda 224.33 3 0

Zona vs Tipo de Vivienda

El valor de chi-cuadrado es muy alto (690.93) y el p-valor es extremadamente pequeño (< 2.2e-16). Esto indica una relación significativa entre la zona y el tipo de vivienda. Es decir, las categorías de zona están fuertemente asociadas con el tipo de vivienda, lo que sugiere que la distribución de los tipos de vivienda varía significativamente según la zona.

Estrato vs Zona

El valor de chi-cuadrado es muy alto (3830.44) y el p-valor es igual a 0, lo que indica una relación altamente significativa entre el estrato y la zona. Esto sugiere que la zona está fuertemente relacionada con el estrato, es decir, las categorías de estrato varían significativamente según la zona.

Estrato vs Tipo de Vivienda

El valor de chi-cuadrado es de 224.33 y el p-valor es 0, lo que también indica una relación significativa entre el estrato y el tipo de vivienda. Esto sugiere que el tipo de vivienda varía significativamente según el estrato.

Las pruebas de chi-cuadrado han indicado que las variables Zona, Tipo de Vivienda y Estrato están fuertemente relacionadas. Estas relaciones significativas sugieren que sería útil aplicar un análisis de correspondencia múltiple (ACM) para explorar las asociaciones entre varias variables categóricas de manera más integral.

ANALISIS DE CORRESPONDENCIA MULTIPLE

La variable más representada en la Dimensión 1 es zona, seguida de estrato. Zona es la variable que más explica la variabilidad en los datos.

Estrato también es importante, lo que sugiere que el nivel socioeconómico tiene una relación fuerte con las zonas.

Tipo de Vivienda tiene menor representación, lo que indica que no está tan directamente relacionada con la variabilidad en las dos primeras dimensiones.

Los Apartamentos están más cercanos a los estratos 4 y 5, lo que indica que son más comunes en esos niveles.

Las Casas están en una posición más dispersa, lo que sugiere que pueden estar distribuidas en diferentes estratos y zonas.

A la derecha del grafico MCA Factor tenemos Zona Oriente, Zona Centro, Estrato 3, Casa: significa que en esas zonas hay más casas en proporción dentro del conjunto de datos, hay barrios tradicionales con más casas, en comparación con otras zonas y corresponde con estratos socieconomicos medios.

A la izquierda Arriba se encuentra Zona Oeste y estrato 6, Representa zonas de alto nivel socioeconómico, viviendas de lujo, torres residenciales exclusivas.

Ala Izquierda abajo se encuentra Zona Sur, estrato 4 y 5: por su cercania con apartamento y casas, podria representar un desarrollo mixto, un poco más sesgado hacia el tipo de vivienda apartamento, la Zona Sur tiene un desarrollo inmobiliario donde hay predominio de estratos 4 y 5.

Aunque Oriente y Centro pueden ser zonas urbanizadas, en este conjunto de datos, hay una mayor proporción de casas en esas zonas. Esto puede indicar que en Oriente y Centro hay barrios tradicionales con más casas.

Dim1 (21.08%) Las principales variables contribuyentes son: Estrato 3, Zona Oriente, Zona Oeste, Casa, por lo cual esta dimensión puede estar representando Diferencia en el tipo de vivienda y estructura urbana. Representa una distinción entre áreas con mayor proporción de casas (Zona Oriente) vs. otras zonas con una distribución más variada.

Dim2 (16.99%) Las Principales Variables Contribuyentes son: Zona Oeste, Estrato 6, Estrato 4, Zona Sur, por lo cual esta dimensión puede estar representando diferencia en el tipo de urbanización dentro de los estratos altos. Separa zonas residenciales consolidadas (Oeste, Estrato 6) de zonas en crecimiento con estratos altos (Sur, Estrato 4 y 5).

Recomendaciones Estratégicas

Zona Norte y Centro tienen mayor proporción de casas, lo que sugiere que la demanda en estas zonas puede estar más inclinada hacia viviendas familiares.

Zona Oeste muestra una alta asociación con apartamentos de estratos altos, indicando una demanda por edificios de lujo y exclusivos.

Zona Sur está vinculada a estratos 4 y 5 con un desarrollo mixto (casas y apartamentos), lo que sugiere oportunidades en proyectos de vivienda de interés medio-alto.