Introducción

Este informe presenta un análisis multidimensional del mercado inmobiliario en la ciudad, utilizando técnicas estadísticas avanzadas para identificar patrones y tendencias clave. Se emplean Análisis de Componentes Principales (PCA), Clustering y Análisis de Correspondencia para obtener información relevante que optimice la toma de decisiones estratégicas.

Carga de Datos

## package 'factoextra' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\lcmar\AppData\Local\Temp\Rtmp4CK1oc\downloaded_packages
Primeras 10 filas del DataFrame ‘vivienda’
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971
2326 Zona Norte 01 4 220 52 2 2 3 Apartamento acopi -76.51974 3.42627
4386 Zona Norte 01 5 310 137 2 3 4 Apartamento acopi -76.53105 3.38296
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721

Explorar la estructura de los datos

Revisar el número de filas, columnas y tipos de variables.

Dimensiones del DataFrame: Filas y Columnas
Descripción Valor
Número de filas 8322
Número de columnas 13
Tipos de Datos de las Variables
Variable Tipo_de_dato
id id numeric
zona zona character
piso piso character
estrato estrato numeric
preciom preciom numeric
areaconst areaconst numeric
parqueaderos parqueaderos numeric
banios banios numeric
habitaciones habitaciones numeric
tipo tipo character
barrio barrio character
longitud longitud numeric
latitud latitud numeric

El dataset contiene tanto variables numéricas (precio, área, número de habitaciones, número de baños, parqueaderos) que son fundamentales para los análisis cuantitativos, como variables categóricas (como tipo de propiedad, piso, zona, barrio) que proporcionan un contexto geográfico y social relevante para segmentar el mercado.

Estadísticas Descriptivas de la Vivienda
vars n mean sd median trimmed mad min max range skew kurtosis se
id 1 8319 4160.000000 2401.6327779 4160.000 4160.000000 3083.8080000 1.00000 8319.0000 8318.00000 0.0000000 -1.2004328 26.3312235
zona* 2 8319 3.917779 1.3277406 5.000 4.040709 0.0000000 1.00000 5.0000 4.00000 -0.5935879 -1.3642062 0.0145572
piso* 3 5684 3.770936 2.6148024 3.000 3.371152 1.4826000 1.00000 12.0000 11.00000 1.2795930 1.0542476 0.0346826
estrato 4 8319 4.633610 1.0292221 5.000 4.666967 1.4826000 3.00000 6.0000 3.00000 -0.1843226 -1.1074181 0.0112843
preciom 5 8320 433.891947 328.6472443 330.000 374.431941 207.5640000 58.00000 1999.0000 1941.00000 1.8492556 3.6722960 3.6030338
areaconst 6 8319 174.934938 142.9641260 123.000 149.152171 84.5082000 30.00000 1745.0000 1715.00000 2.6933603 12.9138205 1.5674421
parqueaderos 7 6717 1.835194 1.1249088 2.000 1.615256 1.4826000 1.00000 10.0000 9.00000 2.3267096 8.3114962 0.0137255
banios 8 8319 3.111311 1.4282102 3.000 2.985579 1.4826000 0.00000 10.0000 10.00000 0.9252097 1.1271098 0.0156587
habitaciones 9 8319 3.605361 1.4595368 3.000 3.410245 1.4826000 0.00000 10.0000 10.00000 1.6348042 3.9840352 0.0160022
tipo* 10 8319 1.386945 0.4870803 1.000 1.358720 0.0000000 1.00000 2.0000 1.00000 0.4641570 -1.7847728 0.0053403
barrio* 11 8319 241.482149 128.8347807 251.000 245.338741 171.9816000 1.00000 436.0000 435.00000 -0.0858721 -1.2312567 1.4125296
longitud 12 8319 -76.528606 0.0173983 -76.530 -76.529859 0.0164865 -76.58915 -76.4630 0.12615 0.6469278 0.5832445 0.0001908
latitud 13 8319 3.417644 0.0426385 3.416 3.417347 0.0529881 3.33300 3.4977 0.16470 0.0296959 -1.1499660 0.0004675

Limpieza y Preprocesamiento

Como paso inicial convertir las variables categóricas en factores es esencial para asegurarnos de que el modelo y los análisis que realicemos interpreten correctamente los datos.

Identificar valores faltantes y valores atípicos.

La imputación de valores faltantes es un proceso importante dentro de la limpieza y preprocesamiento de los datos, especialmente cuando los conjuntos de datos contienen valores nulos o faltantes (NA). La imputación tiene como objetivo reemplazar los valores faltantes con estimaciones razonables, para que el análisis no se vea afectado por la falta de datos, mejorando la calidad del modelo.

Identificamos los valores faltantes por cada atributo:

Valores Faltantes por Variable
x
id 3
zona 3
piso 2638
estrato 3
preciom 2
areaconst 3
parqueaderos 1605
banios 3
habitaciones 3
tipo 3
barrio 3
longitud 3
latitud 3

Analizamos por cada a tributo los valores faltantes a que porcentaje corresponden:

Porcentaje de Valores Faltantes por Variable
x
id 0.0360490
zona 0.0360490
piso 31.6991108
estrato 0.0360490
preciom 0.0240327
areaconst 0.0360490
parqueaderos 19.2862293
banios 0.0360490
habitaciones 0.0360490
tipo 0.0360490
barrio 0.0360490
longitud 0.0360490
latitud 0.0360490

Las filas con valores faltantes en id son las mismas que presentan faltantes en otras variables como zona, piso, estrato, preciom, entre otras. Esto significa que estas observaciones están incompletas en la mayoria de atributos, por lo cual la estrategia a aplicar es la eliminación, lo cual no afectará el respectivo análisis.

Al eliminarlas los valores faltantes por cada atributo nos quedan así:

Valores Faltantes por Variable
x
id 0
zona 0
piso 2635
estrato 0
preciom 0
areaconst 0
parqueaderos 1602
banios 0
habitaciones 0
tipo 0
barrio 0
longitud 0
latitud 0

Con respecto al atributo piso es la que cuenta con más valores faltantes (2638), lo cual corresponde al 31,7% de los datos de dicho atributo, el cual se refiera a la ubicación del piso de un inmueble, para el caso de TIPO = APARTAMENTO o la cantidad de pisos, para el caso de TIPO = CASA, la estrategia adecuada sería imputar los valores faltantes con la moda de acuerdo al tipo de vivienda.

Imputar con la moda según el tipo de vivienda asegura que los valores imputados sean más representativos para cada tipo de inmueble, lo que favorece la coherencia de los datos, La moda es una estrategia útil y robusta cuando se tiene un alto porcentaje de valores faltantes.

Moda de ‘Piso’ por Tipo de Vivienda
tipo moda_piso
Apartamento 03
Casa 02

Imputamos el valor de la moda en el atributo piso, teniendo como referencia el tipo de vivienda y observamos como quedan las primeras filas de nuestro dataset.

Primeras 5 Filas del DataFrame Después de la Imputación
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente 02 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente 02 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente 02 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891

Para el atributo parqueaderos cuenta con 1605 valores faltantes 19,3% de los datos, al realizar exploración del dataset se evidencia que no hay viviendas con 0 parqueaderos, por lo cual los datos faltantes a podrían referirse a propiedades sin parqueadero.

Para verificar realizamos un comparativo del promedio de preciom de viviendas con datos faltantes en parquedero, lo cual permitirá identificar si corresponden a viviendas de menor valor lo cual justificaría que se hace referencia a viviendas sin parqueadero

Análisis Comparativo del Precio Promedio de Viviendas con Datos Faltantes en la Variable “Parqueaderos”

## [1] 0

Al realizar un análisis comparativo entre el precio promedio por metro cuadrado (preciom) de las viviendas en general y el de aquellas viviendas con datos faltantes en la variable parqueaderos, se observa una diferencia significativa en los valores.

El precio promedio general de las viviendas es de 433.89, mientras que el promedio de las viviendas con datos faltantes en parqueaderos es de 287.25. Esta diferencia sugiere que las viviendas con información incompleta en la variable parqueaderos tienen un precio significativamente inferior al promedio general.

Este hallazgo favorece la idea de que las viviendas con datos faltantes en parqueaderos podrían ser propiedades sin parqueadero, lo que explicaría su menor valor en comparación con el resto del conjunto de datos, lo que justifica una posible imputación de los valores faltantes con un valor de “0” para indicar la ausencia de parqueadero.

Luego de la imputación Verificamos que el atributo parqueadero no cuente con valores faltantes.

## [1] 0

Tratamiento de datos atipicos.

El tratamiento de datos atípicos, es fundamental en el análisis porque estos valores pueden distorsionar los resultados y generar conclusiones erróneas.

Eliminar o corregir estos datos puede mejorar la precisión de los modelos, garantizar que los resultados sean representativos y asegurar que los análisis sean válidos.

Se usan los rangos intercuartílicos (IQR) para identificar los outliers. Los valores fuera de este rango se consideran atípicos:

Los valores atípicos se reemplazan con los límites inferior o superior aceptables.

Variable: areaconst (Área construida), Presenta varios valores atípicos grandes, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con casas grandes.

## Límite superior (Upper Bound): 452.5

Para determinar los límites de los valores atípicos, usamos la siguiente estrategia:

  • Límite Inferior (Lower Bound): \[Lower\_Bound = Q1 - 1.5 \times IQR\]
  • Límite Superior (Upper Bound): \[Upper\_Bound = Q3 + 1.5 \times IQR\]

Variable: parqueaderos tiene valores atípicos, posiblemente en propiedades de lujo, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Variables: banios y habitaciones poseen valores atípicos los cuales podrían corresponder con viviendas grandes o comerciales. Se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Análisis de Componentes Principales (PCA)

El precio es la variable dependiente (lo que queremos explicar). PCA es un método de reducción de dimensionalidad.

Primera Dimensión (PC1):

Explica 57.2% de la varianza en los datos. Es el componente principal más relevante, lo que significa que captura la mayoría de la información.

Segunda Dimensión (PC2):

Explica 23.6% de la varianza adicional. Combinada con PC1, estas dos dimensiones explican 80.8% de la varianza total.

Por lo cual 2 componentes reduce la dimensionalidad manteniendo un nivel alto de información.

Correlación entre Variables Originales

Área construida, habitaciones, y baños tienen una correlación positiva fuerte entre sí. Esto indica que estas características suelen aumentar juntas. El tamaño (representado por área construida, habitaciones, y baños) es un factor clave en la agrupación de propiedades.

PC1: representa una dimensión de tamaño/espacio de las propiedades. Las viviendas más grandes con más habitaciones y baños tienen una mayor influencia en el precio.

Las variables de estrato y parqueaderos añaden dimensiones únicas, posiblemente relacionadas con la calidad o nivel socioeconómico. Este componente podría capturar la calidad y el nivel socioeconómico de la propiedad

PC2: describe una dimensión de calidad, diferenciando propiedades según su exclusividad o nivel de acceso socioeconómico.

Gráfico de Variables - PCA (Plano Factorial)

Contribuciones de las variables:

PC1 (57.2% de la varianza): Está altamente influenciada por área construida, baños, y habitaciones, lo que indica que este componente representa una dimensión de tamaño y funcionalidad de la vivienda. PC2 (23.6% de la varianza): Está influenciada principalmente por estrato y parqueaderos, lo que sugiere que este componente captura una dimensión de calidad socioeconómica o exclusividad.

Gráfico de Individuos - PCA

Los puntos representan propiedades, y están dispersos a lo largo de las dimensiones PC1 y PC2.

Las propiedades con valores extremos en PC1 son más grandes o más pequeñas en términos de tamaño. Las propiedades con valores extremos en PC2 están en zonas más exclusivas o tienen más parqueaderos.

Implicaciones para el Problema Segmentación del Mercado:

Las dos dimensiones principales identificadas (PC1 y PC2) permiten segmentar el mercado en propiedades basadas en: Tamaño y funcionalidad: Propiedades grandes con más baños y habitaciones. Exclusividad: Propiedades con alto estrato y más parqueaderos.

Decisiones Estratégicas:

Precios: Ajustar estrategias de precios basándose en el tamaño y la exclusividad. Oferta: Priorizar propiedades en segmentos que maximizan la rentabilidad en las dimensiones clave.

ANÁLISIS DE CONGLOMERADOS

El objetivo del análisis de conglomerados es identificar segmentos homogéneos de propiedades residenciales con características similares. Esto nos permitirá analizar las dinámicas específicas del mercado inmobiliario.

Basado en el gráfico, 3 o 4 clusters son una buena elección para segmentar las propiedades.

Usaremos K-Means con 3 clusters para agrupar las propiedades y visualizar los resultados.

## 
##    1    2    3 
## 2795 3650 1874

Análisis de las características promedio de cada cluster

Resumen de Características Promedio por Cluster
cluster promedio_area promedio_parqueaderos promedio_banios promedio_habitaciones promedio_estrato
1 154.91524 1.8758497 3.357066 3.229875 5.430054
2 93.06838 0.7005479 2.034794 2.962329 3.918356
3 330.02194 2.0541622 4.785486 4.801494 4.838847

El gráfico muestra cómo se agrupan las propiedades residenciales en el espacio definido por las dos primeras componentes principales (Dim1 y Dim2) después de aplicar K-Means con 3 clusters

Cluster 1: Este cluster incluye viviendas grandes y funcionales con más área construida, habitaciones, baños y parqueaderos, de alto estrato.

Cluster 2: Este cluster incluye viviendas con una menor área construida,estrato medio, Pocos parqueaderos, probablemente apartamentos en zonas urbanas densas. Enfocadas en compradores de ingresos medios.

Cluster 3: Viviendas de gama media-alta, bien ubicadas y con características como: Área construida media, Más baños y habitaciones que el Cluster 2, Estrato alto, Buen número de parqueaderos (1.88 en promedio), lo que indica una orientación a compradores de mayor nivel socioeconómico.

Conclusiones

Segmentación del Mercado:

El análisis identifica 3 segmentos principales de propiedades:

Propiedades funcionales, grandes y exclusivas (Cluster 1). Propiedades económicas y básicas (Cluster 2). Propiedades funcionales y exclusivas (Cluster 3).

Decisiones Estratégicas:

Cluster 1: Enfocar estrategias en familias que buscan espacio. Segmento de viviendas de lujo, probablemente ubicadas en sectores de estrato alto. Atrae a compradores con mayor poder adquisitivo, familias grandes o personas que buscan exclusividad.

Cluster 2: Orientar estrategias hacia compradoresde ingresos medios-bajos.Viviendas Probablemente ubicadas en zonas densamente pobladas con menor disponibilidad de parqueaderos. Ideal para jóvenes profesionales o familias pequeñas.

Cluster 3: Propiedades de gama media-alta, atractivas para familias con ingresos altos pero que buscan una opción más accesible que las del Cluster 1. Ubicadas en sectores exclusivos pero con menor area que las propiedades de lujo. Equilibrio entre costo y exclusividad.

Relación entre Clusters y Variables:

Dim1 y Dim2 explican el 78.2% de la varianza total, lo que indica que esta segmentación captura la mayoría de las dinámicas del mercado.

ANALISIS DE CORRESPONDENCIA

El Análisis de Correspondencia (AC) nos permite identificar patrones en datos categóricos y visualizar cómo se relacionan entre sí. En este caso, examinaremos la relación entre:

tipo de vivienda. zona. barrio

## [1] 2 5
## Apartamento        Casa 
##  -0.2289585   0.3627488
##                     [,1]
## Zona Centro   0.86131854
## Zona Norte   -0.02238755
## Zona Oeste   -0.50482822
## Zona Oriente  0.89603812
## Zona Sur      0.04791693

Relación entre Apartamento y las zonas:

Zona Sur es la más activa en términos de frecuencia total, con una gran cantidad de apartamentos y casas. Zona Norte también tiene una alta frecuencia, pero los apartamentos dominan en comparación con las casas. Zona Oeste tiene frecuencias más bajas, con un mayor balance entre apartamentos y casas. Zona Oriente tiene una menor actividad general, pero las casas tienen una frecuencia ligeramente mayor. Zona Centro tiene la actividad más baja en general.

Zona Sur tiene una fuerte presencia de apartamentos, mientras que la proporción de casas es menor. Zona Norte y Zona Oeste tienen proporciones más equilibradas de apartamentos y casas. Zona Oriente tiene una mayor proporción relativa de casas, aunque su magnitud es menor en comparación con otras zonas. Zona Centro tiene poca representación general en ambas categorías.

La relación entre Apartamento y Casa parece estar bien diferenciada, con un valor cercano a 1, lo que indica que estas categorías tienen patrones muy distintos en términos de distribución en las zonas.

Esto puede reflejar que los apartamentos y casas tienden a estar asociados con zonas específicas y no se mezclan uniformemente en todas las zonas.

El análisis de correspondencia revela patrones claros entre los tipos de vivienda y su distribución geográfica en las zonas. Esto permite segmentar el mercado para estrategias más precisas:

Zona Sur y Zona Norte:

Dominio de Apartamentos: Alta frecuencia de apartamentos en estas zonas sugiere una fuerte preferencia del mercado por propiedades de alta densidad en áreas urbanas.

Estrategia Recomendada: Invertir en el desarrollo y promoción de proyectos de apartamentos modernos y funcionales, dirigidos a familias pequeñas y jóvenes profesionales. Enfocar campañas de marketing resaltando beneficios como la proximidad a servicios urbanos y accesibilidad.

Zona Oriente y Zona Oeste:

Dominio de Casas: Mayor frecuencia relativa de casas en estas zonas indica una preferencia por viviendas más espaciosas y familiares.

Estrategia Recomendada: Priorizar proyectos de casas en zonas residenciales, dirigidos a familias que buscan tranquilidad y mayor espacio. Ofrecer opciones con características adicionales como patios, jardines y parqueaderos múltiples.

Zona Centro:

Baja Representación: La baja frecuencia en ambas categorías sugiere una oportunidad para proyectos mixtos de apartamentos y casas.

Estrategia Recomendada: Desarrollar proyectos pequeños enfocados en apartamentos.

Recomendaciones Estratégicas

Segmentación por Tipo de Vivienda:

Apartamentos: Enfocar las estrategias de marketing hacia la zona Sur, ya que concentra la mayor cantidad de apartamentos. Resaltar características como seguridad y accesibilidad para atraer a familias jóvenes o profesionales. Casas: Priorizar estrategias en la zona Norte y zonas periféricas para promocionar casas dirigidas a familias grandes o personas que buscan más espacio.

Utilizar los clusters identificados para establecer políticas de precios diferenciados:

Cluster 1: Enfocar estrategias gama alta para propiedades de mayor tamaño y valor. Cluster 2: Dirigir campañas económicas para propiedades pequeñas y accesibles, ideales para jóvenes o personas solteras. Cluster 3: Promover viviendas medianas con una relación calidad-precio equilibrada, ideales para familias de tamaño promedio.

Desarrollo de Proyectos en Zonas Estratégicas:

Zonas con alta demanda: Continuar desarrollando propiedades en la zona Sur, optimizando la oferta en función del estrato predominante y los tamaños requeridos. Zonas con menor oferta: Incentivar desarrollos en zonas como la zona Oriente, donde hay menos concentración de propiedades, para diversificar la oferta.

Campañas de Marketing Personalizadas

Basar las campañas en las preferencias de cada cluster y zona.