Introducción

Este informe presenta un análisis multidimensional del mercado inmobiliario en la ciudad, utilizando técnicas estadísticas avanzadas para identificar patrones y tendencias clave. Se emplean Análisis de Componentes Principales (PCA), Clustering y Análisis de Correspondencia para obtener información relevante que optimice la toma de decisiones estratégicas.

Carga de Datos

## package 'factoextra' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\lcmar\AppData\Local\Temp\RtmpwtCOoL\downloaded_packages

Primeras 10 filas del DataFrame ‘vivienda’
id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud
1147	Zona Oriente	NA	3	250	70	1	3	6	Casa	20 de julio	-76.51168	3.43382
1169	Zona Oriente	NA	3	320	120	1	2	3	Casa	20 de julio	-76.51237	3.43369
1350	Zona Oriente	NA	3	350	220	2	2	4	Casa	20 de julio	-76.51537	3.43566
5992	Zona Sur	02	4	400	280	3	5	3	Casa	3 de julio	-76.54000	3.43500
1212	Zona Norte	01	5	260	90	1	2	3	Apartamento	acopi	-76.51350	3.45891
1724	Zona Norte	01	5	240	87	1	3	3	Apartamento	acopi	-76.51700	3.36971
2326	Zona Norte	01	4	220	52	2	2	3	Apartamento	acopi	-76.51974	3.42627
4386	Zona Norte	01	5	310	137	2	3	4	Apartamento	acopi	-76.53105	3.38296
1209	Zona Norte	02	5	320	150	2	4	6	Casa	acopi	-76.51341	3.47968
1592	Zona Norte	02	5	780	380	2	3	3	Casa	acopi	-76.51674	3.48721

Explorar la estructura de los datos

Revisar el número de filas, columnas y tipos de variables.

Dimensiones del DataFrame: Filas y Columnas
Descripción	Valor
Número de filas	8322
Número de columnas	13

Tipos de Datos de las Variables
	Tipo_de_dato
id	numeric
zona	character
piso	character
estrato	numeric
preciom	numeric
areaconst	numeric
parqueaderos	numeric
banios	numeric
habitaciones	numeric
tipo	character
barrio	character
longitud	numeric
latitud	numeric

El dataset contiene tanto variables numéricas (precio, área, número de habitaciones, número de baños, parqueaderos) que son fundamentales para los análisis cuantitativos, como variables categóricas (tipo de propiedad, estrato, piso, zona, barrio) que proporcionan un contexto geográfico y social relevante para segmentar el mercado.

Estadísticas Descriptivas de Variables Categóricas
	Variable	Categoria	Frecuencia	Proporcion
Apartamento	tipo	Apartamento	5100	0.6130545
Casa	tipo	Casa	3219	0.3869455
3	estrato	3	1453	0.1746604
4	estrato	4	2129	0.2559202
5	estrato	5	2750	0.3305686
6	estrato	6	1987	0.2388508
01	piso	01	860	0.1513019
02	piso	02	1450	0.2551020
03	piso	03	1097	0.1929979
04	piso	04	607	0.1067910
05	piso	05	567	0.0997537
06	piso	06	245	0.0431034
07	piso	07	204	0.0358902
08	piso	08	211	0.0371217
09	piso	09	146	0.0256861
10	piso	10	130	0.0228712
11	piso	11	84	0.0147783
12	piso	12	83	0.0146024
Zona Centro	zona	Zona Centro	124	0.0149056
Zona Norte	zona	Zona Norte	1920	0.2307970
Zona Oeste	zona	Zona Oeste	1198	0.1440077
Zona Oriente	zona	Zona Oriente	351	0.0421926
Zona Sur	zona	Zona Sur	4726	0.5680971

Limpieza y Preprocesamiento

Como paso inicial convertir las variables categóricas en factores es esencial para asegurarnos de que el modelo y los análisis que realicemos interpreten correctamente los datos.

Identificar valores faltantes y valores atípicos.

La imputación de valores faltantes es un proceso importante dentro de la limpieza y preprocesamiento de los datos, especialmente cuando los conjuntos de datos contienen valores nulos o faltantes (NA). La imputación tiene como objetivo reemplazar los valores faltantes con estimaciones razonables, para que el análisis no se vea afectado por la falta de datos, mejorando la calidad del modelo.

Identificamos los valores faltantes por cada atributo:

Valores Faltantes por Variable
	x
id	3
zona	3
piso	2638
estrato	3
preciom	2
areaconst	3
parqueaderos	1605
banios	3
habitaciones	3
tipo	3
barrio	3
longitud	3
latitud	3

Analizamos por cada a tributo los valores faltantes a que porcentaje corresponden:

Porcentaje de Valores Faltantes por Variable
	x
id	0.0360490
zona	0.0360490
piso	31.6991108
estrato	0.0360490
preciom	0.0240327
areaconst	0.0360490
parqueaderos	19.2862293
banios	0.0360490
habitaciones	0.0360490
tipo	0.0360490
barrio	0.0360490
longitud	0.0360490
latitud	0.0360490

Las filas con valores faltantes en id son las mismas que presentan faltantes en otras variables como zona, piso, estrato, preciom, entre otras. Esto significa que estas observaciones están incompletas en la mayoria de atributos, por lo cual la estrategia a aplicar es la eliminación, lo cual no afectará el respectivo análisis.

Al eliminarlas los valores faltantes por cada atributo nos quedan así:

Valores Faltantes por Variable
	x
id	0
zona	0
piso	2635
estrato	0
preciom	0
areaconst	0
parqueaderos	1602
banios	0
habitaciones	0
tipo	0
barrio	0
longitud	0
latitud	0

Con respecto al atributo piso es la que cuenta con más valores faltantes (2638), lo cual corresponde al 31,7% de los datos de dicho atributo, el cual se refiera a la ubicación del piso de un inmueble, para el caso de TIPO = APARTAMENTO o la cantidad de pisos, para el caso de TIPO = CASA, la estrategia establecida es imputar los valores faltantes con la moda de acuerdo al tipo de vivienda.

Imputar con la moda según el tipo de vivienda asegura que los valores imputados sean más representativos para cada tipo de inmueble, lo que favorece la coherencia de los datos, La moda es una estrategia útil y robusta cuando se tiene un alto porcentaje de valores faltantes.

Moda de ‘Piso’ por Tipo de Vivienda
tipo	moda_piso
Apartamento	03
Casa	02

Imputamos el valor de la moda en el atributo piso, teniendo como referencia el tipo de vivienda y observamos como quedan las primeras filas de nuestro dataset.

Primeras 5 Filas del DataFrame Después de la Imputación
id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud
1147	Zona Oriente	2	3	250	70	1	3	6	Casa	20 de julio	-76.51168	3.43382
1169	Zona Oriente	2	3	320	120	1	2	3	Casa	20 de julio	-76.51237	3.43369
1350	Zona Oriente	2	3	350	220	2	2	4	Casa	20 de julio	-76.51537	3.43566
5992	Zona Sur	2	4	400	280	3	5	3	Casa	3 de julio	-76.54000	3.43500
1212	Zona Norte	1	5	260	90	1	2	3	Apartamento	acopi	-76.51350	3.45891

Para el atributo parqueaderos cuenta con 1605 valores faltantes 19,3% de los datos, al realizar exploración del dataset se evidencia que no hay viviendas con 0 parqueaderos, por lo cual los datos faltantes a podrían referirse a propiedades sin parqueadero.

Para verificar realizamos un comparativo del promedio de preciom de viviendas con datos faltantes en parquedero, lo cual permitirá identificar si corresponden a viviendas de menor valor lo cual justificaría que se hace referencia a viviendas sin parqueadero

Análisis Comparativo del Precio Promedio de Viviendas con Datos Faltantes en la Variable “Parqueaderos”

## [1] 0

Al realizar un análisis comparativo entre el precio promedio por metro cuadrado (preciom) de las viviendas en general y el de aquellas viviendas con datos faltantes en la variable parqueaderos, se observa una diferencia significativa en los valores.

El precio promedio general de las viviendas es de 433.89, mientras que el promedio de las viviendas con datos faltantes en parqueaderos es de 287.25. Esta diferencia sugiere que las viviendas con información incompleta en la variable parqueaderos tienen un precio significativamente inferior al promedio general.

Este hallazgo favorece la idea de que las viviendas con datos faltantes en parqueaderos podrían ser propiedades sin parqueadero, lo que explicaría su menor valor en comparación con el resto del conjunto de datos, lo que justifica una posible imputación de los valores faltantes con un valor de “0” para indicar la ausencia de parqueadero.

Luego de la imputación Verificamos que el atributo parqueadero no cuente con valores faltantes.

## [1] 0

Tratamiento de datos atipicos.

El tratamiento de datos atípicos, es fundamental en el análisis porque estos valores pueden distorsionar los resultados y generar conclusiones erróneas.

Eliminar o corregir estos datos puede mejorar la precisión de los modelos, garantizar que los resultados sean representativos y asegurar que los análisis sean válidos.

Se usan los rangos intercuartílicos (IQR) para identificar los outliers. Los valores fuera de este rango se consideran atípicos:

Los valores atípicos se reemplazan con los límites inferior o superior aceptables.

Variable: areaconst (Área construida), Presenta varios valores atípicos grandes, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con casas grandes.

## Límite superior (Upper Bound): 452.5

Para determinar los límites de los valores atípicos, usamos la siguiente estrategia:

Límite Inferior (Lower Bound): \[Lower\_Bound = Q1 - 1.5 \times IQR\]
Límite Superior (Upper Bound): \[Upper\_Bound = Q3 + 1.5 \times IQR\]

Variable: parqueaderos tiene valores atípicos, posiblemente en propiedades de lujo, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Variables: banios y habitaciones poseen valores atípicos los cuales podrían corresponder con viviendas grandes o comerciales. Se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Análisis de Componentes Principales (PCA)

PCA es un método de reducción de dimensionalidad.

Primera Dimensión (PC1):

Explica 66.2% de la varianza en los datos. Es el componente principal más relevante, lo que significa que captura la mayoría de la información.

Segunda Dimensión (PC2):

Explica 17.1% de la varianza adicional. Combinada con PC1, estas dos dimensiones explican 83.3% de la varianza total.

La alta varianza explicada en el primer componente sugiere que hay una fuerte relación lineal entre las variables, por lo cual probablemente algunas de ellas pueden ser predichas a partir de las demás.

La curva en la gráfica de varianza explicada acumulada muestra que los primeros dos componentes son suficientes para capturar la mayor parte de la información, por lo que no sería necesario considerar los siguientes componentes.

Correlación entre Variables Originales

Área construida, habitaciones y precio tienen una correlación positiva fuerte entre sí. Esto indica que estas características suelen aumentar juntas. El tamaño y precio (representado por área construida, habitaciones, baños y precio) es un factor clave en la agrupación de propiedades.

PC1: representa una dimensión de tamaño - precio de las propiedades. Las viviendas más grandes con más habitaciones y baños tienen un mayor precio.

La variable de parqueaderos aunque influye en el precio, tiene un comportamiento un poco diferente al de las demás variables, posiblemente relacionadas con la calidad o nivel socioeconómico. Este componente podría capturar la calidad y el nivel socioeconómico de la propiedad.

PC2: describe una dimensión de exclusividad, diferenciando propiedades según nivel de acceso socioeconómico.

Gráfico de Variables - PCA (Plano Factorial)

Contribuciones de las variables:

PC1 (66.2% de la varianza): Está altamente influenciada por área construida, habitaciones y precio, lo que indica que este componente representa una dimensión de tamaño y precio. PC2 (17.1% de la varianza): Está influenciada principalmente por parqueaderos, lo que sugiere que este componente captura una dimensión de calidad socioeconómica, exclusividad o disposición de parqueaderos.

Gráfico de Individuos - PCA

Los puntos representan propiedades, y están dispersos a lo largo de las dimensiones PC1 y PC2.

Las propiedades con valores extremos en PC1 son más grandes o más pequeñas en términos de tamaño. Las propiedades con valores extremos en PC2 tienen más parqueaderos.

Implicaciones para el Problema Segmentación del Mercado:

Las dos dimensiones principales identificadas (PC1 y PC2) permiten segmentar el mercado en propiedades basadas en: Tamaño - precio: Propiedades grandes con más baños y habitaciones. Disposicion de parqueaderos: Propiedades con más parqueaderos.

Perfil de los clientes y estrategias de mercado:

Alto en Dim1 (propiedades grandes y costosas)

Cliente objetivo: Compradores de alto poder adquisitivo, interesados en propiedades espaciosas, con más habitaciones y baños.

Estrategia: Ofrecer financiamiento especial, destacar exclusividad y calidad, ubicación en zonas de lujo.

Bajo en Dim1 (propiedades pequeñas y económicas)

Cliente objetivo: Compradores iniciales, inversionistas de rentas, personas con menor presupuesto. Estrategia: Enfocar publicidad en accesibilidad financiera, cercanía a servicios esenciales y oportunidad de inversión.

Alto en Dim2 (propiedades con más parqueaderos)

Cliente objetivo: Familias con múltiples vehículos, compradores en zonas suburbanas o que priorizan estacionamiento.

Estrategia: Enfocar esfuerzos de venta en clientes con necesidades de movilidad, ofrecer incentivos como parqueaderos adicionales o paquetes de compra de parqueadero y/o bodega.

Bajo en Dim2 (propiedades con pocos o ningún parqueadero)

Cliente objetivo: Personas que dependen del transporte público, jóvenes profesionales, personas que buscan vivienda en zonas céntricas.

Estrategia: Resaltar ventajas como proximidad a estaciones de transporte, enfoque en vida urbana, flexibilidad de espacios.

ANÁLISIS DE CONGLOMERADOS

El objetivo del análisis de conglomerados es identificar segmentos homogéneos de propiedades residenciales con características similares. Esto nos permitirá analizar las dinámicas específicas del mercado inmobiliario.

Basado en el gráfico, 3 o 4 clusters son una buena elección para segmentar las propiedades.

Usaremos K-Means con 4 clusters, ya que la disminución en la inercia se estabiliza y los cambios son más pequeños. para agrupar las propiedades y visualizar los resultados.

## 
##    1    2    3    4 
## 1227 1215 2109 3768

Análisis de las características promedio de cada cluster

Resumen de Características Promedio por Cluster
cluster	promedio_area	promedio_parqueaderos	promedio_banios	promedio_habitaciones	promedio_preciom
1	341.4127	2.9225754	5.027710	4.233904	869.7033
2	269.0235	0.9045267	4.014815	4.945267	446.8716
3	153.3225	1.9760550	3.336652	3.286392	468.7349
4	85.4604	0.7423036	2.041932	2.840632	216.9331

El gráfico muestra cómo se agrupan las propiedades residenciales en el espacio definido por las dos primeras componentes principales (Dim1 y Dim2) después de aplicar K-Means con 4 clusters

Cluster 1 (Rojo) - Propiedades de Gran Tamaño y Alto Valor: propiedades grandes, costosas y con muchas comodidades, Aunque cuenta con parqueaderos, su principal característica es el tamaño y el valor. Probablemente ubicadas en zonas de alta concentración de viviendas, con menos espacio de estacionamiento. Representan un segmento de alto valor,Se encuentran en zonas exclusivas y están dirigidas a clientes de alto poder adquisitivo.

Cluster 2 (Verde) - Propiedades de tamaño significativo pero con Mas Parqueaderos: Propiedades espaciosas con mas parqueaderos, probablemente ubicadas en zonas no tan centricas. Representan un segmento de alto valor, pero más accesible en comparación con el Cluster 1.

Cluster 3 (Azul) - Propiedades de Tamaño Medio y Costo Moderado: propiedades más accesibles en costo y tamaño, dirigidas a familias de clase media-alta.Se encuentran en ubicaciones equilibradas entre espacio y costo, adecuadas para compradores con presupuestos intermedios.

Cluster 4 (Morado) - Propiedades Pequeñas y Económicas: Propiedades pequeñas, económicas y con pocos o ningún parqueadero. Orientadas a jóvenes profesionales, inversionistas o compradores de primera vivienda. Probablemente ubicadas en zonas de alta densidad urbana con acceso a transporte público.

Conclusiones

La segmentación basada en el PCA y Clustering permite una diferenciación clara del mercado inmobiliario.

Los cuatro segmentos identificados tienen perfiles de compradores específicos, lo que permite optimizar estrategias de marketing y precios.

El analisis posibilita personalizar la publicidad y oferta según las necesidades de cada segmento, enfocándose en factores como precio, espacio, ubicación y disponibilidad de parqueaderos.

Decisiones Estratégicas:

Cluster 1: Enfocar estrategias en familias que buscan espacio. Marketing de exclusividad, financiamiento, venta directa

Cluster 2: Orientar estrategias hacia compradoresde ingresos altos.Viviendas Probablemente ubicadas en zonas menos densamente pobladas con mayor disponibilidad de parqueaderos.

Cluster 3: Propiedades de gama media-alta, atractivas para familias con ingresos medios pero que buscan una opción más accesible. Publicidad en accesibilidad, calidad de viday financiamiento

Cluster 4: Propiedades pequeñas y económicas, pocos parqueaderos, enfoque en Marketing digital, financiamiento accesible, enfoque en movilidad.

ANALISIS DE CORRESPONDENCIA

El Análisis de Correspondencia (AC) nos permite identificar patrones en datos categóricos y visualizar cómo se relacionan entre sí. En este caso, examinaremos la relación entre:

tipo de vivienda. zona. barrio estrato

Excluiremos “barrio” del análisis de correspondencia ya que como resultado la tabla de contingencia tiene muchas celdas con cero (categorías poco representadas). Esto puede hacer que el Análisis de Correspondencia (CA) sea menos estable, por lo que centrarnos en Zona, Estrato y Tipo de Vivienda.Evitando la alta dispersión de categorías en la variable “barrio”.

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_zona_tipo
## X-squared = 690.93, df = 4, p-value < 2.2e-16

	Relación	Valor Chi-Square	Grados de Libertad	p-valor
X-squared	Zona vs Tipo de Vivienda	690.93	4	0

	Relación	Valor Chi-Square	Grados de Libertad	p-valor
X-squared	Estrato vs Zona	3830.44	12	0

	Relación	Valor Chi-Square	Grados de Libertad	p-valor
X-squared	Estrato vs Tipo de Vivienda	224.33	3	0

Zona vs Tipo de Vivienda

El valor de chi-cuadrado es muy alto (690.93) y el p-valor es extremadamente pequeño (< 2.2e-16). Esto indica una relación significativa entre la zona y el tipo de vivienda. Es decir, las categorías de zona están fuertemente asociadas con el tipo de vivienda, lo que sugiere que la distribución de los tipos de vivienda varía significativamente según la zona.

Estrato vs Zona

El valor de chi-cuadrado es muy alto (3830.44) y el p-valor es igual a 0, lo que indica una relación altamente significativa entre el estrato y la zona. Esto sugiere que la zona está fuertemente relacionada con el estrato, es decir, las categorías de estrato varían significativamente según la zona.

Estrato vs Tipo de Vivienda

El valor de chi-cuadrado es de 224.33 y el p-valor es 0, lo que también indica una relación significativa entre el estrato y el tipo de vivienda. Esto sugiere que el tipo de vivienda varía significativamente según el estrato.

Las pruebas de chi-cuadrado han indicado que las variables Zona, Tipo de Vivienda y Estrato están fuertemente relacionadas. Estas relaciones significativas sugieren que sería útil aplicar un análisis de correspondencia múltiple (ACM) para explorar las asociaciones entre varias variables categóricas de manera más integral.

ANALISIS DE CORRESPONDENCIA MULTIPLE

La variable más representada en la Dimensión 1 es zona, seguida de estrato. Zona es la variable que más explica la variabilidad en los datos.

Estrato también es importante, lo que sugiere que el nivel socioeconómico tiene una relación fuerte con las zonas.

Tipo de Vivienda tiene menor representación, lo que indica que no está tan directamente relacionada con la variabilidad en las dos primeras dimensiones.

Los Apartamentos están más cercanos a los estratos 4 y 5, lo que indica que son más comunes en esos niveles.

Las Casas están en una posición más dispersa, lo que sugiere que pueden estar distribuidas en diferentes estratos y zonas.

A la derecha del grafico MCA Factor tenemos Zona Oriente, Zona Centro, Estrato 3, Casa: significa que en esas zonas hay más casas en proporción dentro del conjunto de datos, hay barrios tradicionales con más casas, en comparación con otras zonas y corresponde con estratos socieconomicos medios.

A la izquierda Arriba se encuentra Zona Oeste y estrato 6, Representa zonas de alto nivel socioeconómico, viviendas de lujo, torres residenciales exclusivas.

Ala Izquierda abajo se encuentra Zona Sur, estrato 4 y 5: por su cercania con apartamento y casas, podria representar un desarrollo mixto, un poco más sesgado hacia el tipo de vivienda apartamento, la Zona Sur tiene un desarrollo inmobiliario donde hay predominio de estratos 4 y 5.

Aunque Oriente y Centro pueden ser zonas urbanizadas, en este conjunto de datos, hay una mayor proporción de casas en esas zonas. Esto puede indicar que en Oriente y Centro hay barrios tradicionales con más casas.

Dim1 (21.08%) Las principales variables contribuyentes son: Estrato 3, Zona Oriente, Zona Oeste, Casa, por lo cual esta dimensión puede estar representando Diferencia en el tipo de vivienda y estructura urbana. Representa una distinción entre áreas con mayor proporción de casas (Zona Oriente) vs. otras zonas con una distribución más variada.

Dim2 (16.99%) Las Principales Variables Contribuyentes son: Zona Oeste, Estrato 6, Estrato 4, Zona Sur, por lo cual esta dimensión puede estar representando diferencia en el tipo de urbanización dentro de los estratos altos. Separa zonas residenciales consolidadas (Oeste, Estrato 6) de zonas en crecimiento con estratos altos (Sur, Estrato 4 y 5).

Recomendaciones Estratégicas

Zona Norte y Centro tienen mayor proporción de casas, lo que sugiere que la demanda en estas zonas puede estar más inclinada hacia viviendas familiares.

Zona Oeste muestra una alta asociación con apartamentos de estratos altos, indicando una demanda por edificios de lujo y exclusivos.

Zona Sur está vinculada a estratos 4 y 5 con un desarrollo mixto (casas y apartamentos), lo que sugiere oportunidades en proyectos de vivienda de interés medio-alto.

Análisis del Mercado Inmobiliario Urbano

Luis Carlos Martínez Martínez

2025-02-11