Introducción

Este informe presenta un análisis multidimensional del mercado inmobiliario en la ciudad, utilizando técnicas estadísticas avanzadas para identificar patrones y tendencias clave. Se emplean Análisis de Componentes Principales (PCA), Clustering y Análisis de Correspondencia para obtener información relevante que optimice la toma de decisiones estratégicas.

Carga de Datos

## package 'factoextra' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\lcmar\AppData\Local\Temp\Rtmp4CK1oc\downloaded_packages

Primeras 10 filas del DataFrame ‘vivienda’
id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud
1147	Zona Oriente	NA	3	250	70	1	3	6	Casa	20 de julio	-76.51168	3.43382
1169	Zona Oriente	NA	3	320	120	1	2	3	Casa	20 de julio	-76.51237	3.43369
1350	Zona Oriente	NA	3	350	220	2	2	4	Casa	20 de julio	-76.51537	3.43566
5992	Zona Sur	02	4	400	280	3	5	3	Casa	3 de julio	-76.54000	3.43500
1212	Zona Norte	01	5	260	90	1	2	3	Apartamento	acopi	-76.51350	3.45891
1724	Zona Norte	01	5	240	87	1	3	3	Apartamento	acopi	-76.51700	3.36971
2326	Zona Norte	01	4	220	52	2	2	3	Apartamento	acopi	-76.51974	3.42627
4386	Zona Norte	01	5	310	137	2	3	4	Apartamento	acopi	-76.53105	3.38296
1209	Zona Norte	02	5	320	150	2	4	6	Casa	acopi	-76.51341	3.47968
1592	Zona Norte	02	5	780	380	2	3	3	Casa	acopi	-76.51674	3.48721

Explorar la estructura de los datos

Revisar el número de filas, columnas y tipos de variables.

Dimensiones del DataFrame: Filas y Columnas
Descripción	Valor
Número de filas	8322
Número de columnas	13

Tipos de Datos de las Variables
	Variable	Tipo_de_dato
id	id	numeric
zona	zona	character
piso	piso	character
estrato	estrato	numeric
preciom	preciom	numeric
areaconst	areaconst	numeric
parqueaderos	parqueaderos	numeric
banios	banios	numeric
habitaciones	habitaciones	numeric
tipo	tipo	character
barrio	barrio	character
longitud	longitud	numeric
latitud	latitud	numeric

El dataset contiene tanto variables numéricas (precio, área, número de habitaciones, número de baños, parqueaderos) que son fundamentales para los análisis cuantitativos, como variables categóricas (como tipo de propiedad, piso, zona, barrio) que proporcionan un contexto geográfico y social relevante para segmentar el mercado.

Estadísticas Descriptivas de la Vivienda
	vars	n	mean	sd	median	trimmed	mad	min	max	range	skew	kurtosis	se
id	1	8319	4160.000000	2401.6327779	4160.000	4160.000000	3083.8080000	1.00000	8319.0000	8318.00000	0.0000000	-1.2004328	26.3312235
zona*	2	8319	3.917779	1.3277406	5.000	4.040709	0.0000000	1.00000	5.0000	4.00000	-0.5935879	-1.3642062	0.0145572
piso*	3	5684	3.770936	2.6148024	3.000	3.371152	1.4826000	1.00000	12.0000	11.00000	1.2795930	1.0542476	0.0346826
estrato	4	8319	4.633610	1.0292221	5.000	4.666967	1.4826000	3.00000	6.0000	3.00000	-0.1843226	-1.1074181	0.0112843
preciom	5	8320	433.891947	328.6472443	330.000	374.431941	207.5640000	58.00000	1999.0000	1941.00000	1.8492556	3.6722960	3.6030338
areaconst	6	8319	174.934938	142.9641260	123.000	149.152171	84.5082000	30.00000	1745.0000	1715.00000	2.6933603	12.9138205	1.5674421
parqueaderos	7	6717	1.835194	1.1249088	2.000	1.615256	1.4826000	1.00000	10.0000	9.00000	2.3267096	8.3114962	0.0137255
banios	8	8319	3.111311	1.4282102	3.000	2.985579	1.4826000	0.00000	10.0000	10.00000	0.9252097	1.1271098	0.0156587
habitaciones	9	8319	3.605361	1.4595368	3.000	3.410245	1.4826000	0.00000	10.0000	10.00000	1.6348042	3.9840352	0.0160022
tipo*	10	8319	1.386945	0.4870803	1.000	1.358720	0.0000000	1.00000	2.0000	1.00000	0.4641570	-1.7847728	0.0053403
barrio*	11	8319	241.482149	128.8347807	251.000	245.338741	171.9816000	1.00000	436.0000	435.00000	-0.0858721	-1.2312567	1.4125296
longitud	12	8319	-76.528606	0.0173983	-76.530	-76.529859	0.0164865	-76.58915	-76.4630	0.12615	0.6469278	0.5832445	0.0001908
latitud	13	8319	3.417644	0.0426385	3.416	3.417347	0.0529881	3.33300	3.4977	0.16470	0.0296959	-1.1499660	0.0004675

Limpieza y Preprocesamiento

Como paso inicial convertir las variables categóricas en factores es esencial para asegurarnos de que el modelo y los análisis que realicemos interpreten correctamente los datos.

Identificar valores faltantes y valores atípicos.

La imputación de valores faltantes es un proceso importante dentro de la limpieza y preprocesamiento de los datos, especialmente cuando los conjuntos de datos contienen valores nulos o faltantes (NA). La imputación tiene como objetivo reemplazar los valores faltantes con estimaciones razonables, para que el análisis no se vea afectado por la falta de datos, mejorando la calidad del modelo.

Identificamos los valores faltantes por cada atributo:

Valores Faltantes por Variable
	x
id	3
zona	3
piso	2638
estrato	3
preciom	2
areaconst	3
parqueaderos	1605
banios	3
habitaciones	3
tipo	3
barrio	3
longitud	3
latitud	3

Analizamos por cada a tributo los valores faltantes a que porcentaje corresponden:

Porcentaje de Valores Faltantes por Variable
	x
id	0.0360490
zona	0.0360490
piso	31.6991108
estrato	0.0360490
preciom	0.0240327
areaconst	0.0360490
parqueaderos	19.2862293
banios	0.0360490
habitaciones	0.0360490
tipo	0.0360490
barrio	0.0360490
longitud	0.0360490
latitud	0.0360490

Las filas con valores faltantes en id son las mismas que presentan faltantes en otras variables como zona, piso, estrato, preciom, entre otras. Esto significa que estas observaciones están incompletas en la mayoria de atributos, por lo cual la estrategia a aplicar es la eliminación, lo cual no afectará el respectivo análisis.

Al eliminarlas los valores faltantes por cada atributo nos quedan así:

Valores Faltantes por Variable
	x
id	0
zona	0
piso	2635
estrato	0
preciom	0
areaconst	0
parqueaderos	1602
banios	0
habitaciones	0
tipo	0
barrio	0
longitud	0
latitud	0

Con respecto al atributo piso es la que cuenta con más valores faltantes (2638), lo cual corresponde al 31,7% de los datos de dicho atributo, el cual se refiera a la ubicación del piso de un inmueble, para el caso de TIPO = APARTAMENTO o la cantidad de pisos, para el caso de TIPO = CASA, la estrategia adecuada sería imputar los valores faltantes con la moda de acuerdo al tipo de vivienda.

Imputar con la moda según el tipo de vivienda asegura que los valores imputados sean más representativos para cada tipo de inmueble, lo que favorece la coherencia de los datos, La moda es una estrategia útil y robusta cuando se tiene un alto porcentaje de valores faltantes.

Moda de ‘Piso’ por Tipo de Vivienda
tipo	moda_piso
Apartamento	03
Casa	02

Imputamos el valor de la moda en el atributo piso, teniendo como referencia el tipo de vivienda y observamos como quedan las primeras filas de nuestro dataset.

Primeras 5 Filas del DataFrame Después de la Imputación
id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud
1147	Zona Oriente	02	3	250	70	1	3	6	Casa	20 de julio	-76.51168	3.43382
1169	Zona Oriente	02	3	320	120	1	2	3	Casa	20 de julio	-76.51237	3.43369
1350	Zona Oriente	02	3	350	220	2	2	4	Casa	20 de julio	-76.51537	3.43566
5992	Zona Sur	02	4	400	280	3	5	3	Casa	3 de julio	-76.54000	3.43500
1212	Zona Norte	01	5	260	90	1	2	3	Apartamento	acopi	-76.51350	3.45891

Para el atributo parqueaderos cuenta con 1605 valores faltantes 19,3% de los datos, al realizar exploración del dataset se evidencia que no hay viviendas con 0 parqueaderos, por lo cual los datos faltantes a podrían referirse a propiedades sin parqueadero.

Para verificar realizamos un comparativo del promedio de preciom de viviendas con datos faltantes en parquedero, lo cual permitirá identificar si corresponden a viviendas de menor valor lo cual justificaría que se hace referencia a viviendas sin parqueadero

Análisis Comparativo del Precio Promedio de Viviendas con Datos Faltantes en la Variable “Parqueaderos”

## [1] 0

Al realizar un análisis comparativo entre el precio promedio por metro cuadrado (preciom) de las viviendas en general y el de aquellas viviendas con datos faltantes en la variable parqueaderos, se observa una diferencia significativa en los valores.

El precio promedio general de las viviendas es de 433.89, mientras que el promedio de las viviendas con datos faltantes en parqueaderos es de 287.25. Esta diferencia sugiere que las viviendas con información incompleta en la variable parqueaderos tienen un precio significativamente inferior al promedio general.

Este hallazgo favorece la idea de que las viviendas con datos faltantes en parqueaderos podrían ser propiedades sin parqueadero, lo que explicaría su menor valor en comparación con el resto del conjunto de datos, lo que justifica una posible imputación de los valores faltantes con un valor de “0” para indicar la ausencia de parqueadero.

Luego de la imputación Verificamos que el atributo parqueadero no cuente con valores faltantes.

## [1] 0

Tratamiento de datos atipicos.

El tratamiento de datos atípicos, es fundamental en el análisis porque estos valores pueden distorsionar los resultados y generar conclusiones erróneas.

Eliminar o corregir estos datos puede mejorar la precisión de los modelos, garantizar que los resultados sean representativos y asegurar que los análisis sean válidos.

Se usan los rangos intercuartílicos (IQR) para identificar los outliers. Los valores fuera de este rango se consideran atípicos:

Los valores atípicos se reemplazan con los límites inferior o superior aceptables.

Variable: areaconst (Área construida), Presenta varios valores atípicos grandes, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con casas grandes.

## Límite superior (Upper Bound): 452.5

Para determinar los límites de los valores atípicos, usamos la siguiente estrategia:

Límite Inferior (Lower Bound): \[Lower\_Bound = Q1 - 1.5 \times IQR\]
Límite Superior (Upper Bound): \[Upper\_Bound = Q3 + 1.5 \times IQR\]

Variable: parqueaderos tiene valores atípicos, posiblemente en propiedades de lujo, se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Variables: banios y habitaciones poseen valores atípicos los cuales podrían corresponder con viviendas grandes o comerciales. Se realiza imputación por los valores con los límites inferior o superior aceptables, ya que corresponde con viviendas grandes.

Análisis de Componentes Principales (PCA)

El precio es la variable dependiente (lo que queremos explicar). PCA es un método de reducción de dimensionalidad.

Primera Dimensión (PC1):

Explica 57.2% de la varianza en los datos. Es el componente principal más relevante, lo que significa que captura la mayoría de la información.

Segunda Dimensión (PC2):

Explica 23.6% de la varianza adicional. Combinada con PC1, estas dos dimensiones explican 80.8% de la varianza total.

Por lo cual 2 componentes reduce la dimensionalidad manteniendo un nivel alto de información.

Correlación entre Variables Originales

Área construida, habitaciones, y baños tienen una correlación positiva fuerte entre sí. Esto indica que estas características suelen aumentar juntas. El tamaño (representado por área construida, habitaciones, y baños) es un factor clave en la agrupación de propiedades.

PC1: representa una dimensión de tamaño/espacio de las propiedades. Las viviendas más grandes con más habitaciones y baños tienen una mayor influencia en el precio.

Las variables de estrato y parqueaderos añaden dimensiones únicas, posiblemente relacionadas con la calidad o nivel socioeconómico. Este componente podría capturar la calidad y el nivel socioeconómico de la propiedad

PC2: describe una dimensión de calidad, diferenciando propiedades según su exclusividad o nivel de acceso socioeconómico.

Gráfico de Variables - PCA (Plano Factorial)

Contribuciones de las variables:

PC1 (57.2% de la varianza): Está altamente influenciada por área construida, baños, y habitaciones, lo que indica que este componente representa una dimensión de tamaño y funcionalidad de la vivienda. PC2 (23.6% de la varianza): Está influenciada principalmente por estrato y parqueaderos, lo que sugiere que este componente captura una dimensión de calidad socioeconómica o exclusividad.

Gráfico de Individuos - PCA

Los puntos representan propiedades, y están dispersos a lo largo de las dimensiones PC1 y PC2.

Las propiedades con valores extremos en PC1 son más grandes o más pequeñas en términos de tamaño. Las propiedades con valores extremos en PC2 están en zonas más exclusivas o tienen más parqueaderos.

Implicaciones para el Problema Segmentación del Mercado:

Las dos dimensiones principales identificadas (PC1 y PC2) permiten segmentar el mercado en propiedades basadas en: Tamaño y funcionalidad: Propiedades grandes con más baños y habitaciones. Exclusividad: Propiedades con alto estrato y más parqueaderos.

Decisiones Estratégicas:

Precios: Ajustar estrategias de precios basándose en el tamaño y la exclusividad. Oferta: Priorizar propiedades en segmentos que maximizan la rentabilidad en las dimensiones clave.

ANÁLISIS DE CONGLOMERADOS

El objetivo del análisis de conglomerados es identificar segmentos homogéneos de propiedades residenciales con características similares. Esto nos permitirá analizar las dinámicas específicas del mercado inmobiliario.

Basado en el gráfico, 3 o 4 clusters son una buena elección para segmentar las propiedades.

Usaremos K-Means con 3 clusters para agrupar las propiedades y visualizar los resultados.

## 
##    1    2    3 
## 2795 3650 1874

Análisis de las características promedio de cada cluster

Resumen de Características Promedio por Cluster
cluster	promedio_area	promedio_parqueaderos	promedio_banios	promedio_habitaciones	promedio_estrato
1	154.91524	1.8758497	3.357066	3.229875	5.430054
2	93.06838	0.7005479	2.034794	2.962329	3.918356
3	330.02194	2.0541622	4.785486	4.801494	4.838847

El gráfico muestra cómo se agrupan las propiedades residenciales en el espacio definido por las dos primeras componentes principales (Dim1 y Dim2) después de aplicar K-Means con 3 clusters

Cluster 1: Este cluster incluye viviendas grandes y funcionales con más área construida, habitaciones, baños y parqueaderos, de alto estrato.

Cluster 2: Este cluster incluye viviendas con una menor área construida,estrato medio, Pocos parqueaderos, probablemente apartamentos en zonas urbanas densas. Enfocadas en compradores de ingresos medios.

Cluster 3: Viviendas de gama media-alta, bien ubicadas y con características como: Área construida media, Más baños y habitaciones que el Cluster 2, Estrato alto, Buen número de parqueaderos (1.88 en promedio), lo que indica una orientación a compradores de mayor nivel socioeconómico.

Conclusiones

Segmentación del Mercado:

El análisis identifica 3 segmentos principales de propiedades:

Propiedades funcionales, grandes y exclusivas (Cluster 1). Propiedades económicas y básicas (Cluster 2). Propiedades funcionales y exclusivas (Cluster 3).

Decisiones Estratégicas:

Cluster 1: Enfocar estrategias en familias que buscan espacio. Segmento de viviendas de lujo, probablemente ubicadas en sectores de estrato alto. Atrae a compradores con mayor poder adquisitivo, familias grandes o personas que buscan exclusividad.

Cluster 2: Orientar estrategias hacia compradoresde ingresos medios-bajos.Viviendas Probablemente ubicadas en zonas densamente pobladas con menor disponibilidad de parqueaderos. Ideal para jóvenes profesionales o familias pequeñas.

Cluster 3: Propiedades de gama media-alta, atractivas para familias con ingresos altos pero que buscan una opción más accesible que las del Cluster 1. Ubicadas en sectores exclusivos pero con menor area que las propiedades de lujo. Equilibrio entre costo y exclusividad.

Relación entre Clusters y Variables:

Dim1 y Dim2 explican el 78.2% de la varianza total, lo que indica que esta segmentación captura la mayoría de las dinámicas del mercado.

ANALISIS DE CORRESPONDENCIA

El Análisis de Correspondencia (AC) nos permite identificar patrones en datos categóricos y visualizar cómo se relacionan entre sí. En este caso, examinaremos la relación entre:

tipo de vivienda. zona. barrio

## [1] 2 5

## Apartamento        Casa 
##  -0.2289585   0.3627488

##                     [,1]
## Zona Centro   0.86131854
## Zona Norte   -0.02238755
## Zona Oeste   -0.50482822
## Zona Oriente  0.89603812
## Zona Sur      0.04791693

Relación entre Apartamento y las zonas:

Zona Sur es la más activa en términos de frecuencia total, con una gran cantidad de apartamentos y casas. Zona Norte también tiene una alta frecuencia, pero los apartamentos dominan en comparación con las casas. Zona Oeste tiene frecuencias más bajas, con un mayor balance entre apartamentos y casas. Zona Oriente tiene una menor actividad general, pero las casas tienen una frecuencia ligeramente mayor. Zona Centro tiene la actividad más baja en general.

Zona Sur tiene una fuerte presencia de apartamentos, mientras que la proporción de casas es menor. Zona Norte y Zona Oeste tienen proporciones más equilibradas de apartamentos y casas. Zona Oriente tiene una mayor proporción relativa de casas, aunque su magnitud es menor en comparación con otras zonas. Zona Centro tiene poca representación general en ambas categorías.

La relación entre Apartamento y Casa parece estar bien diferenciada, con un valor cercano a 1, lo que indica que estas categorías tienen patrones muy distintos en términos de distribución en las zonas.

Esto puede reflejar que los apartamentos y casas tienden a estar asociados con zonas específicas y no se mezclan uniformemente en todas las zonas.

El análisis de correspondencia revela patrones claros entre los tipos de vivienda y su distribución geográfica en las zonas. Esto permite segmentar el mercado para estrategias más precisas:

Zona Sur y Zona Norte:

Dominio de Apartamentos: Alta frecuencia de apartamentos en estas zonas sugiere una fuerte preferencia del mercado por propiedades de alta densidad en áreas urbanas.

Estrategia Recomendada: Invertir en el desarrollo y promoción de proyectos de apartamentos modernos y funcionales, dirigidos a familias pequeñas y jóvenes profesionales. Enfocar campañas de marketing resaltando beneficios como la proximidad a servicios urbanos y accesibilidad.

Zona Oriente y Zona Oeste:

Dominio de Casas: Mayor frecuencia relativa de casas en estas zonas indica una preferencia por viviendas más espaciosas y familiares.

Estrategia Recomendada: Priorizar proyectos de casas en zonas residenciales, dirigidos a familias que buscan tranquilidad y mayor espacio. Ofrecer opciones con características adicionales como patios, jardines y parqueaderos múltiples.

Zona Centro:

Baja Representación: La baja frecuencia en ambas categorías sugiere una oportunidad para proyectos mixtos de apartamentos y casas.

Estrategia Recomendada: Desarrollar proyectos pequeños enfocados en apartamentos.

Recomendaciones Estratégicas

Segmentación por Tipo de Vivienda:

Apartamentos: Enfocar las estrategias de marketing hacia la zona Sur, ya que concentra la mayor cantidad de apartamentos. Resaltar características como seguridad y accesibilidad para atraer a familias jóvenes o profesionales. Casas: Priorizar estrategias en la zona Norte y zonas periféricas para promocionar casas dirigidas a familias grandes o personas que buscan más espacio.

Utilizar los clusters identificados para establecer políticas de precios diferenciados:

Cluster 1: Enfocar estrategias gama alta para propiedades de mayor tamaño y valor. Cluster 2: Dirigir campañas económicas para propiedades pequeñas y accesibles, ideales para jóvenes o personas solteras. Cluster 3: Promover viviendas medianas con una relación calidad-precio equilibrada, ideales para familias de tamaño promedio.

Desarrollo de Proyectos en Zonas Estratégicas:

Zonas con alta demanda: Continuar desarrollando propiedades en la zona Sur, optimizando la oferta en función del estrato predominante y los tamaños requeridos. Zonas con menor oferta: Incentivar desarrollos en zonas como la zona Oriente, donde hay menos concentración de propiedades, para diversificar la oferta.

Campañas de Marketing Personalizadas

Basar las campañas en las preferencias de cada cluster y zona.

Análisis del Mercado Inmobiliario Urbano

Luis Carlos Martínez Martínez

2025-02-07