Iniciamos realizando la identificacion e imputacion de valores nulos dentro del data set con el fin de obtener un mejor resultado en procesos posteriores.
Se realiza la imputacion de datos faltantes
Realizamos el analisis de componentes principales:
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.8759 1.1776 0.9091 0.69825 0.59774 0.48765 0.43023
## Proportion of Variance 0.5027 0.1981 0.1181 0.06965 0.05104 0.03397 0.02644
## Cumulative Proportion 0.5027 0.7008 0.8189 0.88854 0.93959 0.97356 1.00000
Figura 1: Aporte a la varianza total variables PCA
En el grafico anterior se puede observar que tal y como se espera, casi el 70 porciento de la varianza total se encuentra acumulada en los dos primeros componentes, y mas del 80% en los 3 primeros, esto demuestra el gran efecto de reduccion de dimensionalidad que tiene el pca.
Figura 2: Aporte variables originales
En el grafico anterior podemos identificar que para el componente 1 las caracteristicas que mas aporte tienen son el numero de habitaciones, el area construida y el banio, y para el componente 2 son el numero de parqueaderos, el estrato el precio y el numero de pisos. Con lo cual podriamos afirmar que en su mayoria el componente 1 esta compuesto en su mayoria por las comodidades de la vivienda y el componente 2 por las caracteristicas propias de la ubicacion. Ademas se podria afirmar que caracteristicas como la latitud, longitud y la zona no aportan significativamente a la varianza.
Figura 3: Metodo del codo y Silhouette
Figura 3: Metodo del codo y Silhouette
De las graficas anteriores se puede evidenciar que mas de 4 clusters ya no aportan significativamente a la varianza ni a la separecion por grupos.
Figura 4: Clusters separados por colores
Con la informacion de la grafica y la tabla anterior podemos concluir lo siguiente de cada cluster:
Cluster 1: Viviendas amplias, de alto estrato, con buen número de baños y parqueaderos, en pisos intermedios-altos
Cluster 2: Propiedades de lujo, grandes y costosas, pero en pisos bajos o medianos, y con varios prqueaderos y banios.
Cluster 3: Viviendas más pequeñas, de estrato medio, precio asequible.
Cluster 4: Casas grandes en estratos medios, muchos cuartos, generalmente en pisos bajos.
Figura 5: Analisis de correspondencia
Figura 6: tipo de vivienda vs zona
Como conclusiones clave tenemos que el análisis de conglomerados mostró que las propiedades se agrupan en perfiles bien diferenciados:
Un grupo con precios altos y gran área construida (segmento premium, estratos altos).
Otro con precios bajos y menor área (segmento popular o de entrada). Esto indica que la estrategia comercial y publicitaria debe adaptarse a cada segmento, evitando mensajes genéricos para todo el mercado.
Por otro lado, el PCA evidenció que el área construida, el estrato y el número de parqueaderos son las variables que más contribuyen a explicar la variación de precios. Recomendación: al valorar o listar propiedades, priorizar la correcta medición y visibilidad de estos atributos, ya que influyen fuertemente en la percepción y disposición a pagar.
Por ultimo, el análisis de correspondencia reveló que ciertas zonas se asocian más con apartamentos y otras con casas.
Recomendación: para optimizar la oferta, el portafolio de propiedades debe alinearse con la demanda típica de cada zona, evitando ofertar en exceso un tipo de vivienda que no sea característico de la ubicación.
Figura 7: Grafico final
Considero que este es el grafico que mejor resume el analisis realizado en este trabajo ya que permite visualizar de manera interactiva la ubicación y características de las propiedades, facilitando la identificación de patrones geográficos y tendencias del mercado inmobiliario para la toma de decisiones estratégicas.