Introducción

En el contexto actual, las empresas inmobiliarias enfrentan desafíos significativos que requieren un enfoque analítico para la toma de decisiones. La competitividad en el sector de la vivienda urbana, junto con la incertidumbre del mercado, demanda herramientas y estrategias que permitan a las empresas no solo sobrevivir, sino prosperar. Esta necesidad de adaptación y agilidad ha llevado a una empresa inmobiliaria líder en una gran ciudad a la búsqueda de un entendimiento profundo del mercado de viviendas urbanas.

Este estudio no solo busca mejorar la toma de decisiones estratégicas, sino también posicionar a la empresa como un referente en el sector al optimizar su respuesta a las dinámicas del mercado. A través del análisis de datos, se pueden descubrir nuevas oportunidades, anticipar tendencias y satisfacer de manera más efectiva las necesidades de los clientes, lo cual es esencial en un entorno tan competitivo.

Este conjunto de datos ha sido cuidadosamente recopilado a través de un procedimiento de web scraping en la plataforma OLX, garantizando la relevancia y actualización de la información. Las variables contenidas en la base de datos son clave para la realización de un análisis exhaustivo y multidimensional del mercado inmobiliario, e incluyen:

id: Identificador único de cada propiedad. zona: Zona geográfica de la propiedad. piso: Número de piso. estrato: Estrato socioeconómico. preciom: Precio por metro cuadrado. areaconst: Área construida. parqueaderos: Número de parqueaderos. banios: Cantidad de baños. habitaciones: Número de habitaciones. tipo: Tipo de vivienda. barrio: Barrio donde se encuentra la propiedad. longitud y latitud: Coordenadas geográficas.

Objetivo

Se utilizó el conjunto de datos antes mencionado que, contiene información sobre 8,322 propiedades, de las cuales se limpiaron y transformaron ciertos datos faltantes. Se aplicaron varias técnicas de análisis, incluyendo:

Análisis de Componentes Principales (PCA): Esta herramienta estadística permitirá reducir la dimensionalidad del conjunto de datos, visualizando así la estructura subyacente de las variables y facilitando la identificación de características determinantes en la variación de precios y la oferta del mercado.

Análisis de Conglomerados: Se buscará agrupar propiedades residenciales en segmentos homogéneos con características similares, lo que permitirá comprender mejor las dinámicas de oferta en diferentes regiones de la ciudad y en variados estratos socioeconómicos.

Análisis de Correspondencia: Este enfoque se centrará en la relación entre variables categóricas, como el tipo de vivienda y la ubicación, con el objetivo de descubrir patrones significativos en el comportamiento del mercado inmobiliario.

Visualización de Resultados: Se presentarán gráficos, mapas y otros recursos visuales que facilitarán la comunicación efectiva de los hallazgos a los tomadores de decisiones dentro de la organización.

Preparación de los datoS:

Exploración Inicial del Conjunto de Datos:

Durante la exploración inicial, se identificaron datos faltantes en varias columnas mediante el uso de la función sapply.

Los resultados mostraron que:

Se recolectó una base inicial de 8,322 registros, de los cuales se identificaron datos faltantes (N/A). Se tomó la decisión de filtrar el conjunto de datos para eliminar las filas con valores faltantes en la columna id, ya que este identificador es crucial para la integridad de los registros:

Después de la limpieza inicial, se verificaron nuevamente los datos faltantes y se encontró que aún existían faltantes en las variables piso y parqueaderos:

Estrategia para el Manejo de Datos Faltantes:

Variable Piso

Se adoptó una estrategia de imputación para manejar los datos faltantes de las siguientes maneras:

Variable Piso: Se calculó la media y la mediana. Se optó por imputar los valores faltantes con la mediana de piso para no distorsionar el análisis.

La media de piso es: 3.770936
La mediana de piso es: 3

Se decide imputar los valores faltantes de piso con la mediana, técnica comúnmente utilizada para no afectar el análisis.

Para la variable parqueadero, se opta por imputar los valores faltantes a 0, representando propiedades sin espacios de parqueo designados, evitando sesgos en el análisis.

Después de estas imputaciones, la base se redujo a 8,327 registros.

Después de la imputación de datos faltantes, revisamos la estructura de vivienda_clean:

No se encontraron valores faltantes en ninguna de las variables, confirmando la limpieza exitosa del conjunto:

Precio por Metro Cuadrado (preciom): Media de 433.9 con un mínimo de 58.0 y un máximo de 1999.0. Área Construida (areaconst): Media de 174.9 metros cuadrados. Habitaciones: La mayoría de las propiedades tienen entre 2 y 4 habitaciones, con un máximo de 10.

Adicional, se realizo una revisión sobre si existian o no datos duplicados, Adicional, no se evidencia que se deban normalizar textos relacionados con el tipo de vivienda.

El resultado de la consulta sobre duplicados fue de:

## Número de ID duplicados: 0 
## No se encontraron IDs duplicados.

Distribución Geográfica de Propiedades: El gráfico permite visualizar la distribución de las propiedades según su ubicación y sus zonas, ayudando a identificar áreas con alta o baja concentración de oferta inmobiliaria

Mapa de precios por zonas:

1. Análisis de Componentes Principales (PCA)

Primero concoer un poco como se relacionan las variables entre si, adicional recordar que: El PCA utiliza estas correlaciones para agrupar variables relacionadas en componentes principales, reduciendo la complejidad y facilitando la interpretación sin perder demasiada información.

preciom y areaconst:

La correlación es positiva y fuerte, lo que indica que a medida que el área construida aumenta, también tiende a aumentar el precio. Esto es común en bienes raíces, ya que las propiedades más grandes suelen ser más caras.

preciom y parqueaderos:

También hay una correlación positiva, sugiriendo que propiedades con más parqueaderos tienden a tener mayores precios.

preciom y banios:

La correlación es positiva, indicando que las propiedades con más baños tienden a tener precios más altos.

preciom y habitaciones:

Similar a los baños, una correlación positiva indica que más habitaciones generalmente están asociadas con precios más altos.

preciom y piso:

La correlación es menos fuerte, indicando que el número de pisos no tiene una relación tan directa con el precio como otras características.

areaconst y parqueaderos, banios, habitaciones:

La correlación es positiva entre estas variables, lo que sugiere que propiedades con más área construida tienden a tener más habitaciones, baños y parqueaderos.

otros pares de variables:

Generalmente muestran una tendencia de correlaciones positivas, indicando que propiedades más grandes y con más amenidades tienden a compartir más características entre sí.

Selección de Variables para PCA

Se seleccionaron las siguientes variables numéricas para el análisis de PCA:

Importancia de los Componentes Principales
Component Standard Deviation Proportion of Variance Cumulative Proportion
PC1 PC1 1.7742215 0.52464 0.52464
PC2 PC2 1.0545340 0.18534 0.70998
PC3 PC3 0.8924644 0.13275 0.84273
PC4 PC4 0.6585849 0.07229 0.91502
PC5 PC5 0.5624609 0.05273 0.96775
PC6 PC6 0.4398945 0.03225 1.00000

Análisis del Gráfico:

Ejes de Componentes:

PC1 (Primer Componente) explica el 52.46% de la varianza total, lo que indica que captura una parte significativa de la información. PC2 (Segundo Componente) explica el 18.53% de la varianza, lo cual, junto con PC1, ayuda a comprender el comportamiento general de los datos.

Distribución de Puntos:

Los puntos parecen estar dispersos y muestran diferentes agrupaciones de acuerdo con la variable categórica zona. Esto sugiere que las características de las casas en diferentes zonas suelen diferir notablemente.

Observando los clusters, identificamos patrones o grupos con ciertas características comunes.

Variedad de Zonas:

La representación por colores indica cómo se distribuyen las diferentes zonas en el espacio definido por los dos primeros componentes. Esto permite visualizar si hay una separación clara entre las zonas o si se superponen. Interpretación de Componentes:

Para proporcionar interpretaciones más específicas, sería útil analizar las cargas de los componentes (p.ej., qué variables contribuyen más a PC1 y PC2) para entender qué características se agrupan y cómo.

##                      PC1         PC2          PC3         PC4        PC5
## preciom       0.47332815  0.27959458  0.234567641  0.36589980 -0.2463549
## areaconst     0.48424705 -0.07745446 -0.008459717  0.54458886  0.5481304
## parqueaderos  0.40326266  0.35006198  0.388792203 -0.67782000  0.3122225
## banios        0.49319603 -0.01342284 -0.209600005 -0.09570771 -0.6930663
## habitaciones  0.35575540 -0.43744618 -0.613919183 -0.31378908  0.2190906
## piso         -0.09508028  0.77572222 -0.610670249  0.04976749  0.1141837
##                      PC6
## preciom      -0.66947141
## areaconst     0.40300138
## parqueaderos  0.08218025
## banios        0.47238173
## habitaciones -0.39839416
## piso          0.02796278

PC1 (Componente Principal 1):

área construida (areaconst): Tiene una carga alta (0.4842), indicando que viviendas más grandes tienden a tener un precio más elevado.

baños: Con carga de 0.4932, indica que más baños se asocian con precios mayores.

parqueaderos (parqueaderos) y habitaciones (habitaciones) tienen cargas más bajas, pero aún reflejan una cierta influencia positiva en el componente.

En resumen, PC1 parece representar un “componente de aceptación económica”, donde las viviendas más caras, con más área y más baños, dominan.

PC2 (Componente Principal 2):

piso tiene una carga muy alta de 0.7757. Esto indica que las viviendas ubicadas en pisos más altos están más asociadas a este componente.

habitaciones tiene una carga negativa de -0.4374, sugiriendo que un mayor número de habitaciones se relaciona inversamente con este componente.

PC2 sugiere una tendencia hacia viviendas en pisos altos, que pueden ser más deseables, y una ligera reducción en la relación con el número de habitaciones.

##2. Análisis de Conglomerados

Interpretación:

Cluster 1: Este grupo tiene un precio por metro cuadrado y un área construida altos. Las propiedades aquí son probablemente las más lujosas y se encuentran en zonas de mayor estrato socioeconómico. Cluster 2: Este grupo muestra características más moderadas, indicando que las propiedades son accesibles y están en zonas menos costosas. Cluster 3: A pesar de tener un precio y un área moderados, este clúster parece incluir propiedades en pisos más altos, lo que posiblemente indica una preferencia por la altura en áreas densamente pobladas.

El Cluster 1 (2,244 propiedades) representa un segmento más pequeño pero de alto valor. El Cluster 2 (5,076 propiedades) es el más grande, indicando que este segmento representa gran parte del mercado inmobiliario, posiblemente propiedades accesibles. El Cluster 3 (999 propiedades) sugiere que hay un interés por pisos altos, aunque su tamaño es pequeño.

El análisis de conglomerados ha proporcionado una visión clara de la segmentación del mercado inmobiliario, permitiendo clasificar las propiedades residenciales en tres grupos homogéneos basados en características clave, como el precio por metro cuadrado, el área construida, y la ubicación.

Segmentación del Mercado: Se identificaron tres clústeres distintos que reflejan las dinámicas de oferta en el mercado inmobiliario:

Cluster 1: Comprende propiedades de lujo con precios y áreas construidas superiores, que se encuentran en zonas de alto estrato socioeconómico. Este grupo representa una oportunidad significativa para inversiones en propiedades premium. Cluster 2: Representa el segmento mayoritario del mercado, compuesto por propiedades más accesibles con precios más bajos y áreas construidas más pequeñas. Este clúster es crucial para el desarrollo de estrategias dirigidas a compradores de vivienda asequible o familias jóvenes. Cluster 3: Incluye propiedades moderadas en términos de precio y área, pero con una notable característica de ubicación en pisos altos. Esto indica una tendencia hacia propiedades en edificios de altura, que pueden ser más atractivas en áreas urbanas densamente pobladas. Diferenciación Competitiva: La clara diferenciación entre clústeres sugiere que la empresa puede personalizar su enfoque comercial y marketing, ajustando las ofertas de propiedades a las particularidades de cada segmento. Esto permitirá maximizar las oportunidades de venta y satisfacer las necesidades específicas de los diferentes grupos de clientes.

Recomendaciones Estratégicas:

Enfoque en el Cluster 1: Desarrollar estrategias de marketing orientadas a atraer a personas de altos ingresos interesadas en propiedades de lujo. Atención al Cluster 2: Lanzar campañas promocionales dirigidas a este segmento mayoritario, posiblemente creando programas de financiamiento accesibles. Capitalizar el Cluster 3: Considerar desarrollos y ofertas que se centren en propiedades de pisos altos, especialmente en áreas urbanas donde se espera un crecimiento en la densidad poblacional.

3. Análisis de Correspondencia

Antes de realizar el análisis de correspondencia, es esencial preparar los datos adecuadamente:

Conversión de Variables: Se convierte la variable estrato a un tipo de factor. Esto es importante porque el análisis de correspondencia se realiza sobre datos categóricos.

Muestra aleatoria: Se toma una muestra de 4000 registros de la base de datos. Usar una muestra ayuda a reducir la complejidad del análisis y permite obtener resultados rápidos.

Se eliminan los registros con datos faltantes para obtener un conjunto de datos limpio. Luego, se crea una tabla cruzada que muestra la frecuencia de propiedades en cada combinación de zona y estrato.

Se realiza un test Chi-cuadrado para evaluar la relación entre las variables zona y estrato.

## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 1891.8, df = 12, p-value < 2.2e-16

El resultado del test Chi-cuadrado es significativo, con un valor X-squared de 1891.8 y un p-valor < 2.2e-16:

indican que existe una relación significativa entre la zona y el estrato socioeconómico. Esto implica que la distribución de propiedades varía según la zona y el estrato.

El análisis de correspondencia se realizó sobre la tabla cruzada, y se observaron los siguientes resultados:

Dim 1: 69.8% de la varianza explicada. Dim 2: 26.7% de la varianza explicada.

Esto significa que los dos primeros ejes (Dim 1 y Dim 2) capturan más del 96% de la información contenida en el conjunto de datos, lo cual es suficiente para representar la relación entre las variables eficientemente.

Elementos del Gráfico Ejes:

Dim 1 (69.8%): Representa la primera dimensión del análisis de correspondencia, que captura el 69.8% de la variabilidad de los datos. Dim 2 (26.7%): Captura el 26.7% de la variabilidad, lo que significa que juntas estas dimensiones explican una gran parte de la información.

Cada punto azul representa una zona específica (Zona Norte, Zona Sur, Zona Centro, Zona Oriente, Zona Oeste). El número asociado a algunos puntos indica la categoría del estrato socioeconómico, como Estrato 3, 4, 5, etc., representados por los triángulos rojos. Interpretación de Resultados Distribución de Zonas:

Zona Sur y Zona Norte: Se sitúan más hacia la parte inferior del gráfico, lo que sugiere una relación más favorable con los estratos medio y medio-alto (Estratos 4 y 5). Zona Oeste y Zona Este: Estas zonas están más alejadas, lo que puede indicar que ofrecen propiedades de menor accesibilidad financiera. Zona Centro:

Ubicada de manera intermedia, podría reflejar una relación más compleja, posiblemente con propiedades de alta gama, pero con poca oferta en comparación con las demandas del mercado. Zona Oriente:

Ella muestra una posición más favorable hacia el estrato alto, indicando una mayor concentración de propiedades en estratos altos. Implicaciones del Análisis Segmentación del Mercado:

El gráfico permite identificar las características que diferencian las áreas en términos de accesibilidad económica. Esto puede ayudar a los desarrolladores y agentes inmobiliarios a enfocar sus estrategias en función de las características de cada zona. Desarrollo Urbano:

La información derivada del análisis sugiere posibles áreas de expansión o mejora en términos de infraestructura y oferta de vivienda, especialmente en zonas que presentan alta demanda pero baja oferta. Planificación de Proyectos:

Comprender cómo se agrupan las zonas según los estratos puede guiar decisiones sobre desarrollo de proyectos de vivienda que atiendan a diferentes segmentos socioeconómicos.

La gráfica biplot del análisis de correspondencia ilustra cómo las diferentes zonas se relacionan con los distintos estratos. Esta representación visual es útil para identificar patrones y agrupaciones en el comportamiento de las propiedades. La primera dimensión probablemente refleja la tendencia general en el acceso a la vivienda, mientras que la segunda podría reflejar otras características relacionadas, como el tipo de vivienda disponible en esas zonas.

##CONCLUSIONES:

Los hallazgos del análisis de correspondencia ponen de manifiesto varias consideraciones importantes:

Segmentación Estratégica: La identificación de cómo las propiedades se distribuyen en diferentes zonas en función del estrato socioeconómico permite a la empresa inmobiliaria formular estrategias de marketing más efectivas. Por ejemplo, centrarse en el desarrollo de propiedades adecuadas para el Estrato 5 en la Zona Sur podría ofrecer oportunidades atractivas.

Desarrollo de Proyectos: Con la información sobre la relación entre zonas y estratos, la empresa puede tomar decisiones informadas sobre dónde invertir en nuevos proyectos, priorizando terrenos o áreas que muestren una mayor mezcla de estratos.

Tendencias de Mercado: El análisis revela dónde hay una alta concentración de propiedades en estratos específicos. Esto puede influir en las decisiones de precios y en la oferta de servicios adicionales que se pueden agregar para aumentar el valor de las propiedades.

Conclusiones del Análisis Holístico de Datos Inmobiliarios Identificación de Patrones y Segmentaciones:

El análisis de correspondencia y el PCA permitieron identificar patrones significativos en la relación entre variables como la zona y el estrato socioeconómico. Las zonas con propiedades de estratos más altos (como Zona Oriente) tienden a ofrecer propiedades más caras y con mayores amenities. Clusterización de Propiedades:

La segmentación de propiedades en diferentes conglomerados mostró que ciertas áreas, como la Zona Sur, tienen una mayor concentración de propiedades en estratos medio y alto. Esto sugiere que estas zonas podrían ser más atractivas para ciertos segmentos de compradores, permitiendo a los agentes inmobiliarios enfocar sus estrategias de marketing. Influencia en la Toma de Decisiones:

Los resultados del análisis Chi-cuadrado confirmaron una relación significativa entre el estrato y la zona, lo que implica que las decisiones sobre la compra y venta de propiedades deben considerar la ubicación y la accesibilidad económica de las propiedades. Análisis de Varianza:

El Screeplot mostró que las dimensiones 1 y 2 del análisis de correspondencia explican más del 95% de la varianza, lo que significa que estos ejes son suficientes para representar la mayoría de la información contenida en el conjunto de datos, ayudando a simplificar la toma de decisiones. Recomendaciones Estratégicas:

Desarrollo de Proyectos: Basado en las áreas identificadas como de alta demanda y bajo suministro, se pueden proponer proyectos de desarrollo que apunten a satisfacer la necesidad de viviendas en barrios potencialmente lucrativos. Marketing Targeted: Las empresas de bienes raíces pueden usar esta información para crear campañas de marketing más efectivas, dirigiéndose a segmentos específicos de la población según su estrato y las zonas de interés. Valoración de Propiedades:

Los hallazgos sobre las características influyentes como el tamaño, los baños y las habitaciones en conjunto con la ubicación pueden ser utilizados para realizar evaluaciones más precisas de las propiedades, ajustando los precios de manera que reflejen mejor la demanda del mercado. Futuras Investigaciones:

Se sugiere que futuros análisis integren otras variables como el tipo de propiedad, edad de la vivienda y características del barrio para enriquecer aún más el análisis. También se puede considerar un enfoque temporal que examine cómo estos patrones y relaciones evolucionan con el tiempo.