Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

Retos:

El reto principal consisten en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:

  1. Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.

  2. Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.

  3. Análisis de Correspondencia : Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.

  4. Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.

El informe final debe incluir análisis detallados de los resultados obtenidos, las conclusiones clave y las recomendaciones específicas para guiar las decisiones estratégicas de la empresa inmobiliaria. Se espera que este análisis de datos proporcione ventajas competitivas en el mercado, optimizando la inversión y maximizando los beneficios en un entorno altamente competitivo y en constante cambio.

Análisis exploratorio y tratamiento de los datos

  1. Revisión de datos faltantes por atributo:
                .
id              3
zona            3
piso         2638
estrato         3
preciom         2
areaconst       3
parqueaderos 1605
banios          3
habitaciones    3
tipo            3
barrio          3
longitud        3
latitud         3

 FALSE   TRUE 
103911   4275 
  1. Revisión de datos atípicos:

Anteriormente, se identificaron 4,275 registros con datos faltantes, principalmente en las columnas ‘piso’ (2,638 valores NA) y ‘parqueaderos’ (1,605 valores NA). Tambien se detectaron ´ tres filas con todos sus valores nulos, las cuales fueron eliminadas. A continuacion, se imputan los valores faltantes en la ´ columna ‘piso’ utilizando la mediana de ‘piso’ segun el tipo ´ de vivienda (apartamento y casa). En el caso de los parqueaderos, se imputo el valor ´ 0, considerando que algunas propiedades podrian no tener parqueadero y, por ende, no registrar esta informacion. ´ Respecto a los datos atípicos, se eliminaron los registros con precios superiores a 750, así como aquellos que mostraban la ausencia de baños o habitaciones. ˜ Además, la variable estrato se transformo en un tipo de datos texto y se excluyeron las variables id, longitud y latitud, ya ´ que no son relevantes para el tipo de analisis realizado en este ´ documento.

  1. Resultados después del tratamiento de datos :

Datos faltantes:

             .
zona         0
piso         0
estrato      0
preciom      0
areaconst    0
parqueaderos 0
banios       0
habitaciones 0
tipo         0
barrio       0

Datos atípicos:

Estructura final del dataset:

tibble [7,167 × 10] (S3: tbl_df/tbl/data.frame)
 $ zona        : chr [1:7167] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
 $ piso        : num [1:7167] 2 2 2 2 1 1 1 1 2 2 ...
 $ estrato     : chr [1:7167] "3" "3" "3" "4" ...
 $ preciom     : num [1:7167] 250 320 350 400 260 240 220 310 320 750 ...
 $ areaconst   : num [1:7167] 70 120 220 280 90 87 52 137 150 445 ...
 $ parqueaderos: num [1:7167] 1 1 2 3 1 1 2 2 2 0 ...
 $ banios      : num [1:7167] 3 2 2 5 2 3 2 3 4 7 ...
 $ habitaciones: num [1:7167] 6 3 4 3 3 3 3 4 6 6 ...
 $ tipo        : chr [1:7167] "Casa" "Casa" "Casa" "Casa" ...
 $ barrio      : chr [1:7167] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...

Análisis de componentes principales ACP

  1. Normalizar o escalar las variables númericas para que tengan una escala similar antes de realizar el análisis
           piso     preciom  areaconst parqueaderos     banios habitaciones
[1,] -0.7038852 -0.47803833 -0.7099601   -0.2586105  0.1113997    1.7284379
[2,] -0.7038852 -0.05276556 -0.2335252   -0.2586105 -0.6999838   -0.3911733
[3,] -0.7038852  0.12949420  0.7193446    0.7986978 -0.6999838    0.3153638
[4,] -0.7038852  0.43326047  1.2910665    1.8560062  1.7341666   -0.3911733
[5,] -1.1531857 -0.41728508 -0.5193861   -0.2586105 -0.6999838   -0.3911733
[6,] -1.1531857 -0.53879159 -0.5479722   -0.2586105  0.1113997   -0.3911733
  1. Matriz de correlación:

3.Análisis de componentes principales (PCA) con la funcion prcom:

Standard deviations (1, .., p=6):
[1] 1.7546305 1.0867632 0.8619474 0.6596917 0.5932363 0.4584125

Rotation (n x k) = (6 x 6):
                    PC1         PC2        PC3         PC4         PC5
piso          0.1632870 -0.68059140  0.6990504  0.06232323 -0.13007507
preciom      -0.4643250 -0.31825015 -0.1085611 -0.53601700  0.12229124
areaconst    -0.4817579  0.15063887  0.1273336 -0.23237281 -0.75705473
parqueaderos -0.3294689 -0.51934304 -0.5073676  0.58536172 -0.12822421
banios       -0.4995089 -0.03785737  0.1811373 -0.09462713  0.61272199
habitaciones -0.4093776  0.37639041  0.4394274  0.55063766  0.05589086
                     PC6
piso          0.02564087
preciom      -0.60750655
areaconst     0.31917771
parqueaderos  0.07225858
banios        0.57607675
habitaciones -0.43739936
  1. Visualización de la varianza explicada por cada componente mediante un grafico de barras

  1. Visualización de las variables en el espacio de los componentes principales obtenidas en PCA

  1. Visualización de la contribución de variables a los componentes principales:

Análisis de conglomerados

  1. Determinar el numero de clusters usando el método del codo:

El método del codo permite identificar que el numero óptimo de clusters es cuatro.

  1. Aplicar k-means para 4 clusters
##         piso    preciom  areaconst parqueaderos     banios habitaciones
## 1  2.2450766 -0.0758410 -0.4413774   0.04194415 -0.2685502 -0.454833377
## 2 -0.6063626  0.8986519  1.8066195   0.22262286  1.4628069  1.960038111
## 3 -0.2770388  0.8372235  0.2835083   0.76036329  0.5355771  0.007270675
## 4 -0.1910156 -0.7163007 -0.5421288  -0.51993651 -0.6411674 -0.415238766
  1. Visualización clusters

Análisis de correspondencia

  1. Creación tabla de contingencia para analizar las variables zona y estrato
              
               Estrato3 Estrato4 Estrato5 Estrato6
  Zona Centro       101       13        4        0
  Zona Norte        565      389      713      106
  Zona Oeste         48       80      250      436
  Zona Oriente      334        8        2        0
  Zona Sur          373     1589     1606      550
  1. Aplicación prueba chi-cuadrado

    Pearson's Chi-squared test

data:  tabla
X-squared = 3249.9, df = 12, p-value < 2.2e-16

El resultado indica que se rechaza la hipótesis de independencia de las variables (p-value: 0.0000), indicando existen relaciones entre sus categorías.

Finalmente se procede a realizar el análisis de correspondencia que consiste en estimar las coordenadas para cada uno de los niveles de ambas variables y representarlas en un plano cartesiano

Análisis de resultados

Análisis de componentes principales:

El análisis de componentes principales (ACP) revela que el primer componente principal (PC1) explica el 51.3% de la variabilidad en la base de datos, y que los cinco primeros componentes capturan el 96.6% de la información total. Esto indica que es posible resumir la mayor parte de los datos con un número reducido de componentes, lo que facilita la interpretación y reduce la complejidad del análisis.

El PC1 está altamente influenciado por variables relacionadas con el tamaño y el valor de la propiedad:

-Área construida (-0.48) -Baños (-0.50) -Habitaciones (-0.41) -Precio (-0.46) -Parqueaderos (-0.33) Dado que estas variables están correlacionadas, PC1 puede interpretarse como un indicador del tamaño y costo de la vivienda, donde valores más altos en este componente representan propiedades más grandes y costosas.

El análisis de la matriz de correlación confirma que algunas variables contienen información redundante. Por ejemplo, precio, baños, área construida y habitaciones están altamente correlacionados entre sí (≥ 0.60), lo que sugiere que se pueden excluir algunas sin perder información clave.

Para reducir la dimensionalidad y optimizar el modelo, se plantean exluir habitaciones o baños, area construida o precio, piso.

Análisis de clusters o conglomerados:

El método del codo determinó que el número óptimo de clústeres es 4, agrupando las viviendas de la siguiente manera:

  1. Clúster 1: Viviendas en pisos altos, de menor tamaño y con menos habitaciones, con un precio cercano al promedio.
  2. Clúster 2: Viviendas grandes y costosas, con más habitaciones y baños, ubicadas en pisos bajos.
  3. Clúster 3: Viviendas de tamaño y precio moderado, pero con más parqueaderos, lo que podría indicar propiedades con mejor infraestructura para estacionamiento.
  4. Clúster 4: Viviendas más pequeñas y económicas, con menos parqueaderos y ubicadas en pisos bajos.

Análisis de correspondencia:

El test de independencia de Chi-Cuadrado indica que existe una asociación estadísticamente significativa entre las variables Zona y Estrato (p-value < 2.2e-16). Esto sugiere que la distribución de los estratos varía dependiendo de la zona, lo que refleja patrones de segmentación urbana en términos de nivel socioeconómico.

El análisis de correspondencia permite visualizar estas relaciones en un espacio de baja dimensión. Los principales hallazgos son:

  1. Las zonas Norte y Oeste están asociadas con los estratos más altos (5 y 6), aunque el Norte presenta mayor diversidad.
  2. El Centro y Oriente tienen una fuerte asociación con el estrato 3, con una presencia mínima de estratos altos.
  3. El Sur muestra una combinación predominante de estratos 4 y 5, con una cantidad considerable de viviendas en estrato 6.
  4. El Oeste está claramente vinculado a los estratos más altos, lo que lo convierte en una zona de alto nivel socioeconómico.

Conclusiones y recomendaciones

El análisis de clústeres y correspondencia proporciona información clave para optimizar la oferta inmobiliaria y definir estrategias comerciales y urbanísticas basadas en la segmentación del mercado y la distribución socioeconómica por zonas.

Desde la perspectiva del análisis de clústeres, se pueden clasificar las viviendas según su tamaño, precio y características clave, lo que facilita la implementación de estrategias de venta y atracción de inversionistas. El tamaño y el valor de la propiedad son los principales factores que explican la variabilidad en el mercado inmobiliario. Sin embargo, otros elementos como el número de parqueaderos y la ubicación en altura (piso) también influyen en la caracterización de los inmuebles, lo que sugiere que estos factores deben considerarse al segmentar el mercado y definir estrategias comerciales.

Al identificar qué tipos de vivienda tienen mayor demanda, es posible ajustar la oferta en consecuencia, optimizando así el portafolio inmobiliario. Además, este enfoque permite maximizar la rentabilidad, ya que se pueden focalizar los esfuerzos en clústeres con mayor atractivo comercial, como viviendas grandes y costosas, ideales para inversionistas, o viviendas más accesibles y bien ubicadas, que pueden captar a un segmento más amplio del mercado. Por otro lado, la revisión de precios dentro de cada clúster permite determinar si están alineados con las características del grupo y, en caso necesario, ajustar las estrategias de fijación de precios para mejorar la competitividad del producto inmobiliario.

Por su parte, el análisis de correspondencia, al revelar la relación entre zona y estrato, permite definir estrategias diferenciadas de precios y oferta por ubicación. La distribución de los estratos puede guiar decisiones sobre infraestructura, transporte y desarrollo de servicios, asegurando que las inversiones estén alineadas con las características y necesidades de cada zona.

En términos de inversión estratégica, los resultados sugieren que para maximizar la rentabilidad en sectores de alto poder adquisitivo, las zonas Norte y Oeste son clave, ya que concentran un mayor número de viviendas en estratos altos. En cambio, si se busca invertir en vivienda de interés medio, las zonas Sur y Centro presentan oportunidades atractivas, con una combinación predominante de estratos 4 y 5.