Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
El reto principal consisten en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:
Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.
Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.
Análisis de Correspondencia : Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.
Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.
El informe final debe incluir análisis detallados de los resultados obtenidos, las conclusiones clave y las recomendaciones específicas para guiar las decisiones estratégicas de la empresa inmobiliaria. Se espera que este análisis de datos proporcione ventajas competitivas en el mercado, optimizando la inversión y maximizando los beneficios en un entorno altamente competitivo y en constante cambio.
.
id 3
zona 3
piso 2638
estrato 3
preciom 2
areaconst 3
parqueaderos 1605
banios 3
habitaciones 3
tipo 3
barrio 3
longitud 3
latitud 3
FALSE TRUE
103911 4275
Anteriormente, se identificaron 4,275 registros con datos faltantes, principalmente en las columnas ‘piso’ (2,638 valores NA) y ‘parqueaderos’ (1,605 valores NA). Tambien se detectaron ´ tres filas con todos sus valores nulos, las cuales fueron eliminadas. A continuacion, se imputan los valores faltantes en la ´ columna ‘piso’ utilizando la mediana de ‘piso’ segun el tipo ´ de vivienda (apartamento y casa). En el caso de los parqueaderos, se imputo el valor ´ 0, considerando que algunas propiedades podrian no tener parqueadero y, por ende, no registrar esta informacion. ´ Respecto a los datos atípicos, se eliminaron los registros con precios superiores a 750, así como aquellos que mostraban la ausencia de baños o habitaciones. ˜ Además, la variable estrato se transformo en un tipo de datos texto y se excluyeron las variables id, longitud y latitud, ya ´ que no son relevantes para el tipo de analisis realizado en este ´ documento.
Datos faltantes:
.
zona 0
piso 0
estrato 0
preciom 0
areaconst 0
parqueaderos 0
banios 0
habitaciones 0
tipo 0
barrio 0
Datos atípicos:
Estructura final del dataset:
tibble [7,167 × 10] (S3: tbl_df/tbl/data.frame)
$ zona : chr [1:7167] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
$ piso : num [1:7167] 2 2 2 2 1 1 1 1 2 2 ...
$ estrato : chr [1:7167] "3" "3" "3" "4" ...
$ preciom : num [1:7167] 250 320 350 400 260 240 220 310 320 750 ...
$ areaconst : num [1:7167] 70 120 220 280 90 87 52 137 150 445 ...
$ parqueaderos: num [1:7167] 1 1 2 3 1 1 2 2 2 0 ...
$ banios : num [1:7167] 3 2 2 5 2 3 2 3 4 7 ...
$ habitaciones: num [1:7167] 6 3 4 3 3 3 3 4 6 6 ...
$ tipo : chr [1:7167] "Casa" "Casa" "Casa" "Casa" ...
$ barrio : chr [1:7167] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
piso preciom areaconst parqueaderos banios habitaciones
[1,] -0.7038852 -0.47803833 -0.7099601 -0.2586105 0.1113997 1.7284379
[2,] -0.7038852 -0.05276556 -0.2335252 -0.2586105 -0.6999838 -0.3911733
[3,] -0.7038852 0.12949420 0.7193446 0.7986978 -0.6999838 0.3153638
[4,] -0.7038852 0.43326047 1.2910665 1.8560062 1.7341666 -0.3911733
[5,] -1.1531857 -0.41728508 -0.5193861 -0.2586105 -0.6999838 -0.3911733
[6,] -1.1531857 -0.53879159 -0.5479722 -0.2586105 0.1113997 -0.3911733
3.Análisis de componentes principales (PCA) con la funcion prcom:
Standard deviations (1, .., p=6):
[1] 1.7546305 1.0867632 0.8619474 0.6596917 0.5932363 0.4584125
Rotation (n x k) = (6 x 6):
PC1 PC2 PC3 PC4 PC5
piso 0.1632870 -0.68059140 0.6990504 0.06232323 -0.13007507
preciom -0.4643250 -0.31825015 -0.1085611 -0.53601700 0.12229124
areaconst -0.4817579 0.15063887 0.1273336 -0.23237281 -0.75705473
parqueaderos -0.3294689 -0.51934304 -0.5073676 0.58536172 -0.12822421
banios -0.4995089 -0.03785737 0.1811373 -0.09462713 0.61272199
habitaciones -0.4093776 0.37639041 0.4394274 0.55063766 0.05589086
PC6
piso 0.02564087
preciom -0.60750655
areaconst 0.31917771
parqueaderos 0.07225858
banios 0.57607675
habitaciones -0.43739936
El método del codo permite identificar que el numero óptimo de clusters es cuatro.
## piso preciom areaconst parqueaderos banios habitaciones
## 1 2.2450766 -0.0758410 -0.4413774 0.04194415 -0.2685502 -0.454833377
## 2 -0.6063626 0.8986519 1.8066195 0.22262286 1.4628069 1.960038111
## 3 -0.2770388 0.8372235 0.2835083 0.76036329 0.5355771 0.007270675
## 4 -0.1910156 -0.7163007 -0.5421288 -0.51993651 -0.6411674 -0.415238766
Estrato3 Estrato4 Estrato5 Estrato6
Zona Centro 101 13 4 0
Zona Norte 565 389 713 106
Zona Oeste 48 80 250 436
Zona Oriente 334 8 2 0
Zona Sur 373 1589 1606 550
Pearson's Chi-squared test
data: tabla
X-squared = 3249.9, df = 12, p-value < 2.2e-16
El resultado indica que se rechaza la hipótesis de independencia de las variables (p-value: 0.0000), indicando existen relaciones entre sus categorías.
Finalmente se procede a realizar el análisis de correspondencia que consiste en estimar las coordenadas para cada uno de los niveles de ambas variables y representarlas en un plano cartesiano
El análisis de componentes principales (ACP) revela que el primer componente principal (PC1) explica el 51.3% de la variabilidad en la base de datos, y que los cinco primeros componentes capturan el 96.6% de la información total. Esto indica que es posible resumir la mayor parte de los datos con un número reducido de componentes, lo que facilita la interpretación y reduce la complejidad del análisis.
El PC1 está altamente influenciado por variables relacionadas con el tamaño y el valor de la propiedad:
-Área construida (-0.48) -Baños (-0.50) -Habitaciones (-0.41) -Precio (-0.46) -Parqueaderos (-0.33) Dado que estas variables están correlacionadas, PC1 puede interpretarse como un indicador del tamaño y costo de la vivienda, donde valores más altos en este componente representan propiedades más grandes y costosas.
El análisis de la matriz de correlación confirma que algunas variables contienen información redundante. Por ejemplo, precio, baños, área construida y habitaciones están altamente correlacionados entre sí (≥ 0.60), lo que sugiere que se pueden excluir algunas sin perder información clave.
Para reducir la dimensionalidad y optimizar el modelo, se plantean exluir habitaciones o baños, area construida o precio, piso.
El método del codo determinó que el número óptimo de clústeres es 4, agrupando las viviendas de la siguiente manera:
El test de independencia de Chi-Cuadrado indica que existe una asociación estadísticamente significativa entre las variables Zona y Estrato (p-value < 2.2e-16). Esto sugiere que la distribución de los estratos varía dependiendo de la zona, lo que refleja patrones de segmentación urbana en términos de nivel socioeconómico.
El análisis de correspondencia permite visualizar estas relaciones en un espacio de baja dimensión. Los principales hallazgos son:
El análisis de clústeres y correspondencia proporciona información clave para optimizar la oferta inmobiliaria y definir estrategias comerciales y urbanísticas basadas en la segmentación del mercado y la distribución socioeconómica por zonas.
Desde la perspectiva del análisis de clústeres, se pueden clasificar las viviendas según su tamaño, precio y características clave, lo que facilita la implementación de estrategias de venta y atracción de inversionistas. El tamaño y el valor de la propiedad son los principales factores que explican la variabilidad en el mercado inmobiliario. Sin embargo, otros elementos como el número de parqueaderos y la ubicación en altura (piso) también influyen en la caracterización de los inmuebles, lo que sugiere que estos factores deben considerarse al segmentar el mercado y definir estrategias comerciales.
Al identificar qué tipos de vivienda tienen mayor demanda, es posible ajustar la oferta en consecuencia, optimizando así el portafolio inmobiliario. Además, este enfoque permite maximizar la rentabilidad, ya que se pueden focalizar los esfuerzos en clústeres con mayor atractivo comercial, como viviendas grandes y costosas, ideales para inversionistas, o viviendas más accesibles y bien ubicadas, que pueden captar a un segmento más amplio del mercado. Por otro lado, la revisión de precios dentro de cada clúster permite determinar si están alineados con las características del grupo y, en caso necesario, ajustar las estrategias de fijación de precios para mejorar la competitividad del producto inmobiliario.
Por su parte, el análisis de correspondencia, al revelar la relación entre zona y estrato, permite definir estrategias diferenciadas de precios y oferta por ubicación. La distribución de los estratos puede guiar decisiones sobre infraestructura, transporte y desarrollo de servicios, asegurando que las inversiones estén alineadas con las características y necesidades de cada zona.
En términos de inversión estratégica, los resultados sugieren que para maximizar la rentabilidad en sectores de alto poder adquisitivo, las zonas Norte y Oeste son clave, ya que concentran un mayor número de viviendas en estratos altos. En cambio, si se busca invertir en vivienda de interés medio, las zonas Sur y Centro presentan oportunidades atractivas, con una combinación predominante de estratos 4 y 5.