Este informe tiene como proposito analizar el comportamiento del mercado de vivienda a partir de un conjunto de datos inmobiliarios, aplicando diferentes técnicas estadísticas para identificar patrones, relaciones y segmentos relevantes. Para ello se realizará primero una revision exploratoria de la base de datos, seguida de metodos de reducción de dimensionalidad, segmentación y análisis de asociación entre variables cualitativas, con el objetivo de interpretar la estructura del mercado y aportar informacion util para la toma de decisiones.
En esta primera etapa se realizara una revisión general de la base de datos con el fin de conocer su estructura, identificar los tipos de variables y evaluar la calidad de la información disponible. Se analizaran las dimensiones del conjunto de datos, la presencia de valores faltantes y las características principales de las variables numericas y categoricas, para comprender el comportamiento inicial del mercado de vivienda antes de aplicar métodos estadísticos.
La base de datos vivienda contiene información del mercado inmobiliario urbano y está compuesta por 8322 observaciones y 13 variables. Cada observación representa una vivienda con características físicas, económicas y de localización. Las variables del dataset permiten describir tanto aspectos estructurales del inmueble (area construida, numero de habitaciones, baños y parqueaderos), como características socioeconómicas y espaciales (estrato, zona, barrio y coordenadas geográficas).
[1] 8322 13
Variable Tipo
id id numeric
zona zona character
piso piso character
estrato estrato numeric
preciom preciom numeric
areaconst areaconst numeric
parqueaderos parqueaderos numeric
banios banios numeric
habitaciones habitaciones numeric
tipo tipo character
barrio barrio character
longitud longitud numeric
latitud latitud numeric
id zona piso estrato preciom areaconst
"numeric" "character" "character" "numeric" "numeric" "numeric"
parqueaderos banios habitaciones tipo barrio longitud
"numeric" "numeric" "numeric" "character" "character" "numeric"
latitud
"numeric"
La base de datos está compuesta por 9 variables numéricas y 4 variables categóricas. De las variables numericas la variable id, aunque es numérica, corresponde a un identificador y no se incluira en el análisis descriptivo por no tener valor o interpretación estadística. Las variables numéricas describen características físicas, económicas y de localización de las viviendas, mientras que las variables categóricas corresponden al tipo y ubicación del inmueble.
estrato preciom areaconst parqueaderos
Min. :3.000 Min. : 58.0 Min. : 30.0 Min. : 1.000
1st Qu.:4.000 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000
Median :5.000 Median : 330.0 Median : 123.0 Median : 2.000
Mean :4.634 Mean : 433.9 Mean : 174.9 Mean : 1.835
3rd Qu.:5.000 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000
Max. :6.000 Max. :1999.0 Max. :1745.0 Max. :10.000
NA's :3 NA's :2 NA's :3 NA's :1605
banios habitaciones longitud latitud
Min. : 0.000 Min. : 0.000 Min. :-76.59 Min. :3.333
1st Qu.: 2.000 1st Qu.: 3.000 1st Qu.:-76.54 1st Qu.:3.381
Median : 3.000 Median : 3.000 Median :-76.53 Median :3.416
Mean : 3.111 Mean : 3.605 Mean :-76.53 Mean :3.418
3rd Qu.: 4.000 3rd Qu.: 4.000 3rd Qu.:-76.52 3rd Qu.:3.452
Max. :10.000 Max. :10.000 Max. :-76.46 Max. :3.498
NA's :3 NA's :3 NA's :3 NA's :3
El análisis descriptivo se realizó únicamente sobre las variables numéricas, dado que las variables categóricas y el identificador no presentan una interpretación apropiada bajo medidas de tendencia central. Las medidas de tendencia central de las variables numéricas muestra una alta variabilidad en el mercado inmobiliario, especialment en el precio y el área construida, con rangos amplios y medias superiores a las medianas, lo que indica la presencia de viviendas de alto valor que influyen en el promedio. Por otro lado, la mediana indica que la mayoría de los inmuebles cuenta con alrededor de 3 habitaciones, 3 baños y 2 parqueaderos. Por otro lado, las coordenadas geográficas presentan rangos acotados, lo que indica una concentración de las viviendas en un zona urbana específica.
id zona piso estrato preciom areaconst
3 3 2638 3 2 3
parqueaderos banios habitaciones tipo barrio longitud
1605 3 3 3 3 3
latitud
3
Al revisar los valores faltantes del dataset, se observa que la variable piso es la que presenta la mayor cantidad de datos faltantes (2.638 registros), seguida de parqueaderos con 1.605 registros. Las demás variables tienen muy pocos valores faltantes, entre 2 y 3, por lo que su impacto en el análisis es mínimo. Por esta razón, las variables piso y parqueaderos requieren un tratamiento especial en la etapa de limpieza de los datos.
[1] 3514
Podemos observar que hay 3514 registros que presentan al menos un valor faltante en alguna de las variables de la base de datos. Esto significa que, de las 8322 observaciones, aproximadamente el 42 % tiene información incompleta en al menos una variable, debido a la presencia de valores faltantes en variables categóricas como piso. Estos datos no se corrigen en esta etapa y se tratarán según la técnica de análisis aplicada posteriormente.
[1] 4808 13
[1] 0
originales finales perdidas
8322 4808 3514
Al eliminar registros con datos faltantes, la base de datos pasó de 8.322 registros originales a 4.808 registros completos, eliminándose 3.514 observaciones que contenían al menos un valor faltante.
En esta sección se aplicara el analisis de componentes principales con el propósito de reducir la dimensionalidad del conjunto de datos numericos y resumir la información en un menor número de variables mucho mas representativas. Esto permitira identificar las principales características que explican la variabilidad del mercado de vivienda y permite la interpretación posterior de los patrones presentes en los datos.
preciom areaconst parqueaderos banios
Min. :-1.2259 Min. :-0.9745 Min. :-0.7415 Min. :-2.3824
1st Qu.:-0.6532 1st Qu.:-0.6491 1st Qu.:-0.7415 1st Qu.:-0.9023
Median :-0.3292 Median :-0.3743 Median : 0.1682 Median :-0.1622
Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
3rd Qu.: 0.3157 3rd Qu.: 0.3633 3rd Qu.: 0.1682 3rd Qu.: 0.5778
Max. : 4.7350 Max. : 9.5828 Max. : 7.4458 Max. : 5.0182
habitaciones
Min. :-2.6783
1st Qu.:-0.4241
Median :-0.4241
Mean : 0.0000
3rd Qu.: 0.3273
Max. : 4.8356
Aqui se observan las medidas de tendencia central y dispersión de las variables numéricas estandarizadas. Se observa que todas las variables tienen media igual a 0, lo cual confirma que fueron correctamente centradas durante el proceso de estandarización. Asimismo, los valores mínimo y máximo indican la dispersión en unidades de desviación estándar, permitiendo comparar las variables en una misma escala antes de aplicar el análisis de componentes principales.
El gráfico de patrón de datos faltantes muestra que no se presentan valores ausentes en las variables analizadas, confirmando que la base utilizada para el PCA está completamente depurada.
PC1 PC2 PC3 PC4 PC5
preciom 0.465 0.411 0.373 -0.160 0.671
areaconst 0.481 -0.060 0.440 0.650 -0.385
parqueaderos 0.437 0.426 -0.766 0.177 -0.097
banios 0.484 -0.136 0.094 -0.716 -0.476
habitaciones 0.357 -0.792 -0.268 0.086 0.407
Importance of components:
PC1 PC2 PC3 PC4 PC5
Standard deviation 1.8225 0.9092 0.58873 0.56265 0.43457
Proportion of Variance 0.6643 0.1653 0.06932 0.06332 0.03777
Cumulative Proportion 0.6643 0.8296 0.89891 0.96223 1.00000
La Tabla # 6 presenta las cargas de cada variable en los componentes principales, mostrando cómo cada una contribuye a su formación. La Tabla # 7 indica que los dos primeros componentes explican el 82.96% de la variabilidad total, por lo que es posible reducir el análisis a dos componentes sin perder información relevante.
Aqui podemos observar la proporción de varianza explicada por cada componente principal. Se observa que el primer componente explica el 66.4% de la variabilidad total, seguido por el segundo con 16.5%. A partir del tercer componente la contribución disminuye, lo que respalda la selección de los dos primeros componentes para la reducción de dimensionalidad.
En el círculo de correlaciones se observa que las variables precio y parqueaderos se encuentran cercanas entre sí, lo que indica una alta correlación positiva entre ellas. Igualmente, la variable area construida y baños también presentan una fuerte relacion, ya que sus vectores apuntan en direcciones similares. Esto muestra que estas variables tienden a aumentar conjuntamente en las viviendas analizadas.
En el gráfico se observa que todas las variables apuntan hacia la derecha, lo que indica que el primer componente principal (66.4%) muestra el comportamiento general donde las viviendas con mayor área construida tienden a tener más baños, más parqueaderos y mayor precio. Este componente muestra la tendencia general relacionada con el tamaño y nivel del inmueble. El segundo componente (16.5%) tiene una diferencia principal, ya que separa viviendas con más parqueaderos y mayor precio frente a aquellas con más habitaciones, mostrando una segunda forma de distinguir las viviendas.
El análisis de componentes principales permitió reducir la dimensionalidad del conjunto de datos y comprender mejor la estructura del mercado inmobiliario. Se identificó que el primer componente explica la mayor parte de la variabilidad y tiene un comportamiento general donde las viviendas con mayor área construida tienden a tener más baños, parqueaderos y mayor precio. El segundo componente segundo ayuda a distinguir mejor diferencias relacionadas con la distribución interna de las viviendas. Los dos primeros componentes explican más del 80% de la variabilidad total, lo que permite trabajar con estas dos dimensiones para representar de manera más simple la información del conjunto de datos. Además, este análisis permitió identificar que variables como el área construida, los baños y los parqueaderos influyen de manera importante en la variacion de precios y en como se caracterizan las viviendas dentro del mercado.
A partir de los componentes obtenidos previamente, se realizara un análisis de conglomerados con el proposito de agrupar las viviendas segun sus similitudes. Esta técnica estadistica permite segmentar el mercado inmobiliario en grupos homogeneos, facilitando la identificación de perfiles de vivienda con características similares y permitiendo comprender la estructura general del mercado.
| cluster | n_viviendas | Precio_promedio | Area_promedio | Parqueaderos_prom | Banios_prom | Habitaciones_prom |
|---|---|---|---|---|---|---|
| 1 | 4443 | -0.08 | -0.15 | -0.10 | -0.11 | -0.18 |
| 2 | 231 | 0.24 | 1.11 | -0.13 | 0.95 | 2.61 |
| 3 | 29 | 2.58 | 5.62 | 2.77 | 1.75 | 0.92 |
| 4 | 105 | 2.29 | 2.15 | 3.58 | 2.02 | 1.59 |
En esta tabla observamos que el mercado inmobiliario se divide en cuatro grupos diferenciados. El conglomerado 1 reúne la mayoría de las viviendas con características cercanas o un poco inferiores al promedio, mientras que los conglomerados 2, 3 y 4 agrupan viviendas de mayor tamaño y precio, en especial el conglomerado 3 como el más exclusivo.
Se utiliza una muestra aleatoria de 50 observaciones para poder visualizarlo de mejor manera dado que el dendrograma completo dificulta la visualización. El dendrograma indica la formacion de cuatro grupos diferenciados, observandose un aumento notable en la distancia cuando estos comienzan a unirse, lo que justifica la seleccion de cuatro conglomerados. Esta estructura muestra que las viviendas dentro de cada grupo son similares entre si y distintas de las de otros grupos, lo que respalda la segmentación aplicada.
Coeficiente de Silhouette promedio k=4 : 0.437581
El gráfico presenta los principales incrementos de distancia durante el proceso de agrupamiento jerárquico. Se observa un fuerte aumento en las últimas uniones, lo que indica que a partir de ese punto se comienza a combinar grupos con características diferentes. Por esta razon, el corte previo al salto permite identificar cuatro conglomerados homogeneos, coherentes con la estructura y el corte observado en el Grafico #4. Adicionalmente, el coeficiente promedio de Silhouette obtenido (0.44) indica una separación correcta entre los grupos, confirmando que la partición en cuatro conglomerados permite distinguir los distintos perfiles de vivienda del mercado.
El gráfico # 6 presenta la distribución de las viviendas en el plano definido por los dos primeros componentes principales, coloreadas según el conglomerado al que pertenecen. Se observa una separación entre los grupos, lo que indica que las viviendas clasificadas en cada clúster comparten características similares y se diferencian de las de otros grupos. Aunque la representación se realiza sobre una muestra de 50 observaciones para mejorar la visualizacion, la estructura de agrupamiento es consistente con la obtenida en el análisis jerárquico, lo que respalda la validez de la segmentación del mercado inmobiliario.
La segmentación obtenida indica que el mercado inmobiliario no es uniforme, sino que se organiza en grupos de viviendas con perfiles diferentes en cuanto a precio y características estructurales. Esto permite identificar distintos niveles de oferta dentro de la ciudad, desde opciones más accesibles hasta propiedades de mayor exclusividad, permitiendo una mejor comprensión de cómo se distribuyen y compiten los distintos tipos de vivienda en el mercado.
En esta etapa se empleara el analisis de correspondencia para entender la relacion entre variables categoricas asociadas a la ubicación y el tipo de vivienda. Este metodo permite identificar patrones de asociación entre sectores de la ciudad y tipos de inmueble, generando una visión territorial del mercado que complementa la segmentación que se hizo previamente.
Para el análisis de correspondencia se utilizaran unicamente variables de tipo cualitativo, ya que esta técnica estadística permite estudiar asociaciones entre categorías y no entre valores numéricos. De acuerdo con la Tabla #2, las variables cualitativas en la base de datos corresponden a aquellas relacionadas con la tipología y la localización del inmueble. Por lo tanto, las variables consideradas para el análisis seran: tipo de vivienda (tipo), zona y barrio.
3 4 5 6
Zona Centro 33 3 0 0
Zona Norte 141 184 482 79
Zona Oeste 19 51 181 502
Zona Oriente 94 2 1 0
Zona Sur 147 973 1195 721
La tabla muestra que la cantidad de viviendas no es uniforme entre zonas, destacándose la Zona Sur por concentrar la mayor proporción de registros, mientras que la Zona Centro presenta una participación reducida.
Pearson's Chi-squared test
data: tabla_ze
X-squared = 2172.8, df = 12, p-value < 2.2e-16
La prueba Chi-cuadrado indica un valor p menor a 0.05, por lo que se rechaza la hipótesis de independencia y se confirma la existencia de relación entre zona y estrato.
eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.29526876 65.338252 65.33825
dim 2 0.13919088 30.800716 96.13897
dim 3 0.01744831 3.861032 100.00000
Según los resultados de la Tabla # 9, la prueba Chi-cuadrado y el Gráfico# 7, se concluye que la distribución de las viviendas presenta una asociación clara entre la zona y el nivel socioeconómico. La Zona Sur esta vinculada principalmente con estratos medios y altos, la Zona Norte con el estrato medio y la Zona Oeste con estratos altos. Por otro lado, la Zona Oriente esta asociada con estratos bajos y la Zona Centro muestra baja representación en la base de datos. Por lo tanto, se puede decir que hay una diferenciación territorial del mercado inmobiliario según el nivel socioeconómico.
Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
Apartamento 4 632 669 17 1860
Casa 32 254 84 80 1176
Esta tabla indica que los apartamentos predominan en la mayoría de las zonas, especialmente en la Zona Sur y Zona Oeste, mientras que las casas presentan menor participación general y mayor presencia relativa en la Zona Sur y Zona Oriente.
Pearson's Chi-squared test
data: tabla_tz
X-squared = 367.47, df = 4, p-value < 2.2e-16
La prueba Chi-cuadrado da como resultado un valor p menor a 0.05, por lo que se rechaza la hipótesis de independencia y se confirma la existencia de relación entre el tipo de vivienda y la zona.
[,1]
Zona Centro 1.1640488
Zona Norte -0.1088681
Zona Oeste -0.4790451
Zona Oriente 1.0284587
Zona Sur 0.1039235
Según los resultados de la Tabla # 10, la prueba Chi-cuadrado y la Tabla # 11, se concluye que existe una asociación entre el tipo de vivienda y la zona de la ciudad. La distribución muestra que los apartamentos son superiores en la mayoría de las zonas, mientras que las casas tienen una participación menor. A partir de las coordenadas del análisis de correspondencia, se observa que las Zonas Centro y Oriente se ubican en el mismo sentido del eje, indicando una tendencia con un mismo tipo de vivienda, mientras que la Zona Oeste y la Zona Norte se situan en el extremo opuesto. Por otro lado, la Zona Sur presenta una posición cercana al origen, lo que indica una combinación de ambos tipos de vivienda. Esto en conjunto evidencia una diferenciación espacial del mercado inmobiliario según el tipo de vivienda.
Apartamento Casa
-0.1976241 0.3867404
En esta tabla que a diferencia de la anterior que mostraba la ubicación de las zonas, aquí se observa la posicion de cada tipo de vivienda, lo que permite identificar hacia qué zonas tiende cada tipo de vivienda y complementar la interpretación de la relación entre ambas variables. Se encontró que apartamentos y casas se localizan en direcciones opuestas del eje, indicando que cada tipo de vivienda predomina en zonas diferentes de la ciudad. Podemos observar que apartamentos y casas se localizan en direcciones opuestas del eje, indicando que cada tipo de vivienda predomina en zonas diferentes de la ciudad.
Los analisis realizados muestran que las caracteristicas de la vivienda no se distribuyen de manera aleatoria dentro de la ciudad, sino que siguen un orden según su ubicacion. El cruce entre zona y estrato permitio identificar cómo se organiza el nivel socioeconomico en el territorio, mientras que el cruce entre tipo de vivienda y zona ayudo a reconocer qué tipo de inmueble predomina en cada sector. Segun las tablas #11 y #12, se observa que las casas tienden a asociarse con las zonas centro y oriente y parcialmente la zona sur, mientras que los apartamentos se relacionan con las zonas norte y oeste. En general, se observan tendencias en la oferta inmobiliaria como que en algunas zonas agrupan viviendas de caracteristicas similares y otras presentan mayor mezcla de ambos tipos de vivienda, lo que indica diferentes niveles de desarrollo urbano. Por esta razón se analizaron estos cruces, ya que permiten comprender la organizacion territorial del mercado de vivienda y facilitan la interpretación global de los resultados.
En esta seccion se presentaran los principales hallazgos mediante representaciones graficas, con el fin de facilitar su interpretacion. A partir de estas visualizaciones se describen las tendencias y patrones identificados en el mercado de vivienda, para poder comprender de forma clara la distribución, concentración y características principales de los dos tipo de inmueble en la ciudad.
El grafico muestra la distribución espacial de las viviendas según el conglomerado asignado previamente. Se observa que uno de los grupos concentra la mayor parte de los inmuebles y se encuentra distribuido en gran parte de la ciudad, mientras que los demás conglomerados aparecen en zonas más específicas. También se evidencia mezcla entre grupos en areas intermedias, lo que indica que el mercado no está completamente segmentado geográficamente sino que presenta transiciones entre sectores.
El grafico presenta la distribucion espacial de las viviendas segun su tipo. Se observa que los apartamentos tienen mayor presencia en gran parte de la ciudad, especialmente en zonas de mayor densidad, mientras que las casas aparecen con mayor frecuencia en sectores más dispersos. También se observan areas donde ambos tipos estan presentes, lo que indica que el mercado inmobiliario no está completamente separado por tipo de vivienda sino que presenta una mezcla entre sectores.
El grafico muestra la cantidad de viviendas en cada conglomerado. Se observa que el conglomerado 1 concentra la mayor parte de los inmuebles, mientras que los demás grupos presentan una participación considerablemente menor. Esto confirma que el mercado inmobiliario está dominado por un perfil de vivienda, mientras que los otros conglomerados representan segmentos más específicos dentro de la oferta.
Los graficos permiten entender de manera clara como esta organizado el mercado inmobiliario en la ciudad. Se observan zonas con comportamientos diferentes y un grupo principal junto con otros más especificos. Tambien se identifican sectores donde tienen mayor presencia apartamentos, otros donde hay mas casas y zonas donde ambos tipos se mezclan. Ademas, la cantidad de viviendas confirma la importancia de cada grupo dentro de la oferta. En general, estas visualizaciones ayudan a comprender el mercado y sirven como apoyo para la toma de decisiones de la direccion.
El analisis realizado a lo largo de este informe permitio identificar patrones claros dentro del mercado inmobiliario, evidenciando que la oferta no es homogenea sino organizada en distintos segmentos relacionados tanto a caracteristicas fisicas de la vivienda como a su ubicacion en la ciudad. Se reconoció un perfil dominante junto con otros grupos mas especificos, lo que indica la existencia de nichos diferentes dentro del mercado. El analisis estadístico y la visualización espacial permitio comprender la distribución territorial de la oferta y su relacion con el tipo de inmueble, permitiendo interpretar el comportamiento general del mercado de vivienda.
A partir de estos resultados, la empresa puede planificar estrategias comerciales de manera mas precisa, ajustando el tipo de vivienda ofrecido segun la zona y el segmento identificado, enfocando la inversión en sectores con mayor potencial y diseñando propuestas segun las características de cada area. Se recomienda enfocarse en la construccion de apartamentos en las zonas más urbanas, mientras que las casas resultan más adecuadas para sectores residenciales. Para finalizar, el uso de herramientas analíticas permite respaldar la toma de decisiones estrategicas, mejorarando la planificación comercial y generarando ventajas competitivas al optimizar los recursos y obtener mayores beneficios en un mercado cambiante.