Introducción

El presente informe aborda el análisis estadístico de una base de datos inmobiliaria urbana, con el objetivo de apoyar la toma de decisiones estratégicas de una empresa del sector. Se trabaja con un conjunto de datos que contiene variables tanto cuantitativas como cualitativas relacionadas con propiedades residenciales en diferentes zonas y estratos socioeconómicos. El análisis se enfoca en la identificación de patrones y segmentaciones relevantes mediante técnicas multivariadas como Análisis de Componentes Principales, Análisis de Conglomerados y Análisis de Correspondencia. Los resultados obtenidos serán visualizados y sintetizados para facilitar su interpretación y aplicación en la optimización de la oferta inmobiliaria. Este enfoque integral busca potenciar la comprensión del mercado y contribuir a decisiones más informadas y competitivas.

Preprocesamiento y Limpieza de Datos

Se llevó a cabo un proceso sistemático de preprocesamiento y limpieza de los datos de viviendas con las siguientes etapas y estrategias específicas:

Revisión y ajuste de tipos de variables

Inicialmente, se inspeccionó la estructura del dataset y se ajustaron los tipos de variables para garantizar su coherencia con la naturaleza de los datos:

  • zona y tipo se convirtieron en variables categóricas (carácter y luego factor).

  • Variables numéricas continuas como preciom, areaconst, longitud y latitud se aseguraron como numéricas.

  • Variables discretas y enteras como piso, estrato, parqueaderos, banios y habitaciones se convirtieron en enteros.

  • barrio se normalizó como carácter para aplicar limpieza textual.

Tipos de datos por variable
Variable Tipo
id numeric
zona factor
piso integer
estrato integer
preciom numeric
areaconst numeric
parqueaderos integer
banios integer
habitaciones integer
tipo factor
barrio factor
longitud numeric
latitud numeric

Normalización de nombres de barrios

Se aplicó limpieza a la variable barrio para evitar inconsistencias que afectan el análisis posterior:

  • Conversión a minúsculas y eliminación de acentos.

  • Eliminación de caracteres corruptos y especiales.

  • Eliminación de espacios extras al inicio, final o entre palabras.

  • Unificación de nombres con errores ortográficos comunes mediante un mapeo (tabla de equivalencias), por ejemplo: “agua blanca” → “aguablanca”, “caaveralejo” → “canaveralejo”, entre otros.

Imputación de datos faltantes (por variable)

Se identificaron valores faltantes y se aplicaron técnicas específicas para cada variable, basadas en su tipo y relación con otras variables:

  • id: Se eliminaron filas con valores faltantes en esta variable, ya que es un identificador único.

  • zona (categórica): Se imputó la moda global (valor más frecuente en toda la variable) para los valores faltantes.

  • piso (entero): Se imputó la mediana agrupada por zona, es decir, para cada zona se calculó la mediana y se usó para rellenar valores faltantes.

  • estrato (numérico discreto): Se imputó la moda global y posteriormente se transformaron los números en factores con etiquetas nominales (“Medio-bajo”, “Medio”, “Medio-alto”, “Alto”).

  • preciom (numérico continuo): Se imputaron valores faltantes con la media agrupada por areaconst.

  • areaconst (numérico continuo): Se imputaron valores faltantes con la media agrupada por preciom.

  • parqueaderos (entero discreto): Se imputó la moda agrupada por estrato.

  • banios (entero discreto): Se imputó la mediana agrupada por areaconst.

  • habitaciones (entero discreto): Se imputó la mediana agrupada por areaconst.

  • tipo (categórica): Se imputó la moda agrupada por areaconst.

  • barrio (categórica): Se imputó la moda agrupada por estrato.

  • longitud (numérico continuo): Se imputó la media agrupada por barrio.

  • latitud (numérico continuo): Se imputó la media agrupada por barrio.

Conversión final de tipos

Después de la imputación, se aseguró que las variables estuvieran en el tipo adecuado para análisis:

  • zona, tipo, y barrio convertidos a factores.

  • estrato reconvertido a entero (usado como factor para etiquetas) y las demás variables numéricas y discretas confirmadas en sus tipos correspondientes.

Tratamiento de datos atípicos (outliers)

Se identificaron los valores atípicos en variables clave como preciom y areaconst usando el método del rango intercuartílico (IQR), que determina los límites inferior y superior para identificar valores extremos fuera del rango [Q1 - 1.5IQR, Q3 + 1.5IQR].

  • Se contó el número de outliers en dichas variables.
cat("Número de outliers para 'preciom':", outliers_pre, "\n")
## Número de outliers para 'preciom': 552
cat("Número de outliers para 'areaconst':", outliers_area, "\n")
## Número de outliers para 'areaconst': 382
  • Se preparó una copia del dataset (data_clean) para realizar transformaciones posteriores sobre estos valores, aunque no se realizó una imputación o corrección definitiva en el script proporcionado.

Eliminación de duplicados

Se eliminaron filas duplicadas para asegurar la unicidad de las observaciones en el conjunto de datos.

Análisis exploratorio

Para evaluar el efecto de la imputación y limpieza, se generaron boxplots comparativos antes y después del proceso en variables como parqueaderos, preciom, areaconst y banios agrupados por tipo de vivienda.

Gráficas Boxplot

Después de la imputación de valores faltantes, se observa un cambio significativo en la distribución de los datos para las casas. Antes de la imputación, las casas presentaban una gran dispersión, con valores atípicos superiores a 6 parqueaderos. Después de la imputación, los datos se regularizaron, reduciendo la variabilidad y limitando el rango de parqueaderos entre 1 y 3, con 2 parqueaderos como valor más común. En el caso de los apartamentos la dispersión se conservo igual.

Luego de hacer la imputación de valores faltantes de los precios, se aprecia que no se presentaron cambios significativos en la distribución de los datos.

Luego de hacer la imputación de valores faltantes del área construida, se aprecia que no se presentaron cambios significativos en la distribución de los datos.

Luego de hacer la imputación de valores faltantes en la cantidad de baños, se aprecia que no se presentaron cambios significativos en la distribución de los datos.

Gráfico de dispersión

Se observa una correlación positiva entre ambas variables, ya que a medida que aumenta el área construida, también lo hace el precio de las propiedades. Sin embargo, la dispersión es mayor en las propiedades con un área construida más pequeña, lo que sugiere que las propiedades con menos metros cuadrados tienen una amplia gama de precios. También se pueden identificar algunos valores atípicos en el extremo superior de ambas variables, donde el precio y el área construida alcanzan valores muy altos. La distribución general indica que la mayoría de las propiedades están concentradas en áreas construidas más pequeñas y con precios relativamente más bajos.

Mapa de correlación

El mapa de calor muestra que existe una fuerte correlación positiva entre el área construida y el precio (0.69), lo que sugiere que a medida que aumenta el tamaño de la propiedad, también lo hace su precio. De manera similar, la correlación entre parqueaderos y área construida (0.68) indica que las propiedades más grandes tienden a contar con más parqueaderos. En cambio, la relación entre habitaciones y precio es baja (0.26), lo que sugiere que el número de habitaciones no tiene un impacto tan relevante en el precio, a diferencia de otras variables como el área construida y el número de parqueaderos.

Estadísticos para variables numéricas

Resumen estadístico de variables numéricas
Variable Min Q1 Mediana Media Q3 Max SD Var
areaconst 30.00000 80.000000 123.000 174.934938 229.00000 1745.0000 142.9641260 2.043874e+04
banios 0.00000 2.000000 3.000 3.111311 4.00000 10.0000 1.4282102 2.039784e+00
habitaciones 0.00000 3.000000 3.000 3.605361 4.00000 10.0000 1.4595368 2.130248e+00
id 1.00000 2080.500000 4160.000 4160.000000 6239.50000 8319.0000 2401.6327779 5.767840e+06
latitud 3.33300 3.380795 3.416 3.417644 3.45200 3.4977 0.0426385 1.818000e-03
longitud -76.58915 -76.541580 -76.530 -76.528606 -76.51889 -76.4630 0.0173983 3.027000e-04
parqueaderos 1.00000 1.000000 1.000 1.688424 2.00000 10.0000 1.0606967 1.125078e+00
piso 1.00000 2.000000 3.000 3.550186 4.00000 12.0000 2.2013023 4.845732e+00
preciom 58.00000 220.000000 330.000 433.904436 540.00000 1999.0000 328.6650246 1.080207e+05

Histogramas de variables númericas

Distribución de precio: El precio muestra una distribución sesgada a la derecha, con una concentración significativa de propiedades con precios más bajos, pero con algunos valores altos que podrían ser considerados como outliers. La mayoría de los precios se encuentran por debajo de 500 millones.

Distribución de piso: La variable piso tiene una distribución que se concentra en valores bajos (1 o 2 pisos), con una caída abrupta en valores más altos. Esto indica que la mayoría de las propiedades en el conjunto de datos son de una o dos plantas.

Distribución de área construida: El área construida también presenta una distribución sesgada a la derecha, con muchas propiedades de menor tamaño, mientras que los valores más altos son más escasos.

Distribución de baños: El número de baños tiene una distribución con una concentración de propiedades que tienen entre 1 y 3 baños, y pocos registros con más de 5 baños.

Distribución de habitaciones: Las habitaciones muestran una fuerte concentración en propiedades con 2 y 3 habitaciones, y hay una caída pronunciada en la frecuencia a medida que el número de habitaciones aumenta.

Distribución de parqueaderos: La distribución de parqueaderos muestra una frecuencia elevada para propiedades con 2 y 3 parqueaderos, pero con pocos registros con más de 5 parqueaderos, lo que podría indicar que la mayoría de las viviendas no tienen grandes espacios para estacionamiento.

Distribución de estrato: El estrato tiene una concentración notable en los estratos (2-Medio) y (3-Medio-alto), con menos propiedades en estratos más bajos (1-Medio-bajo) y más altos (Alto). Esto valores se presentan así por el escalado que transformo los valores de 3 a 6 en 1 a 4, se dan las convenciones del DANE.

Distribución de latitud: La latitud está distribuida de manera bastante uniforme, con la mayor parte de las observaciones concentradas en un rango pequeño de valores entre 3.36 y 3.44, lo que sugiere que la mayoría de las propiedades están localizadas en una área geográfica específica.

Distribución de longitud: La longitud presenta una distribución similar a la latitud, con una concentración de datos en torno a valores cercanos a -76.625, lo que indica que las propiedades están localizadas en una región geográfica particular.

Histogramas de frecuencias variables categóricas

Frecuencia de zona: La mayoría de las propiedades se encuentran en la Zona Sur, seguida de cerca por la Zona Norte. Las Zonas Oeste y Oriente tienen menos propiedades, mientras que la Zona Centro es la menos representada en el conjunto de datos.

Frecuencia de tipo: Se observa una mayor cantidad de apartamentos en comparación con las casas, lo que indica que el mercado de apartamentos está más representado en el conjunto de datos.

Frecuencia de barrio: El barrio Valle del Lili se destaca por tener una frecuencia mucho mayor que otros barrios, mientras que el resto de los barrios tiene una representación más equitativa. Sin embargo, una gran cantidad de registros se agrupan en la categoría Other, pues en esta gráfica solo se presentan los 10 barrios con mayor cantidad de registros.

Matriz de Varianza-Covarianzas

Se destaca una correlación positiva moderada a fuerte entre el precio de la vivienda (preciom) y variables estructurales como el área construida (areaconst, 0.69), el número de baños (banios, 0.65) y los parqueaderos (0.54). Estas asociaciones son coherentes con la lógica del mercado inmobiliario, ya que propiedades con mayores dimensiones o comodidades tienden a tener precios más altos.

Adicionalmente, se observa una alta correlación negativa entre la latitud y longitud (-0.96), lo cual refleja la distribución geográfica de las viviendas y podría indicar redundancia espacial en los datos.

Por otro lado, variables como piso, estrato o id presentan correlaciones débiles con el resto, lo cual sugiere que su relación con las demás variables numéricas es limitada o nula.

En resumen, las variables que muestran mayor asociación con el precio y, por tanto, mayor relevancia para análisis posteriores o modelos predictivos— son: área construida, baños, parqueaderos y habitaciones.

Prueba Chi-cuadrado

El valor-p obtenido (< 2.2e-16) es extremadamente bajo, mucho menor al umbral habitual de significancia (0.05). Esto nos lleva a rechazar la hipótesis nula y concluir que existe una asociación estadísticamente significativa entre el estrato socioeconómico de las viviendas y la zona geográfica en que se encuentran.

# Crear la tabla de contingencia para 'estrato' y 'zona'
table_estrato_zona <- table(data_clean$estrato, data_clean$zona)

# Realizar la prueba de chi-cuadrado
chisq_test_estrato_zona <- chisq.test(table_estrato_zona)

# Mostrar los resultados
chisq_test_estrato_zona
## 
##  Pearson's Chi-squared test
## 
## data:  table_estrato_zona
## X-squared = 3830.4, df = 12, p-value < 2.2e-16

El valor-p es nuevamente mucho menor que 0.05, lo cual indica que existe evidencia estadísticamente significativa para rechazar la hipótesis nula. Es decir, hay una dependencia entre el tipo de vivienda y la zona donde se ubica.

# Crear la tabla de contingencia para 'tipo' y 'zona'
table_tipo_zona <- table(data_clean$tipo, data_clean$zona)

# Realizar la prueba de chi-cuadrado
chisq_test_tipo_zona <- chisq.test(table_tipo_zona)

# Mostrar los resultados
chisq_test_tipo_zona
## 
##  Pearson's Chi-squared test
## 
## data:  table_tipo_zona
## X-squared = 690.93, df = 4, p-value < 2.2e-16

El valor-p es menor a 0.05, por lo que se rechaza la hipótesis nula. Esto indica que existe una relación estadísticamente significativa entre el estrato socioeconómico y el tipo de vivienda.

# Crear la tabla de contingencia para 'estrato' y 'tipo'
table_estrato_tipo <- table(data_clean$estrato, data_clean$tipo)

# Realizar la prueba de chi-cuadrado
chisq_test_estrato_tipo <- chisq.test(table_estrato_tipo)

# Mostrar los resultados
chisq_test_estrato_tipo
## 
##  Pearson's Chi-squared test
## 
## data:  table_estrato_tipo
## X-squared = 224.33, df = 3, p-value < 2.2e-16

Selección de variables relevantes

El análisis exploratorio reveló que variables como el área construida, número de baños, parqueaderos y habitaciones tienen una influencia significativa y positiva sobre el precio de las viviendas, consolidándose como predictores clave para modelos de valoración. Las fuertes correlaciones detectadas entre latitud y longitud indican la importancia de considerar la ubicación geográfica, aunque estas variables aportan información redundante. Además, las pruebas de independencia chi-cuadrado evidencian relaciones significativas entre variables categóricas esenciales como estrato, tipo y zona, lo que subraya la relevancia de incluir estos factores para segmentar el mercado. En conjunto, estos hallazgos permiten definir un conjunto compacto y representativo de variables para avanzar en técnicas más complejas como análisis de componentes principales y conglomerados, facilitando una comprensión integral y estratégica del mercado inmobiliario urbano, alineada con los objetivos y retos planteados.

Análisis de Componentes Principales

Técnica estadística utilizada para reducir la dimensionalidad de un conjunto de datos, transformando las variables originales en un nuevo conjunto de variables no correlacionadas llamadas componentes principales.

Biplot de Análisis de Componentes Principales (ACP)

El análisis de componentes principales muestra que Dim1 explica el 72.2% y Dim2 el 12.4% de la varianza total. Las variables más influyentes son baños, área construida y precio, que están fuertemente correlacionadas y contribuyen positivamente al primer componente. Parqueaderos presenta una dirección diferente, aportando información complementaria. La dispersión de observaciones refleja variabilidad en las propiedades según estas características clave, evidenciando que el precio y tamaño están relacionados con baños y área, mientras que parqueaderos captura una dimensión distinta del mercado.

Correlación de componentes principales

Esta separación en las contribuciones indica que el mercado inmobiliario urbano no puede ser completamente representado por un solo eje de variabilidad; más bien, existen al menos dos factores relevantes y diferenciados. La primera dimensión está dominada por características que reflejan el tamaño, el valor y las comodidades internas de las propiedades, donde precio y parqueaderos contribuyen conjuntamente, lo que sugiere que la cantidad de parqueaderos está directamente relacionada con el valor y la dimensión de la propiedad. Esto indica que propiedades con más parqueaderos tienden a tener un mayor precio y mayor tamaño, integrándose así dentro de un mismo factor que explica la mayor parte de la variabilidad del mercado.

Análisis de Eigenvalores para la reducción de dimensionalidad

El primer componente captura el 72.2% de la varianza total, indicando que resume la mayor parte de la información relevante del conjunto de datos. Los siguientes tres componentes explican adicionalmente el 12.4%, 8.8% y 6.5% respectivamente, sumando casi el 100% de la variabilidad.

Contribución de variables a los componentes principales

  • PC1: Es el componente más importante y combina principalmente precio por metro cuadrado, área construida, baños y parqueaderos. Esto indica que estas variables juntas explican la mayor parte de la variabilidad del mercado inmobiliario.

  • PC2: Está dominado por la variable parqueaderos, lo que sugiere que el número de parqueaderos representa una dimensión distinta y relevante del mercado, independiente de las otras características.

  • PC3: Aquí las variables baños y área construida tienen mayor peso, indicando que hay aspectos específicos de tamaño y comodidades que no están completamente capturados en PC1 y forman otra dimensión de análisis.

  • PC4: El precio por metro cuadrado es la variable que más aporta, mostrando que este componente puede estar capturando variaciones más finas o residuales en el valor unitario de las propiedades.

Analisis de conglomerados (Clustering)

Agrupación por Cluster

Los dos gráficos de dispersión con segmentación en clusters basada en precio y área construida. En K=3, se observan tres clusters claros: el cluster 1 agrupa propiedades con precios y áreas bajas, el cluster 2 contiene valores intermedios, y el cluster 3 incluye propiedades con precios y áreas altas, aunque con mayor dispersión. Al aumentar a K=4, aparece un cuarto cluster que separa un pequeño grupo de propiedades con precios y áreas muy altos o atípicos, representando un segmento premium adicional. La selección de estas dos variables se justifica porque el precio refleja el valor económico de la propiedad y el área construida el tamaño funcional, dimensiones clave que influyen en la decisión de compra y en la caracterización del mercado inmobiliario. Esta segmentación facilita identificar grupos homogéneos y define con mayor precisión los perfiles de oferta inmobiliaria.

Coeficientes de Semejanza y Distancias Silhouette

El coeficiente de Silhouette es una medida global que evalúa la calidad de la segmentación de los puntos en clusters.

El coeficiente de Silhouette promedio para k=3 es 0.6997, lo cual indica una muy buena calidad deagrupamiento. Esto significa que, en promedio, cada punto está bien asignado a su clúster, mostrando alta cohesión interna.

# Imprimir el coeficiente de Silhouette promedio
cat("Coeficiente de Silhouette promedio k=3 : ", sil_avg_K3, "\n")
## Coeficiente de Silhouette promedio k=3 :  0.6996852

El coeficiente de Silhouette promedio para k=4 es 0.6312, lo que indica una buena calidad de agrupamiento, aunque ligeramente menor que para k=3. Aunque el modelo con 4 clusters sigue mostrando grupos bien definidos y separados, la cohesión interna y la separación entre clusters es un poco menor en comparación con el caso de 3 clusters.

# Imprimir el coeficiente de Silhouette promedio
cat("Coeficiente de Silhouette promedio k=4 : ", sil_avg_K4, "\n")
## Coeficiente de Silhouette promedio k=4 :  0.6312454

La segmentación con 3 clusters ofrece una solución más robusta y compacta para agrupar las propiedades, mientras que la de 4 clusters añade un nivel adicional de detalle pero con menor claridad en la definición de los grupos. Por lo tanto, si se busca claridad y estabilidad en la segmentación, k=3 es preferible.

Clustering Jerárquico - Dendograma

Se realizó un análisis de clustering jerárquico y se generaron varios dendrogramas para evaluar cómo se agrupan los puntos en el conjunto de datos. El dendrograma presentado corresponde al corte en cuatro clusters, que fue seleccionado tomando en cuenta la calidad de la segmentación, evaluada a través del coeficiente de Silhouette. Este valor respaldó la elección de los cuatro grupos como la segmentación más coherente y bien definida, mostrando una agrupación adecuada de los datos.

Análisis de correspondencia

Correspondencia (Tipo - Zona)

El análisis de correspondencias entre tipo de vivienda y zona, revela una segmentación clara en la oferta inmobiliaria urbana. Las casas muestran una mayor asociación con zonas como el Centro, Oriente, Norte y Sur, lo que sugiere una preferencia o disponibilidad de este tipo de inmuebles en áreas tradicionales o residenciales más consolidadas. En contraste, los apartamentos están más relacionados con zonas como Occidente, Sur, Norte y Centro, indicando una oferta más orientada a la densificación y multifamiliares en sectores con mayor urbanización vertical. Esta diferenciación espacial en la tipología de vivienda refleja patrones definidos de desarrollo urbano y comportamiento del mercado, útiles para orientar estrategias de planificación, inversión y comercialización

Prueba Chi-cuadrado

La hipótesis nula en la prueba chi-cuadrado establece que las variables tipo de vivienda (Casa vs. Apartamento) y zona (Centro, Norte, Oeste, Oriente, Sur) son independientes entre sí, es decir, no están relacionadas. El p-valor de 1 indica que no se puede rechazar esta hipótesis.

chisq.test(tabla_tipo_zona)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_tipo_zona
## X-squared = 0, df = 16, p-value = 1

Correspondencia (Tipo - Estrato)

El análisis de correspondencia entre el tipo de vivienda y el estrato socioeconómico revela patrones claros en la segmentación del mercado inmobiliario. Las casas tienden a concentrarse en los estratos medio, medio-alto y alto, lo que sugiere que estos tipos de viviendas son más comunes en segmentos de mayor poder adquisitivo. En cambio, los apartamentos se distribuyen principalmente en los estratos medio-bajo y alto, lo que refleja una mayor accesibilidad o preferencia por este tipo de propiedad en sectores con una variedad de rangos socioeconómicos. Esta segmentación destaca las diferencias en la oferta inmobiliaria según el tipo de propiedad y la clase social, lo cual puede guiar tanto a los desarrolladores como a los inversores al tomar decisiones sobre los segmentos del mercado que desean captar, optimizando la inversión y maximizando la rentabilidad en los sectores adecuados.

Prueba Chi-cuadrado (Tipo-Estrato)

La hipótesis nula en la prueba chi-cuadrado establece que las variables tipo de vivienda (Casa vs. Apartamento) y estrato (Medio-bajo, Medio, Medio-alto, Alto) son independientes entre sí, es decir, no están asociadas.

chisq.test(tabla_tipo_estrato)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_tipo_estrato
## X-squared = 0, df = 9, p-value = 1

Correspondencia (Tipo - Barrio)

Los resultados muestran cómo los tipos de vivienda se distribuyen en diferentes barrios, lo que puede indicar la preferencia o la concentración de ciertos tipos de propiedades en zonas específicas. Los primeros componentes principales (Dim1 y Dim2) explican la mayor parte de la variabilidad en los datos, siendo el primer componente el que captura el 78% de la varianza total. Algunos barrios están más fuertemente asociados con apartamentos (representados en azul), mientras que otros están más relacionados con casas (representadas en rojo). Se aprecia una clara distribución de los tipos de vivienda en los distintas barrios de la ciudad.

Sebastian Alejandro Ortiz Florez

FIN