Este informe tiene como proposito analizar el comportamiento del mercado de vivienda a partir de un conjunto de datos inmobiliarios, aplicando diferentes técnicas estadísticas para identificar patrones, relaciones y segmentos relevantes. Para ello se realizará primero una revision exploratoria de la base de datos, seguida de metodos de reducción de dimensionalidad, segmentación y análisis de asociación entre variables cualitativas, con el objetivo de interpretar la estructura del mercado y aportar informacion util para la toma de decisiones.

Analisis de la base de datos

En esta primera etapa se realizara una revisión general de la base de datos con el fin de conocer su estructura, identificar los tipos de variables y evaluar la calidad de la información disponible. Se analizaran las dimensiones del conjunto de datos, la presencia de valores faltantes y las características principales de las variables numericas y categoricas, para comprender el comportamiento inicial del mercado de vivienda antes de aplicar métodos estadísticos.

Dimension y estructura

La base de datos vivienda contiene información del mercado inmobiliario urbano y está compuesta por 8322 observaciones y 13 variables. Cada observación representa una vivienda con características físicas, económicas y de localización. Las variables del dataset permiten describir tanto aspectos estructurales del inmueble (area construida, numero de habitaciones, baños y parqueaderos), como características socioeconómicas y espaciales (estrato, zona, barrio y coordenadas geográficas).

[1] 8322   13

Tabla #1: Resumen de Variables

                 Variable      Tipo
id                     id   numeric
zona                 zona character
piso                 piso character
estrato           estrato   numeric
preciom           preciom   numeric
areaconst       areaconst   numeric
parqueaderos parqueaderos   numeric
banios             banios   numeric
habitaciones habitaciones   numeric
tipo                 tipo character
barrio             barrio character
longitud         longitud   numeric
latitud           latitud   numeric

Clasificacion de variables

Tabla #2: Tipos de Variables

          id         zona         piso      estrato      preciom    areaconst 
   "numeric"  "character"  "character"    "numeric"    "numeric"    "numeric" 
parqueaderos       banios habitaciones         tipo       barrio     longitud 
   "numeric"    "numeric"    "numeric"  "character"  "character"    "numeric" 
     latitud 
   "numeric" 

La base de datos está compuesta por 9 variables numéricas y 4 variables categóricas. De las variables numericas la variable id, aunque es numérica, corresponde a un identificador y no se incluira en el análisis descriptivo por no tener valor o interpretación estadística. Las variables numéricas describen características físicas, económicas y de localización de las viviendas, mientras que las variables categóricas corresponden al tipo y ubicación del inmueble.

Medidas de tendencia central para variables numericas

Tabla #3: Analisis Descriptivo de Variables Numericas

    estrato         preciom         areaconst       parqueaderos   
 Min.   :3.000   Min.   :  58.0   Min.   :  30.0   Min.   : 1.000  
 1st Qu.:4.000   1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000  
 Median :5.000   Median : 330.0   Median : 123.0   Median : 2.000  
 Mean   :4.634   Mean   : 433.9   Mean   : 174.9   Mean   : 1.835  
 3rd Qu.:5.000   3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000  
 Max.   :6.000   Max.   :1999.0   Max.   :1745.0   Max.   :10.000  
 NA's   :3       NA's   :2        NA's   :3        NA's   :1605    
     banios        habitaciones       longitud         latitud     
 Min.   : 0.000   Min.   : 0.000   Min.   :-76.59   Min.   :3.333  
 1st Qu.: 2.000   1st Qu.: 3.000   1st Qu.:-76.54   1st Qu.:3.381  
 Median : 3.000   Median : 3.000   Median :-76.53   Median :3.416  
 Mean   : 3.111   Mean   : 3.605   Mean   :-76.53   Mean   :3.418  
 3rd Qu.: 4.000   3rd Qu.: 4.000   3rd Qu.:-76.52   3rd Qu.:3.452  
 Max.   :10.000   Max.   :10.000   Max.   :-76.46   Max.   :3.498  
 NA's   :3        NA's   :3        NA's   :3        NA's   :3      

El análisis descriptivo se realizó únicamente sobre las variables numéricas, dado que las variables categóricas y el identificador no presentan una interpretación apropiada bajo medidas de tendencia central. Las medidas de tendencia central de las variables numéricas muestra una alta variabilidad en el mercado inmobiliario, especialment en el precio y el área construida, con rangos amplios y medias superiores a las medianas, lo que indica la presencia de viviendas de alto valor que influyen en el promedio. Por otro lado, la mediana indica que la mayoría de los inmuebles cuenta con alrededor de 3 habitaciones, 3 baños y 2 parqueaderos. Por otro lado, las coordenadas geográficas presentan rangos acotados, lo que indica una concentración de las viviendas en un zona urbana específica.

Datos faltantes por variable

Tabla #4: Numero de Datos faltantes por Variable

          id         zona         piso      estrato      preciom    areaconst 
           3            3         2638            3            2            3 
parqueaderos       banios habitaciones         tipo       barrio     longitud 
        1605            3            3            3            3            3 
     latitud 
           3 

Al revisar los valores faltantes del dataset, se observa que la variable piso es la que presenta la mayor cantidad de datos faltantes (2.638 registros), seguida de parqueaderos con 1.605 registros. Las demás variables tienen muy pocos valores faltantes, entre 2 y 3, por lo que su impacto en el análisis es mínimo. Por esta razón, las variables piso y parqueaderos requieren un tratamiento especial en la etapa de limpieza de los datos.

Datos faltantes por registro

[1] 3514

Podemos observar que hay 3514 registros que presentan al menos un valor faltante en alguna de las variables de la base de datos. Esto significa que, de las 8322 observaciones, aproximadamente el 42 % tiene información incompleta en al menos una variable, debido a la presencia de valores faltantes en variables categóricas como piso. Estos datos no se corrigen en esta etapa y se tratarán según la técnica de análisis aplicada posteriormente.

Eliminacion de registros con datos faltantes

[1] 4808   13
[1] 0
originales    finales   perdidas 
      8322       4808       3514 

Al eliminar registros con datos faltantes, la base de datos pasó de 8.322 registros originales a 4.808 registros completos, eliminándose 3.514 observaciones que contenían al menos un valor faltante.



Analisis de Componentes principales

En esta sección se aplicara el analisis de componentes principales con el propósito de reducir la dimensionalidad del conjunto de datos numericos y resumir la información en un menor número de variables mucho mas representativas. Esto permitira identificar las principales características que explican la variabilidad del mercado de vivienda y permite la interpretación posterior de los patrones presentes en los datos.

Estandarizacion de Variables

Tabla #5: Medidad de tendencia central de variables numericas estandarizadas

    preciom          areaconst        parqueaderos         banios       
 Min.   :-1.2259   Min.   :-0.9745   Min.   :-0.7415   Min.   :-2.3824  
 1st Qu.:-0.6532   1st Qu.:-0.6491   1st Qu.:-0.7415   1st Qu.:-0.9023  
 Median :-0.3292   Median :-0.3743   Median : 0.1682   Median :-0.1622  
 Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000  
 3rd Qu.: 0.3157   3rd Qu.: 0.3633   3rd Qu.: 0.1682   3rd Qu.: 0.5778  
 Max.   : 4.7350   Max.   : 9.5828   Max.   : 7.4458   Max.   : 5.0182  
  habitaciones    
 Min.   :-2.6783  
 1st Qu.:-0.4241  
 Median :-0.4241  
 Mean   : 0.0000  
 3rd Qu.: 0.3273  
 Max.   : 4.8356  

Aqui se observan las medidas de tendencia central y dispersión de las variables numéricas estandarizadas. Se observa que todas las variables tienen media igual a 0, lo cual confirma que fueron correctamente centradas durante el proceso de estandarización. Asimismo, los valores mínimo y máximo indican la dispersión en unidades de desviación estándar, permitiendo comparar las variables en una misma escala antes de aplicar el análisis de componentes principales.

Grafico#1: Verificacion de Datos Faltantes en variables numericas estandarizadas

El gráfico de patrón de datos faltantes muestra que no se presentan valores ausentes en las variables analizadas, confirmando que la base utilizada para el PCA está completamente depurada.

Calculo de los componentes principales

Tabla #6: Matriz de cargas de los componentes principales

               PC1    PC2    PC3    PC4    PC5
preciom      0.465  0.411  0.373 -0.160  0.671
areaconst    0.481 -0.060  0.440  0.650 -0.385
parqueaderos 0.437  0.426 -0.766  0.177 -0.097
banios       0.484 -0.136  0.094 -0.716 -0.476
habitaciones 0.357 -0.792 -0.268  0.086  0.407

Tabla #7: Varianza explicada por los componentes principales

Importance of components:
                          PC1    PC2     PC3     PC4     PC5
Standard deviation     1.8225 0.9092 0.58873 0.56265 0.43457
Proportion of Variance 0.6643 0.1653 0.06932 0.06332 0.03777
Cumulative Proportion  0.6643 0.8296 0.89891 0.96223 1.00000

La Tabla # 6 presenta las cargas de cada variable en los componentes principales, mostrando cómo cada una contribuye a su formación. La Tabla # 7 indica que los dos primeros componentes explican el 82.96% de la variabilidad total, por lo que es posible reducir el análisis a dos componentes sin perder información relevante.

Grafico #2

Aqui podemos observar la proporción de varianza explicada por cada componente principal. Se observa que el primer componente explica el 66.4% de la variabilidad total, seguido por el segundo con 16.5%. A partir del tercer componente la contribución disminuye, lo que respalda la selección de los dos primeros componentes para la reducción de dimensionalidad.

Grafico #3

En el círculo de correlaciones se observa que las variables precio y parqueaderos se encuentran cercanas entre sí, lo que indica una alta correlación positiva entre ellas. Igualmente, la variable area construida y baños también presentan una fuerte relacion, ya que sus vectores apuntan en direcciones similares. Esto muestra que estas variables tienden a aumentar conjuntamente en las viviendas analizadas.

En el gráfico se observa que todas las variables apuntan hacia la derecha, lo que indica que el primer componente principal (66.4%) muestra el comportamiento general donde las viviendas con mayor área construida tienden a tener más baños, más parqueaderos y mayor precio. Este componente muestra la tendencia general relacionada con el tamaño y nivel del inmueble. El segundo componente (16.5%) tiene una diferencia principal, ya que separa viviendas con más parqueaderos y mayor precio frente a aquellas con más habitaciones, mostrando una segunda forma de distinguir las viviendas.

Conclusion del Analisis de Componentes Principales

El análisis de componentes principales permitió reducir la dimensionalidad del conjunto de datos y comprender mejor la estructura del mercado inmobiliario. Se identificó que el primer componente explica la mayor parte de la variabilidad y tiene un comportamiento general donde las viviendas con mayor área construida tienden a tener más baños, parqueaderos y mayor precio. El segundo componente segundo ayuda a distinguir mejor diferencias relacionadas con la distribución interna de las viviendas. Los dos primeros componentes explican más del 80% de la variabilidad total, lo que permite trabajar con estas dos dimensiones para representar de manera más simple la información del conjunto de datos. Además, este análisis permitió identificar que variables como el área construida, los baños y los parqueaderos influyen de manera importante en la variacion de precios y en como se caracterizan las viviendas dentro del mercado.



Análisis de Conglomerados

A partir de los componentes obtenidos previamente, se realizara un análisis de conglomerados con el proposito de agrupar las viviendas segun sus similitudes. Esta técnica estadistica permite segmentar el mercado inmobiliario en grupos homogeneos, facilitando la identificación de perfiles de vivienda con características similares y permitiendo comprender la estructura general del mercado.

Tabla #8

Caracterización de los conglomerados
cluster n_viviendas Precio_promedio Area_promedio Parqueaderos_prom Banios_prom Habitaciones_prom
1 4443 -0.08 -0.15 -0.10 -0.11 -0.18
2 231 0.24 1.11 -0.13 0.95 2.61
3 29 2.58 5.62 2.77 1.75 0.92
4 105 2.29 2.15 3.58 2.02 1.59

En esta tabla observamos que el mercado inmobiliario se divide en cuatro grupos diferenciados. El conglomerado 1 reúne la mayoría de las viviendas con características cercanas o un poco inferiores al promedio, mientras que los conglomerados 2, 3 y 4 agrupan viviendas de mayor tamaño y precio, en especial el conglomerado 3 como el más exclusivo.

Grafico #4

Se utiliza una muestra aleatoria de 50 observaciones para poder visualizarlo de mejor manera dado que el dendrograma completo dificulta la visualización. El dendrograma indica la formacion de cuatro grupos diferenciados, observandose un aumento notable en la distancia cuando estos comienzan a unirse, lo que justifica la seleccion de cuatro conglomerados. Esta estructura muestra que las viviendas dentro de cada grupo son similares entre si y distintas de las de otros grupos, lo que respalda la segmentación aplicada.

Grafico #5:

Coeficiente de Silhouette promedio k=4 : 0.437581

El gráfico presenta los principales incrementos de distancia durante el proceso de agrupamiento jerárquico. Se observa un fuerte aumento en las últimas uniones, lo que indica que a partir de ese punto se comienza a combinar grupos con características diferentes. Por esta razon, el corte previo al salto permite identificar cuatro conglomerados homogeneos, coherentes con la estructura y el corte observado en el Grafico #4. Adicionalmente, el coeficiente promedio de Silhouette obtenido (0.44) indica una separación correcta entre los grupos, confirmando que la partición en cuatro conglomerados permite distinguir los distintos perfiles de vivienda del mercado.

Grafico #6:

El gráfico # 6 presenta la distribución de las viviendas en el plano definido por los dos primeros componentes principales, coloreadas según el conglomerado al que pertenecen. Se observa una separación entre los grupos, lo que indica que las viviendas clasificadas en cada clúster comparten características similares y se diferencian de las de otros grupos. Aunque la representación se realiza sobre una muestra de 50 observaciones para mejorar la visualizacion, la estructura de agrupamiento es consistente con la obtenida en el análisis jerárquico, lo que respalda la validez de la segmentación del mercado inmobiliario.

Conclusion del Analisis de Componentes Principales:

La segmentación obtenida indica que el mercado inmobiliario no es uniforme, sino que se organiza en grupos de viviendas con perfiles diferentes en cuanto a precio y características estructurales. Esto permite identificar distintos niveles de oferta dentro de la ciudad, desde opciones más accesibles hasta propiedades de mayor exclusividad, permitiendo una mejor comprensión de cómo se distribuyen y compiten los distintos tipos de vivienda en el mercado.



Analisis de Correspondencia

En esta etapa se empleara el analisis de correspondencia para entender la relacion entre variables categoricas asociadas a la ubicación y el tipo de vivienda. Este metodo permite identificar patrones de asociación entre sectores de la ciudad y tipos de inmueble, generando una visión territorial del mercado que complementa la segmentación que se hizo previamente.

Selección de variables cualitativas

Para el análisis de correspondencia se utilizaran unicamente variables de tipo cualitativo, ya que esta técnica estadística permite estudiar asociaciones entre categorías y no entre valores numéricos. De acuerdo con la Tabla #2, las variables cualitativas en la base de datos corresponden a aquellas relacionadas con la tipología y la localización del inmueble. Por lo tanto, las variables consideradas para el análisis seran: tipo de vivienda (tipo), zona y barrio.

Analisis de Zona vs Estrato

Tabla # 9: Distribucion de Viviendas por Zona y Estrato

              
                  3    4    5    6
  Zona Centro    33    3    0    0
  Zona Norte    141  184  482   79
  Zona Oeste     19   51  181  502
  Zona Oriente   94    2    1    0
  Zona Sur      147  973 1195  721

La tabla muestra que la cantidad de viviendas no es uniforme entre zonas, destacándose la Zona Sur por concentrar la mayor proporción de registros, mientras que la Zona Centro presenta una participación reducida.


    Pearson's Chi-squared test

data:  tabla_ze
X-squared = 2172.8, df = 12, p-value < 2.2e-16

La prueba Chi-cuadrado indica un valor p menor a 0.05, por lo que se rechaza la hipótesis de independencia y se confirma la existencia de relación entre zona y estrato.

Grafico #7:

      eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.29526876              65.338252                          65.33825
dim 2 0.13919088              30.800716                          96.13897
dim 3 0.01744831               3.861032                         100.00000

Según los resultados de la Tabla # 9, la prueba Chi-cuadrado y el Gráfico# 7, se concluye que la distribución de las viviendas presenta una asociación clara entre la zona y el nivel socioeconómico. La Zona Sur esta vinculada principalmente con estratos medios y altos, la Zona Norte con el estrato medio y la Zona Oeste con estratos altos. Por otro lado, la Zona Oriente esta asociada con estratos bajos y la Zona Centro muestra baja representación en la base de datos. Por lo tanto, se puede decir que hay una diferenciación territorial del mercado inmobiliario según el nivel socioeconómico.

Analisis de Tipo vs Zona

Tabla #10: Distribución del tipo de vivienda según la zona

             
              Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
  Apartamento           4        632        669           17     1860
  Casa                 32        254         84           80     1176

Esta tabla indica que los apartamentos predominan en la mayoría de las zonas, especialmente en la Zona Sur y Zona Oeste, mientras que las casas presentan menor participación general y mayor presencia relativa en la Zona Sur y Zona Oriente.


    Pearson's Chi-squared test

data:  tabla_tz
X-squared = 367.47, df = 4, p-value < 2.2e-16

La prueba Chi-cuadrado da como resultado un valor p menor a 0.05, por lo que se rechaza la hipótesis de independencia y se confirma la existencia de relación entre el tipo de vivienda y la zona.

Tabla #11 : Coordenadas del analisis de correspondencia para la variable zona

                   [,1]
Zona Centro   1.1640488
Zona Norte   -0.1088681
Zona Oeste   -0.4790451
Zona Oriente  1.0284587
Zona Sur      0.1039235

Según los resultados de la Tabla # 10, la prueba Chi-cuadrado y la Tabla # 11, se concluye que existe una asociación entre el tipo de vivienda y la zona de la ciudad. La distribución muestra que los apartamentos son superiores en la mayoría de las zonas, mientras que las casas tienen una participación menor. A partir de las coordenadas del análisis de correspondencia, se observa que las Zonas Centro y Oriente se ubican en el mismo sentido del eje, indicando una tendencia con un mismo tipo de vivienda, mientras que la Zona Oeste y la Zona Norte se situan en el extremo opuesto. Por otro lado, la Zona Sur presenta una posición cercana al origen, lo que indica una combinación de ambos tipos de vivienda. Esto en conjunto evidencia una diferenciación espacial del mercado inmobiliario según el tipo de vivienda.

Tabla #12 : Coordenadas del analisis de correspondencia para la variable tipo de vivienda

Apartamento        Casa 
 -0.1976241   0.3867404 

En esta tabla que a diferencia de la anterior que mostraba la ubicación de las zonas, aquí se observa la posicion de cada tipo de vivienda, lo que permite identificar hacia qué zonas tiende cada tipo de vivienda y complementar la interpretación de la relación entre ambas variables. Se encontró que apartamentos y casas se localizan en direcciones opuestas del eje, indicando que cada tipo de vivienda predomina en zonas diferentes de la ciudad. Podemos observar que apartamentos y casas se localizan en direcciones opuestas del eje, indicando que cada tipo de vivienda predomina en zonas diferentes de la ciudad.

Conclusion del Analisis de Correspondencia:

Los analisis realizados muestran que las caracteristicas de la vivienda no se distribuyen de manera aleatoria dentro de la ciudad, sino que siguen un orden según su ubicacion. El cruce entre zona y estrato permitio identificar cómo se organiza el nivel socioeconomico en el territorio, mientras que el cruce entre tipo de vivienda y zona ayudo a reconocer qué tipo de inmueble predomina en cada sector. Segun las tablas #11 y #12, se observa que las casas tienden a asociarse con las zonas centro y oriente y parcialmente la zona sur, mientras que los apartamentos se relacionan con las zonas norte y oeste. En general, se observan tendencias en la oferta inmobiliaria como que en algunas zonas agrupan viviendas de caracteristicas similares y otras presentan mayor mezcla de ambos tipos de vivienda, lo que indica diferentes niveles de desarrollo urbano. Por esta razón se analizaron estos cruces, ya que permiten comprender la organizacion territorial del mercado de vivienda y facilitan la interpretación global de los resultados.



Visualizacion de resultados

En esta seccion se presentaran los principales hallazgos mediante representaciones graficas, con el fin de facilitar su interpretacion. A partir de estas visualizaciones se describen las tendencias y patrones identificados en el mercado de vivienda, para poder comprender de forma clara la distribución, concentración y características principales de los dos tipo de inmueble en la ciudad.

Grafico #8:

El grafico muestra la distribución espacial de las viviendas según el conglomerado asignado previamente. Se observa que uno de los grupos concentra la mayor parte de los inmuebles y se encuentra distribuido en gran parte de la ciudad, mientras que los demás conglomerados aparecen en zonas más específicas. También se evidencia mezcla entre grupos en areas intermedias, lo que indica que el mercado no está completamente segmentado geográficamente sino que presenta transiciones entre sectores.

Grafico #9:

El grafico presenta la distribucion espacial de las viviendas segun su tipo. Se observa que los apartamentos tienen mayor presencia en gran parte de la ciudad, especialmente en zonas de mayor densidad, mientras que las casas aparecen con mayor frecuencia en sectores más dispersos. También se observan areas donde ambos tipos estan presentes, lo que indica que el mercado inmobiliario no está completamente separado por tipo de vivienda sino que presenta una mezcla entre sectores.

Grafico #10:

El grafico muestra la cantidad de viviendas en cada conglomerado. Se observa que el conglomerado 1 concentra la mayor parte de los inmuebles, mientras que los demás grupos presentan una participación considerablemente menor. Esto confirma que el mercado inmobiliario está dominado por un perfil de vivienda, mientras que los otros conglomerados representan segmentos más específicos dentro de la oferta.

Conclusion de Visualizacion de Resultados:

Los graficos permiten entender de manera clara como esta organizado el mercado inmobiliario en la ciudad. Se observan zonas con comportamientos diferentes y un grupo principal junto con otros más especificos. Tambien se identifican sectores donde tienen mayor presencia apartamentos, otros donde hay mas casas y zonas donde ambos tipos se mezclan. Ademas, la cantidad de viviendas confirma la importancia de cada grupo dentro de la oferta. En general, estas visualizaciones ayudan a comprender el mercado y sirven como apoyo para la toma de decisiones de la direccion.

Conclusion del Informe

El analisis realizado a lo largo de este informe permitio identificar patrones claros dentro del mercado inmobiliario, evidenciando que la oferta no es homogenea sino organizada en distintos segmentos relacionados tanto a caracteristicas fisicas de la vivienda como a su ubicacion en la ciudad. Se reconoció un perfil dominante junto con otros grupos mas especificos, lo que indica la existencia de nichos diferentes dentro del mercado. El analisis estadístico y la visualización espacial permitio comprender la distribución territorial de la oferta y su relacion con el tipo de inmueble, permitiendo interpretar el comportamiento general del mercado de vivienda.

A partir de estos resultados, la empresa puede planificar estrategias comerciales de manera mas precisa, ajustando el tipo de vivienda ofrecido segun la zona y el segmento identificado, enfocando la inversión en sectores con mayor potencial y diseñando propuestas segun las características de cada area. Se recomienda enfocarse en la construccion de apartamentos en las zonas más urbanas, mientras que las casas resultan más adecuadas para sectores residenciales. Para finalizar, el uso de herramientas analíticas permite respaldar la toma de decisiones estrategicas, mejorarando la planificación comercial y generarando ventajas competitivas al optimizar los recursos y obtener mayores beneficios en un mercado cambiante.