Introducción

Este estudio se enfoca en explorar el mercado de viviendas, entender las tendencias y patrones en el mercado inmobiliario se ha vuelto esencial para inversores, desarrolladores y formuladores de políticas. A través de un análisis detallado de una base de datos de propiedades en venta, este estudio busca identificar patrones, relaciones y segmentaciones relvantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoracion de propiedades.

[1] 8322   13

No es extraño que en este tipo de aplicaciones haya información que carezca de datos por varias razones, puede haberse producido por un error en el proceso de recopilación de datos, que ciertas medidas no sean aplicables o que, simplemente, determinados campos se hallan dejado en blanco.

Para este caso tenemos los siguientes datos faltantes:

Datos Faltantes por Variable
Variable	Datos_Faltantes
id	3
zona	3
piso	2638
estrato	3
preciom	2
areaconst	3
parqueaderos	1605
banios	3
habitaciones	3
tipo	3
barrio	3
longitud	3
latitud	3

Tal como se muestra en la tabla anterior se evidencia que para la variable “piso y parqueo” cuentan con el mayor numero de observaciones faltantes del data frame, el cual es una proporción muy grande comparado con el tamaño del data frame el cual es de \(8.330\) filas por \(13\) columnas.

Para manejar los datos faltantes en las variables “piso” y “parqueaderos” del dataframe y realizar un análisis descriptivo efectivo, se adoptaron estrategias, considerando el contexto y la naturaleza de los datos.

## Estrategias para Datos Faltantes

Analisís prelimínar

Primero, es crucial entender el significado de cada variable y cómo los datos faltantes pueden influir en el análisis:

\(Piso\): Indica el nivel en el que se encuentra una propiedad dentro de un edificio. Los datos faltantes podrían indicar casas o propiedades que no aplican a esta categoría. Parquea (Parqueadero): Refiere a la disponibilidad de espacio de estacionamiento. Los datos faltantes podrían significar que no se proporcionó esta información o que la propiedad no cuenta con parqueadero.

Imputación:

Para “Piso”: Se podría imputar los datos faltantes con un valor específico que indique “No Aplica” o \("0"\) para casas y terrenos que típicamente no tienen un número de piso.

Pero teniendo en cuenta el comportamiento típico de los tipos de vivienda en Colombia en donde normalmente los apartamentos son de \(1\) piso y las casas de \(1\) o mas pisos por unidad residencial; partiendo del supuesto anterior y aplicando una imputación estrategia para esta variable en donde los valores nulos para el tipo de vivienda apartamento se imputo por el valor escalar de \(1\) piso y para el tipo de vivienda casa se realizó una agrupación por zona y estrato calculando la moda e imputando por este valor de medida central los valores nulos.

\[ \text{Moda} = \underset{x}{\operatorname{argmax}} \, P(X = x) \]

Para “Parquea”: En el caso de los parqueaderos, se podría imputar los valores faltantes con “0” para indicar la ausencia de parqueadero, suponiendo que la falta de información implica la falta del mismo, o un valor que denote “Información no proporcionada”;Para este análisis se razono de manera similar que en la imputación para tipo de viviendas casas, donde se tuvo en cuenta el valor más común de numero de parqueadero correspondiente a la zona de Cali, estrato y tipo de vivienda.

Analisís exploratrorio de los datos (EDA)

Posterior al manejo de datos faltantes correspondientes a la data frame y para entender el comportamiento de los precios de vivienda, se aplicaron técnicas de estadística descriptiva agrupando por las varibales “zona, tipo, estrato”, las cuales permitieron establecer y visualizar patrones de comportamiento de los precios de vivienda.

Para el cumplimiento del objetivo trazado se calcularon las siguientes medidas:

Media: \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]
Mediana: \[ \tilde{x} = \begin{cases} x_{(m+1)/2} & \text{si } n \text{ es impar} \\ \frac{1}{2} (x_{m/2} + x_{m/2 + 1}) & \text{si } n \text{ es par} \end{cases} \]
Desviación estándar:

\[ \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

Como resultado de haber realizado las imputaciones correspondientes, se obtuvo un data frame tidy y sin datos nulos tal como se muestra en la siguiente tabla:

          id         zona         piso      estrato      preciom    areaconst 
           3            3            5            3            2            3 
parqueaderos       banios habitaciones         tipo       barrio     longitud 
        1605            3            3            3            3            3 
     latitud      parquea 
           3          872

Datos Faltantes por Variable
Variable	Datos_Faltantes
id	0
zona	0
piso	0
estrato	0
preciom	0
areaconst	0
parqueaderos	0
banios	0
habitaciones	0
tipo	0
barrio	0
longitud	0
latitud	0
parquea	0

ANALISI DE COMPONETES PRINCIPALES

[1] 0

2 o 3 componentes debería ser suficiente para capturar la mayoría de la variabilidad presente en los datos. Esto permite reducir la dimensionalidad de manera efectiva, sin perder mucha información

Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

La componente Dim1 la cual contiene el 43.2% de varianza explicada, parece estar fuertemente influenciada por variables como habitaciones, areaconst, banios, parqueaderos, preciom, y estrato. Estas variables están fuertemente correlacionadas entre sí y contribuyen significativamente a la variabilidad en el primer componente.

Por otro lado, Dim2 que contiene el 15.1% de varianza explicada, tiene una influencia sobre latitud y longitud, lo cual podría estar capturando la variabilidad geográfica del mercado inmobiliario.

Variables Clave para Variación de Precios y Oferta:

Precio: Está fuertemente correlacionado con areaconst, banios, parqueaderos, y estrato, lo que sugiere que propiedades más grandes, con más baños, parqueaderos, y en estratos más altos tienden a tener precios más altos.

Geografía (latitud y longitud): Estas variables parecen estar en un eje diferente al de las demás características, sugiriendo que la localización también juega un papel importante, pero en una dirección diferente.

Con relacion a lo anterior es importante mecionar que, Dim1 captura principalmente la variabilidad relacionada con el tamaño, número de habitaciones, baños, parqueaderos y estrato, que están fuertemente correlacionados con el precio de la vivienda.

Dim2 parece estar más relacionado con la ubicación geográfica (latitud y longitud), lo que indica que la geografía también influye en las dinámicas del mercado.

Con este análisis, es valido describir que tanto variables como el tamaño, número de habitaciones, etc como su ubicación geográfica son factores clave en la variación de precios y oferta en el mercado inmobiliario.

Análisis de Conglomerados

Se ha decidido utilizar la técnica de k-means para la clusterización de los datos. Una de las razones principales es la complejidad que implica visualizar las ramas de las jerarquías en métodos como el clustering jerárquico debido al alto número de observaciones presentes en el data frame. Además, k-means es un método eficiente y escalable que se adapta bien a conjuntos de datos grandes, permitiendo una segmentación más clara y manejable de los grupos dentro del conjunto de datos.

`summarise()` has grouped output by 'estrato'. You can override using the
`.groups` argument.

### Cluster 1 (Rojo): Este cluster domina en los estratos 4 y 5, lo que sugiere que agrupa principalmente propiedades de estrato medio.

Cluster 4 (Morado):

Es predominante en los estratos 5 y 6, indicando que agrupa propiedades de mayor estrato socioeconómico.

Cluster 3 (Cian):

Tiene una representación considerable en el estrato 6, lo que sugiere que también agrupa propiedades de mayor valor.

Cluster 2 (Verde):

Está más distribuido en los estratos 3 y 4, capturando propiedades de estratos más bajos.

Los clusters están bien segmentados por estrato económico, mostrando que la clusterización ha capturado la variabilidad en el nivel socioeconómico de las propiedades.

### Cluster 1 (Rojo): Se agrupa principalmente en propiedades con un precio más bajo y áreas más pequeñas.

Cluster 3 (Cian):

Incluye propiedades con áreas más grandes y precios más altos, extendiéndose hacia las propiedades de mayor valor.

Cluster 4 (Morado):

Similar a Cluster 3, pero con una ligera concentración en propiedades de mayor valor y área.

Cluster 2 (Verde):

Este cluster agrupa propiedades con precios y áreas distribuidas de manera más uniforme en niveles medios-bajos.

Hay una correlación clara entre el precio y el área construida dentro de los clusters. Los clusters 3 y 4 parecen agrupar propiedades de mayor valor, mientras que el Cluster 1 agrupa propiedades de menor valor y menor área.

Zona Oriente y Sur:

El Cluster 1 (Rojo) domina en estas zonas, indicando que estas áreas tienen una concentración de propiedades más homogéneas en términos de estrato económico medio.

Zona Norte y Oeste:

Aquí hay una mayor diversidad en la distribución de clusters, con representación significativa de Clusters 3 (Cian) y 4 (Morado), lo que sugiere una mayor variabilidad en el tipo de propiedades.

Zona Centro:

Tiene una menor cantidad de observaciones y una distribución más homogénea, lo que sugiere una menor variabilidad en las propiedades de esta zona. Conclusión: La distribución geográfica muestra cómo diferentes zonas de la ciudad tienen diferentes características en términos de estrato económico y tipo de propiedad. Las zonas Oriente y Sur parecen ser más homogéneas, mientras que Norte y Oeste son más diversas.

Segmentación:

Los clusters generados por K-means han segmentado de manera efectiva las propiedades en grupos que reflejan diferentes niveles socioeconómicos y características de las propiedades, como el tamaño y el precio.

Variabilidad Geográfica:

La distribución geográfica de los clusters sugiere que diferentes zonas de la ciudad tienen patrones distintos en términos de estrato económico y tipo de propiedad. Esto es útil para la toma de decisiones estratégicas sobre inversión, desarrollo o comercialización en cada área.

Relación Precio-Área:

La relación entre precio y área construida es clara en la segmentación por clusters, lo que es valioso para evaluar cómo se distribuyen las propiedades en términos de valor.

Análisis de Correspondencia

              
               Estrato3 Estrato4 Estrato5 Estrato6
  Zona Centro        53        8        3        0
  Zona Norte        237      268      669      113
  Zona Oeste         24       62      265      747
  Zona Oriente      159        2        1        1
  Zona Sur          211     1301     1584     1009


    Pearson's Chi-squared test

data:  tabla
X-squared = 3188.9, df = 12, p-value < 2.2e-16

El resultado del Test de Chi-cuadrado indica que hay una relación significativa entre zona y estrato en el conjunto de datos. En otras palabras, la distribución de los estratos económicos no es independiente de la zona; hay una asociación que es estadísticamente significativa.

Este resultado refuerza la interpretación del Análisis de Correspondencia y sugiere que la zona donde se encuentra una propiedad está asociada con su estrato económico, y viceversa.

El mapa factorial mostrado anteriormente es un Análisis de Correspondencia (CA). Este gráfico muestra la relación entre las categorías entre zona y estrato económico

Dim 1 (66.36%):

Captura la mayor parte de la variabilidad en los datos, representando la principal dimensión de diferenciación entre las categorías.

Dim 2 (30.16%):

Captura la segunda mayor parte de la variabilidad, mostrando diferencias adicionales entre las categorías. Relaciones entre las Categorías:

Zona Oriente:

Está muy separada de las demás zonas en la Dim 1, lo que indica que tiene un perfil único en términos de la distribución de los estratos económicos.

Zona Oeste y Estrato 6:

Estas categorías están cercanas en el espacio, lo que sugiere que el Estrato 6 está fuertemente asociado con la Zona Oeste.

Zona Norte, Zona Sur, y Estrato 5:

Estas categorías están bastante próximas entre sí, lo que indica una asociación entre el Estrato 5 y estas zonas.

Zona Centro y Estrato 3:

Estas dos categorías también están cerca una de la otra, lo que sugiere que las propiedades de Estrato 3 se encuentran con mayor frecuencia en la Zona Centro.

Zona Sur y Estrato 4:

Existe una proximidad entre Zona Sur y Estrato 4, indicando una asociación entre ellos. Diferencias Significativas:

Zona Oriente:

Su posición lejana en Dim 1 sugiere que sus características socioeconómicas (en términos de estrato) son significativamente diferentes de las otras zonas.

Zona Oeste y Estrato 6:

Esta asociación indica que las propiedades de mayor estrato (estrato 6) son más comunes en la Zona Oeste.

El Análisis de Correspondencia muestra que hay asociaciones claras entre ciertas zonas geográficas y los estratos económicos:

Zona Oriente tiene un diferencial en la distribución de estratos que es diferente de las demás zonas.

Estrato 6 está fuertemente asociado con la Zona Oeste, lo que sugiere que las propiedades más exclusivas se concentran en esta zona.

Estrato 3 tiene una relación particular con la Zona Centro, lo que puede indicar que esta zona tiene un perfil socioeconómico más homogéneo.

Zona Sur parece estar relacionada tanto con el Estrato 4 como con el Estrato 5, indicando una mezcla de niveles socioeconómicos en esta área.

Conclusiónes:

Segmentación Geográfica y Socioeconómica:

Zona Oriente: Esta zona se destaca como una región distinta con características socioeconómicas únicas. La inmobiliaria podría enfocarse en estrategias específicas para este mercado, probablemente ofreciendo inmuebles que se alineen con un perfil socioeconómico particular que difiere del resto de la ciudad.

Zona Oeste y Estrato 6: Dado que el Estrato 6 está fuertemente asociado con la Zona Oeste, esta área podría ser clave para la venta de propiedades de lujo o de alto valor. Se recomienda posicionar las propiedades de mayor precio en esta zona, ya que es probable que los compradores en este segmento estén buscando inmuebles de alta gama.

Zona Centro y Estrato 3: La fuerte asociación entre el Estrato 3 y la Zona Centro sugiere que esta zona es ideal para ofertar inmuebles de nivel medio, posiblemente para familias jóvenes o profesionales que buscan una ubicación céntrica con un precio accesible.

Zona Sur y Estratos 4 y 5: Esta zona tiene una mezcla de niveles socioeconómicos, lo que podría indicar una oportunidad para una oferta diversificada de inmuebles. La inmobiliaria podría considerar un enfoque segmentado dentro de esta zona, con propiedades de nivel medio y medio-alto.

Diferenciación de Estrategias según el Cluster:

Cluster 1 (estratos medios en Zonas Sur y Oriente): Este cluster agrupa propiedades de estratos medios. Las estrategias de venta aquí podrían enfocarse en familias de clase media que buscan una buena relación precio-calidad. Ofrecer planes de financiamiento atractivos y resaltar las ventajas de la ubicación podrían ser clave.

Cluster 3 y Cluster 4 (estratos altos en Zona Oeste y Norte): Estos clusters representan propiedades de estratos altos y de mayor valor. Las estrategias para estas áreas deberían incluir marketing de lujo, personalización de las ofertas, y potencialmente la oferta de servicios adicionales, como asesoramiento en diseño de interiores o gestión de propiedades.

Cluster 2 (estratos bajos en múltiples zonas): Dado que este cluster agrupa propiedades en estratos más bajos, la inmobiliaria podría enfocarse en la accesibilidad económica y en ofrecer opciones de vivienda asequibles. Las campañas en este segmento deberían resaltar los beneficios de precio y las oportunidades de inversión a largo plazo.

Modelos Estadisticos Actividad 1

JUAN CAMILO SALAS DIAZ

2024-08-10

Introducción

Analisís prelimínar

Imputación:

Analisís exploratrorio de los datos (EDA)

ANALISI DE COMPONETES PRINCIPALES

Análisis de Conglomerados

Cluster 4 (Morado):

Cluster 3 (Cian):

Cluster 2 (Verde):

Cluster 3 (Cian):

Cluster 4 (Morado):

Cluster 2 (Verde):

Zona Oriente y Sur:

Zona Norte y Oeste:

Zona Centro:

Segmentación:

Variabilidad Geográfica:

Relación Precio-Área:

Análisis de Correspondencia

Dim 1 (66.36%):

Dim 2 (30.16%):

Zona Oriente:

Zona Oeste y Estrato 6:

Zona Norte, Zona Sur, y Estrato 5:

Zona Centro y Estrato 3:

Zona Sur y Estrato 4:

Zona Oriente:

Zona Oeste y Estrato 6:

Conclusiónes:

Segmentación Geográfica y Socioeconómica:

Diferenciación de Estrategias según el Cluster: