PROBLEMA

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

Base de datos y variables

head(vivienda)
## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1147 Zona O… <NA>        3     250        70            1      3            6
## 2  1169 Zona O… <NA>        3     320       120            1      2            3
## 3  1350 Zona O… <NA>        3     350       220            2      2            4
## 4  5992 Zona S… 02          4     400       280            3      5            3
## 5  1212 Zona N… 01          5     260        90            1      2            3
## 6  1724 Zona N… 01          5     240        87            1      3            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Retos:

El reto principal consisten en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:

Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.

Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.

Análisis de Correspondencia: Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.

Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.

#Desarrollo Informe

El conjunto de datos recopilado de las ofertas de viviendas en OLX presenta una composición que consta de tres variables categóricas (zona, piso, tipo, barrio) y siete variables numéricas. En el proceso analítico propuesto, se ha decidido prescindir de la variable “id”. Esta exclusión se fundamenta en la naturaleza del análisis que se pretende realizar, el cual se centrará en la identificación de patrones mediante un enfoque no supervisado. En este contexto, la variable “id” se considera prescindible debido a su carencia de significado semántico y su nula contribución al análisis de patrones intrínsecos en los datos. Mediante este enfoque, se busca explorar la estructura subyacente de las ofertas de viviendas en OLX sin depender de información externa, como etiquetas predefinidas o variables no pertinentes para el propósito del análisis.

# Cargar el paquete dplyr
library(dplyr)
set.seed(42) # universe answer
housing = paqueteMODELOS::vivienda
housing = housing[rowSums(is.na(housing)) < ncol(housing) - 1, ] # remove rows with all NA features
housing = housing %>% mutate(piso = ifelse(is.na(piso), NA, as.numeric(housing$piso)))
percentage_na = nrow(housing[apply(is.na(housing), 1, any), ]) / nrow(housing) * 100

pie_na_data = data.frame(
  Status = c("NA", "Complete"),
  Percentage = c(percentage_na, 100 - percentage_na)
)

El análisis del diagrama de pastel revela que aproximadamente el 50% de los datos exhiben al menos una instancia de valores faltantes (NA), lo que añade una complejidad adicional a la implementación de algoritmos. Es destacable que la mayoría de estos valores ausentes se concentran en la variable “Piso”, una variable de notable importancia debido a su influencia significativa en la valoración de las propiedades desde una perspectiva comercial. Es ilustrativo observar cómo una diferencia en la ubicación dentro de un edificio puede traducirse en variaciones sustanciales de valor, incluso para apartamentos idénticos, con impactos económicos significativos.

Dentro de este contexto, se justifica la necesidad de abordar la imputación de los valores faltantes en la variable “Piso”. Esta elección está respaldada por la relevancia crítica de dicha variable en los resultados comerciales y su influencia potencial en los análisis posteriores. La corrección de estos valores ausentes se convierte en una prioridad ineludible, dado que su preservación mejorará la integridad y precisión de los análisis subsiguientes y de los algoritmos propuestos. Este proceso de imputación se llevará a cabo con el objetivo de mitigar posibles distorsiones en los resultados y garantizar una representación más exacta de la relación entre las características y los precios de las propiedades.

Variables faltantes (Completación Missign Values)

En el conjunto de datos, hemos detectado la presencia de registros con valores iguales a 0 en las variables correspondientes a “habitaciones” y “baños”. Una revisión detallada revela que estos valores atípicos se encuentran exclusivamente en el rango de 3 a 6, según los estratos identificados. Dado que los tipos de propiedades registradas son viviendas y apartamentos, resulta poco plausible que una propiedad carezca completamente de al menos una habitación o un baño.

Por consiguiente, abordaremos estas discrepancias tratándolas como valores faltantes (missing values). Este enfoque nos permitirá integrarlos al proceso de imputación de datos ausentes, con el objetivo de lograr una corrección más exhaustiva y precisa.

El método utilizado para imputar valores faltantes en el conjunto de datos “housing” se basa en el cálculo de la media de cada variable y la posterior imputación de los valores faltantes con la media respectiva de cada variable.

Este enfoque es efectivo por las siguientes razones:

Preservación de la distribución: Utilizar la media para imputar valores faltantes ayuda a mantener la distribución original de los datos.

Simplicidad y eficacia: El método es simple y fácil de implementar, no requiere técnicas estadísticas avanzadas y es robusto frente a valores extremos.

No introduce sesgo adicional: La imputación con la media no introduce sesgo adicional en los datos y es menos sensible a valores extremos que otras medidas de tendencia central.

##      id zona estrato preciom areaconst banios habitaciones tipo barrio longitud
## 4808  1    1       1       1         1      1            1    1      1        1
## 1909  1    1       1       1         1      1            1    1      1        1
## 876   1    1       1       1         1      1            1    1      1        1
## 726   1    1       1       1         1      1            1    1      1        1
##       0    0       0       0         0      0            0    0      0        0
##      latitud parqueaderos piso     
## 4808       1            1    1    0
## 1909       1            1    0    1
## 876        1            0    1    1
## 726        1            0    0    2
##            0         1602 2635 4237
# Imputación de valores faltantes con la media de cada variable
for (col in names(housing)) {
  # Verificar si hay valores faltantes en la columna
  if (any(is.na(housing[[col]]))) {
    # Calcular la media de la columna (excluyendo NA)
    col_mean <- mean(housing[[col]], na.rm = TRUE)
    # Imputar los valores faltantes con la media de la columna
    housing[[col]][is.na(housing[[col]])] <- col_mean
  }
}

# Verificar si aún hay valores faltantes después de la imputación
any(is.na(housing))
## [1] FALSE
##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## 8319  1    1    1       1       1         1            1      1            1
##       0    0    0       0       0         0            0      0            0
##      tipo barrio longitud latitud  
## 8319    1      1        1       1 0
##         0      0        0       0 0

#Correlation

Dada la sensibilidad de los algoritmos a la escala de unidades, particularmente aquellos que dependen de funciones de distancia, es esencial normalizar los datos, especialmente las variables numéricas. La normalización garantizará que los rangos extensos no influyan de manera desproporcionada en las comparaciones y cálculos de distancia realizados por los algoritmos.

housing_num = housing[, c("piso","estrato","preciom","areaconst","parqueaderos","habitaciones","longitud","latitud")]
housing_scaled = scale(housing_num)

print(cor(housing_scaled[, c("piso","estrato","areaconst","parqueaderos","habitaciones","longitud","latitud")], housing_scaled[, c("preciom")]), method = "render")
##                     [,1]
## piso         -0.01186324
## estrato       0.60980664
## areaconst     0.68735196
## parqueaderos  0.63082596
## habitaciones  0.26409121
## longitud     -0.34358822
## latitud      -0.11566757

Después de examinar las correlaciones entre las variables, notamos una asociación sólida en la mayoría de los casos, con la excepción de la variable que indica el tipo de piso, la cual exhibe una correlación menos pronunciada con el precio. Estos análisis nos conducen a las siguientes conclusiones:

La alta correlación entre la mayoría de las variables y el precio resalta su influencia en la determinación de los valores de las propiedades. Aspectos como el tamaño del inmueble, la ubicación y la cantidad de habitaciones tienen un impacto directo en el precio.

La baja correlación entre el tipo de piso y el precio, probablemente afectada por la presencia de casi un 50% de valores faltantes en esta variable, sugiere que este atributo podría tener una influencia menos determinante en la valoración de las propiedades. La cantidad significativa de valores faltantes puede haber distorsionado la relación real entre el tipo de piso y el precio, contribuyendo a este hallazgo.

#PCA

housing1 <- housing_num[1:8319,3:7]
apply(X = housing1, MARGIN = 2, FUN = var)
##      preciom    areaconst parqueaderos habitaciones     longitud 
## 1.080207e+05 2.043874e+04 1.021707e+00 2.130248e+00 3.026997e-04
if (!requireNamespace("factoextra", quietly = TRUE)) {
  install.packages("factoextra")
}
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
acp <- prcomp(housing1, scale = TRUE)
fviz_pca_ind(acp, geom.ind = "point", 
             col.ind = "blue", 
             axes = c(1, 2), 
             pointsize = 1.5)

fviz_screeplot(acp, addlabels = TRUE, ylim = c(0, 100))

En este análisis, observamos que el primer componente principal (CP1) explica el 52.5% de la variabilidad dentro de la base de datos. Además, al considerar los dos primeros componentes principales, se explica más del 74% de los datos (82.5%). Estos resultados sugieren que CP1, derivado de una combinación lineal de las variables, captura una parte significativa de la variabilidad presente en la base de datos. Esto indica la capacidad de CP1 para resumir y representar adecuadamente las tendencias y patrones fundamentales de los datos, lo que lo convierte en un componente crucial para el análisis y la interpretación del conjunto de datos.

fviz_pca_var(acp,
col.var = "contrib",
gradient.cols = c("#FF7F00",  "#034D94"),
repel = TRUE)

Al visualizar las variables en el plano de los componentes principales, se nos revela la naturaleza y la esencia de los componentes, representada por los vectores propios de Σ. Este enfoque nos permite discernir claramente la disposición y la caracterización de los componentes. En este sentido, se observa que las variables posicionadas en el primer cuadrante del plano reflejan características relacionadas con la infraestructura y la composición física de los inmuebles. Por otro lado, las variables que se encuentran en el cuarto cuadrante del plano representan aspectos distintos y complementarios, quizás asociados con otros atributos, como la ubicación geográfica, la demanda del mercado o características ambientales. Esta representación gráfica en el espacio de los componentes principales proporciona una visión integral de la estructura subyacente de las variables y cómo se relacionan entre sí en el contexto de la base de datos.

Al profundizar en la exploración de los componentes principales, se destaca la importancia de comprender la distribución y la interacción de las variables en el plano. La disposición de las variables en diferentes cuadrantes revela patrones y relaciones significativas que pueden ser cruciales para entender la complejidad y la heterogeneidad de los datos. La presencia de variables relacionadas con la infraestructura en un cuadrante específico sugiere una coherencia interna y una agrupación temática, mientras que la dispersión de otras variables en diferentes cuadrantes podría indicar la existencia de subgrupos o dimensiones latentes dentro del conjunto de datos. Este enfoque de visualización en el espacio de los componentes principales proporciona una base sólida para la interpretación y la comprensión más profunda de la estructura y la dinámica de los datos, lo que puede ser invaluable para la toma de decisiones y la formulación de estrategias en diversos contextos analíticos y de investigación.

Conclusiones

El Análisis de Componentes Principales (PCA) al explorar los resultados detallados,se pone a manifiesto una comprensión esencial de las contribuciones de cada componente a la variabilidad total. En particular, la primera componente principal, que tiene una contribución de 52.57% y la segunda componente principal, con una contribución del 22.2%, conjuntamente representan un significativo 74.59% de la variabilidad observada. Estos resultados subrayan la habilidad del PCA para discernir patrones y descomponer relaciones subyacentes que dan forma a las disparidades presentes en los datos.

Es fundamental reconocer que las variables en las componentes principales brindan un enfoque estratégico para abordar futuros análisis y modelización. En contextos como la selección de modelos de regresión, las dos primeras componentes pueden actuar como predictores clave. En contraposición, la inclusión de las cinco variables originales en un modelo de regresión múltiple proporciona una visión más integral.

Además, la interpretación detallada de las componentes principales revela la naturaleza inherente de las variables y sus interacciones. Al examinar los vectores propios asociados con cada componente, podemos identificar las características más influyentes en la estructura de los datos. Este análisis permite una comprensión más profunda de los factores que contribuyen significativamente a la variabilidad observada. Por lo tanto, al considerar tanto la contribución de cada componente como la interpretación de los vectores propios, podemos obtener una visión más completa y precisa de la complejidad de los datos, lo que facilita la toma de decisiones y la formulación de estrategias en análisis posteriores.

#Análisis de conglomerados

La sección de análisis de conglomerados tiene como objetivo agrupar las propiedades residenciales en segmentos homogéneos con características similares. Esta práctica nos permite comprender las dinámicas y demandas específicas en diferentes partes de la ciudad y en distintos estratos socioeconómicos.

Para llevar a cabo este análisis, se seleccionan cuidadosamente las variables numéricas más relevantes. En este contexto, se consideran variables como estrato, precio por metro cuadrado, área construida, cantidad de baños, cantidad de habitaciones, longitud y latitud. Estas variables ofrecen una representación integral de las características fundamentales de las propiedades y permiten identificar patrones significativos que guiarán la formación de los conglomerados.

variables_analisis <- housing[, c('estrato', 'preciom', 'areaconst', 'parqueaderos', 'banios', 'habitaciones', 'longitud', 'latitud')]
datos_normalizados <- scale(variables_analisis)
summary(datos_normalizados)
##     estrato           preciom          areaconst        parqueaderos    
##  Min.   :-1.5872   Min.   :-1.1437   Min.   :-1.0138   Min.   :-0.8263  
##  1st Qu.:-0.6156   1st Qu.:-0.6508   1st Qu.:-0.6640   1st Qu.:-0.8263  
##  Median : 0.3560   Median :-0.3161   Median :-0.3633   Median : 0.0000  
##  Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000  
##  3rd Qu.: 0.3560   3rd Qu.: 0.3228   3rd Qu.: 0.3782   3rd Qu.: 0.1630  
##  Max.   : 1.3276   Max.   : 4.7620   Max.   :10.9822   Max.   : 8.0776  
##      banios          habitaciones        longitud           latitud        
##  Min.   :-2.17847   Min.   :-2.4702   Min.   :-3.47989   Min.   :-1.98516  
##  1st Qu.:-0.77812   1st Qu.:-0.4148   1st Qu.:-0.74572   1st Qu.:-0.86422  
##  Median :-0.07794   Median :-0.4148   Median :-0.08013   Median :-0.03856  
##  Mean   : 0.00000   Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.00000  
##  3rd Qu.: 0.62224   3rd Qu.: 0.2704   3rd Qu.: 0.55844   3rd Qu.: 0.80575  
##  Max.   : 4.82330   Max.   : 4.3813   Max.   : 3.77083   Max.   : 1.87755

Determinar el número óptimo de clústeres

# Creamos una función para calcular la suma de los cuadrados internos (WCSS) para diferentes números de clústeres
calcular_wcss <- function(data, k_max) {
  wcss <- vector("numeric", length = k_max)
  for (k in 1:k_max) {
    model <- kmeans(data, centers = k, nstart = 10)
    wcss[k] <- model$tot.withinss
  }
  return(wcss)
}

# Aplicamos la función para diferentes números de clústeres
k_max <- 9
wcss_valores <- calcular_wcss(datos_normalizados, k_max)

# Graficamos la curva del codo para identificar el número óptimo de clústeres
plot(1:k_max, wcss_valores, type = "b", pch = 19, frame = FALSE, xlab = "Número de clústeres", ylab = "Suma de cuadrados internos",col = "#5586B3")

Antes de aplicar el algoritmo K-Means para agrupar las viviendas, es imperativo determinar el número óptimo de clústeres que mejor exprese la estructura subyacente de los datos. En este contexto, se emplea el método del codo (Elbow Method) para identificar dicho número óptimo.

El método del codo se basa en la evaluación de la Suma de Cuadrados Internos (WCSS), la cual refleja la dispersión interna de los puntos dentro de cada clúster. El proceso implica trazar la curva de la WCSS en función del número de clústeres. El objetivo es discernir el “codo” en el gráfico, que representa el punto en el cual el incremento en el número de clústeres ya no conlleva una reducción significativa en la WCSS. Este punto crítico indica el número óptimo de clústeres que mejor captura la estructura de los datos y permite una agrupación coherente y significativa de las viviendas.

K-Means

# Definimos el número óptimo de clústeres
num_clusters <- 4

# Aplicamos el algoritmo K-Means
modelo_kmeans <- kmeans(datos_normalizados, centers = num_clusters, nstart = 10)

# Agregamos los resultados del clustering al conjunto de datos original
housing1$cluster <- as.factor(modelo_kmeans$cluster)

Con el número óptimo de clústeres determinado, en este caso 4 , se aplica el algoritmo K-Means para agrupar las viviendas en clústeres.

Distribución de las viviendas en cada clúster

table(housing1$cluster)
## 
##    1    2    3    4 
## 1898 1373 4011 1037
colores_personalizados <- c("#009092", "#ffff00", "#1C5A99", "#e10221")

# Gráfico de barras para mostrar la distribución de viviendas en cada clúster
ggplot(housing1, aes(x = factor(cluster))) +
  geom_bar(fill = colores_personalizados) +  
  labs(title = "Distribución de viviendas en cada clúster",
       x = "Clúster",
       y = "Cantidad de viviendas") +
  theme_minimal() +
  geom_text(stat='count', aes(label=..count..), vjust=-0.5)
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Ahora notemos la relacion entre precio y area construida

# Diagrama de dispersión para la relación entre 'preciom' y 'areaconst'
ggplot(housing1, aes(x = preciom, y = areaconst, color = factor(cluster))) +
  geom_point() +
  labs(title = "Relación entre precio y área construida por clúster",
       x = "Precio",
       y = "Área construida",
       color = "Clúster") +
  theme_minimal() +
  theme(legend.position = "bottom")

El diagrama de dispersión ofrece una representación visual de la relación entre el precio y el área construida de las propiedades residenciales. Cada punto en el gráfico representa una propiedad específica, y los colores de los puntos están codificados según el clúster al que pertenecen. Esta técnica de visualización permite analizar la naturaleza de la relación entre dos variables y cómo estas relaciones difieren entre los diversos clústeres identificados.

En términos de conclusiones, el análisis de conglomerados juega un papel esencial en la solución de los desafíos planteados por la empresa inmobiliaria. Al explorar minuciosamente la base de datos detallada de propiedades residenciales, hemos identificado agrupamientos significativos y patrones clave que anteriormente estaban ocultos. Estos agrupamientos permiten una comprensión más profunda de las dinámicas del mercado de viviendas urbanas, lo cual es crucial para la toma de decisiones estratégicas más fundamentadas. Al emplear el Análisis de Conglomerados, hemos segmentado las propiedades en grupos que comparten similitudes en términos de características como estrato, precio y habitación.

Este análisis resalta la importancia de comprender las propiedades que pueden tener un impacto significativo en el mercado y cómo estas características pueden influir en las estrategias de compra, venta y valoración. En su conjunto, este enfoque respalda la misión de la empresa de tomar decisiones estratégicas más certeras y proactivas en el competitivo mercado inmobiliario.

#Análisis de Correspondencia

El análisis de correspondencia es una técnica estadística poderosa que se utiliza para explorar la relación entre variables categóricas y numéricas en conjuntos de datos complejos. En el contexto del mercado inmobiliario, el análisis de correspondencia se emplea para examinar la relación entre variables categóricas, como el tipo de vivienda, la zona y el barrio, y variables numéricas, como el precio, el área construida, el número de parqueaderos, los baños y las habitaciones. El objetivo es identificar patrones de comportamiento que subyacen en estas relaciones, lo que proporciona una comprensión más profunda de la dinámica del mercado y permite tomar decisiones estratégicas más fundamentadas.

Para llevar a cabo este análisis, se construye una tabla cruzada que organiza y resume la interacción entre las variables categóricas y numéricas mencionadas. Específicamente, se estructura una tabla que relaciona la zona y el estrato con las demás variables de interés. Esta tabla proporciona una representación visual y sistemática de las asociaciones entre las diferentes variables, lo que facilita la identificación de patrones significativos y la interpretación de la estructura subyacente del mercado inmobiliario.

library(FactoMineR)
tabla <- table(housing$zona, housing$estrato)
tabla
##               
##                   3    4    5    6
##   Zona Centro   105   14    4    1
##   Zona Norte    572  407  769  172
##   Zona Oeste     54   84  290  770
##   Zona Oriente  340    8    2    1
##   Zona Sur      382 1616 1685 1043
chisq.test(tabla)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 3830.4, df = 12, p-value < 2.2e-16

Los hallazgos muestran que la hipótesis de independencia entre las variables es rechazada, lo que sugiere la existencia de una relación significativa entre ellas.

Para profundizar en el análisis, se lleva a cabo un estudio de correspondencia, el cual implica la estimación de coordenadas para cada nivel de ambas variables y su posterior representación en un plano cartesiano. Este enfoque nos permite visualizar de manera efectiva la relación entre las variables y capturar la estructura subyacente de los datos.

library(FactoMineR)
library(factoextra)
library(gridExtra)

resultados_ac <- CA(tabla)

La visualización nos facilita la identificación y validación de relaciones específicas, tales como: la asociación del estrato 6 con la Zona Oeste, la predominancia de los estratos 4 y 5 en la Zona Sur, y la presencia del estrato 3 en las Zonas Oriente y Centro.

valores_prop <-resultados_ac$eig ; valores_prop
##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.32215213              69.965515                          69.96551
## dim 2 0.12745096              27.680002                          97.64552
## dim 3 0.01084108               2.354483                         100.00000
fviz_screeplot(resultados_ac, addlabels = TRUE, ylim = c(0, 80))+ggtitle("")+
  ylab("Porcentaje de varianza explicado") + xlab("Ejes")

La visualización gráfica resultante ofrece una perspectiva valiosa de las relaciones entre las variables estrato y zona en el mercado inmobiliario. Identificamos patrones significativos que permiten una segmentación más precisa del mercado y una mejor comprensión de las preferencias de los compradores en diferentes áreas geográficas.

Fortalecimiento de Tendencias Identificadas Visualmente

Este enfoque estadístico refuerza la validez de las tendencias previamente identificadas visualmente y establece un fundamento sólido para guiar las decisiones estratégicas en el ámbito inmobiliario.

Conclusiones Generales: Reducción de Dimensionalidad y Análisis de Correspondencia

La reducción de dimensionalidad mediante PCA permitió identificar las variables numéricas más influyentes en la variabilidad del mercado inmobiliario. Se capturó el 74.7 % de la varianza total con los primeros 2 componentes. Por otro lado, el análisis de correspondencia reveló relaciones significativas entre las variables categóricas y numéricas, lo que sugiere cómo factores como el tipo de propiedad y la zona se relacionan con características numéricas como el precio y el tamaño.

Agrupamientos Claros en la Gráfica de PCA

Se observaron agrupamientos claros de propiedades en la gráfica “PCA graph of individuals”, lo que sugiere la existencia de segmentos distintos en el mercado inmobiliario, como propiedades de lujo, propiedades urbanas, entre otros.

Recomendaciones Estratégicas

Valoración Precisa: Utilizar las variables más influyentes identificadas por el análisis PCA para mejorar la valoración precisa de las propiedades, considerando factores clave.

Segmentación de Mercado: Utilizar los resultados del análisis de agrupamientos para desarrollar estrategias de segmentación de mercado dirigidas a diferentes tipos de propiedades y compradores.

El análisis de datos ha proporcionado una comprensión más profunda y cuantificable del mercado inmobiliario. Esto puede conducir a la optimización de la inversión y la maximización de los beneficios a través de estrategias, generando una ventaja competitiva significativa en un entorno altamente competitivo y en constante cambio.