Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
# Instalar paquetes necesarios
#install.packages("learnr")
#install.packages("devtools") # solo una vez
devtools::install_github("dgonxalex80/paqueteMOD", force= TRUE, quietly=TRUE) #descarga paquete
## ── R CMD build ─────────────────────────────────────────────────────────────────
##
✔ checking for file 'C:\Users\alvaro.cote\AppData\Local\Temp\RtmpE5AcnO\remotes3fd43a6a7053\dgonxalex80-paqueteMOD-f93b750/DESCRIPTION' (341ms)
##
─ preparing 'paqueteDAT':
## checking DESCRIPTION meta-information ...
✔ checking DESCRIPTION meta-information
##
─ checking for LF line-endings in source and make files and shell scripts
##
─ checking for empty or unneeded directories
## ─ building 'paqueteDAT_0.1.0.tar.gz'
##
##
#install.packages("cluster")
#install.packages("FactoMineR")
# Cargar paquetes necesarios
library("paqueteDAT")
#library("paqueteMOD")
library(dplyr)
library(ggplot2)
library(FactoMineR)
library(factoextra)
library(cluster)
# Cargar los datos de la BD Vivienda
head(vivienda)
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Se notó que los tres registros más recientes en la base de datos carecían de información, ya que solo contenían valores NA. Por esta razón, se procedió a su eliminación. Además, se reemplazaron los valores NA por 0 en la columna “parqueaderos” y se realizó un ajuste similar en la columna “pisos”. En cuanto a la columna “tipo”, se llevó a cabo una estandarización para unificar la denominación de los apartamentos, ya que se encontraron casos en los que se utilizaban “Apartamentos” y “Apto”, que en esencia hacen referencia a lo mismo, para almacenar esta nueva base de datos se creo un nuevo Data Frame con el nombre de “vivienda_dep” que significa la base de datos de vivienda depurada.
# Eliminar registros donde la columna zona = "NA"
vivienda_dep <- subset(vivienda, zona != "NA")
# Reemplazar NA por 0 en la columna "parqueaderos"
vivienda_dep$parqueaderos <- ifelse(is.na(vivienda_dep$parqueaderos), 0, vivienda_dep$parqueaderos)
# Reemplazar NA por 0 en la columna "piso"
vivienda_dep$piso <- ifelse(is.na(vivienda_dep$piso), 0, vivienda_dep$piso)
# Normalizar valores "Apartamento" y "apto" en la columna tipo
vivienda_dep$tipo <- ifelse(vivienda_dep$tipo == "apto", "Apartamento", vivienda_dep$tipo)
#Visualizar la nueva BD "vivienda_dep"
vivienda_dep
## # A tibble: 8,319 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona … 0 3 250 70 1 3 6
## 2 1169 Zona … 0 3 320 120 1 2 3
## 3 1350 Zona … 0 3 350 220 2 2 4
## 4 5992 Zona … 02 4 400 280 3 5 3
## 5 1212 Zona … 01 5 260 90 1 2 3
## 6 1724 Zona … 01 5 240 87 1 3 3
## 7 2326 Zona … 01 4 220 52 2 2 3
## 8 4386 Zona … 01 5 310 137 2 3 4
## 9 1209 Zona … 02 5 320 150 2 4 6
## 10 1592 Zona … 02 5 780 380 2 3 3
## # ℹ 8,309 more rows
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
# Configurar el diseño del gráfico
par(mfrow = c(3, 2)) # 3 filas y 2 columnas para 6 histogramas
# Histogramas de frecuencia para la variable estrato
hist(vivienda_dep$estrato, main = "Estratos", xlab = "estrato", ylab = "Estratificación",col = "#2F4F4F")
# Histogramas de frecuencia para la variable preciom
hist(vivienda_dep$preciom, main = "Precios", xlab = "preciom", ylab = "Cantidad",col = "#00868B")
# Histogramas de frecuencia para la variable areaconst
hist(vivienda_dep$areaconst, main = "Área_construida", xlab = "areaconst", ylab = "Mts2",col = "slateblue4")
# Histogramas de frecuencia para la variable parqueaderos
hist(vivienda_dep$parqueaderos, main = "Parqueaderos", xlab = "parqueaderos", ylab = "Cantidad",col = "deeppink3")
# Histogramas de frecuencia para la variable banios
hist(vivienda_dep$banios, main = "Baños", xlab = "banios", ylab = "cantidad",col = "#1E90FF")
# Histogramas de frecuencia para la variable habitaciones
hist(vivienda_dep$habitaciones, main = "Habitaciones", xlab = "habitaciones", ylab = "Cantidad",col = "#00CD00")
Mediante el análisis de los histogramas, es posible visualizar cómo están distribuidos los datos y cuántas veces se presentan los diferentes valores en cada gráfica. se puede notar de manera clara que la información correspondiente a cada una de las variables representadas revela patrones no convencionales en los datos, lo que indica que no siguen una distribución simétrica alrededor de un punto central. Además, en ciertos casos se pueden identificar valores fuera de contexto, que son puntos de datos que se alejan significativamente del patrón general, sugiriendo posibles fenómenos atípicos o errores en la medición. Estos aspectos resaltan la importancia de comprender la estructura y comportamiento de los datos .
Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y preferencias del mercado.
# Cargar la base de datos
data("vivienda_dep")
## Warning in data("vivienda_dep"): data set 'vivienda_dep' not found
# Realizamos el Análisis de Componentes Principales (PCA)
# Paso 1: Seleccionar las variables numéricas relevantes para el PCA (estrato, preciom, areaconst, parqueaderos, banios, habitaciones, longitud, latitud)
vars_pca <- vivienda_dep %>%
select(estrato, preciom, areaconst, parqueaderos, banios, habitaciones, longitud, latitud)
# Paso 2: Estandarizamos las variables antes de aplicar el PCA
vars_pca_standardized <- scale(vars_pca)
# Paso 3: Aplicamos el PCA
pca_result <- PCA(vars_pca_standardized, graph = FALSE)
Explorar los resultados del PCA
# Explorar los resultados del PCA
summary(pca_result)
##
## Call:
## PCA(X = vars_pca_standardized, graph = FALSE)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 3.609 1.503 0.904 0.694 0.436 0.427 0.240
## % of var. 45.117 18.782 11.294 8.671 5.454 5.334 2.998
## Cumulative % of var. 45.117 63.899 75.193 83.865 89.318 94.652 97.649
## Dim.8
## Variance 0.188
## % of var. 2.351
## Cumulative % of var. 100.000
##
## Individuals (the 10 first)
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3
## 1 | 2.704 | -1.180 0.005 0.190 | 2.027 0.033 0.562 | -0.735
## 2 | 2.174 | -1.750 0.010 0.648 | 0.764 0.005 0.123 | 0.097
## 3 | 2.072 | -0.891 0.003 0.185 | 1.222 0.012 0.348 | 0.056
## 4 | 2.222 | 1.121 0.004 0.255 | 0.291 0.001 0.017 | 0.346
## 5 | 1.838 | -1.304 0.006 0.503 | 0.053 0.000 0.001 | 1.027
## 6 | 1.700 | -0.719 0.002 0.179 | -0.670 0.004 0.155 | -0.846
## 7 | 1.672 | -1.302 0.006 0.607 | -0.124 0.000 0.005 | 0.235
## 8 | 1.129 | 0.175 0.000 0.024 | -0.493 0.002 0.191 | -0.701
## 9 | 2.532 | 0.347 0.000 0.019 | 1.767 0.025 0.487 | 0.768
## 10 | 2.602 | 0.860 0.002 0.109 | 0.837 0.006 0.103 | 1.997
## ctr cos2
## 1 0.007 0.074 |
## 2 0.000 0.002 |
## 3 0.000 0.001 |
## 4 0.002 0.024 |
## 5 0.014 0.312 |
## 6 0.010 0.248 |
## 7 0.001 0.020 |
## 8 0.007 0.386 |
## 9 0.008 0.092 |
## 10 0.053 0.589 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## estrato | 0.660 12.081 0.436 | -0.537 19.169 0.288 | 0.233 6.023
## preciom | 0.882 21.563 0.778 | -0.048 0.153 0.002 | 0.207 4.752
## areaconst | 0.781 16.908 0.610 | 0.365 8.891 0.134 | 0.001 0.000
## parqueaderos | 0.760 15.988 0.577 | -0.130 1.131 0.017 | 0.183 3.714
## banios | 0.843 19.667 0.710 | 0.272 4.940 0.074 | -0.101 1.124
## habitaciones | 0.474 6.220 0.224 | 0.706 33.213 0.499 | -0.332 12.188
## longitud | -0.466 6.005 0.217 | 0.524 18.275 0.275 | 0.095 0.990
## latitud | -0.238 1.569 0.057 | 0.462 14.228 0.214 | 0.802 71.209
## cos2
## estrato 0.054 |
## preciom 0.043 |
## areaconst 0.000 |
## parqueaderos 0.034 |
## banios 0.010 |
## habitaciones 0.110 |
## longitud 0.009 |
## latitud 0.643 |
# Paso 4: Visualizamos la proporción de varianza explicada por cada componente
fviz_eig(pca_result, addlabels = TRUE)
En este gráfico, el componente principal tiene el 45.1% de la variabilidad presente en el conjunto de datos. Al considerar los tres primeros componentes principales, se engloba más del 75% de la información (45.1+18.8+11.3 = 75.2), lo que sugiere la capacidad de condensar una considerable porción de la variabilidad contenida en la base de datos utilizando únicamente una variable.
El gráfico de proporción de varianza explicada es una representación visual clave en el análisis de componentes principales (PCA). Ayuda a entender cuánta información captura cada componente principal y cuán importante es en la representación de los datos originales.
En el eje x (horizontal), vemos los números de los componentes principales, como CP1, CP2, CP3, y así sucesivamente. Cada componente principal representa una combinación lineal de las variables originales.
En el eje y (vertical), se observa el porcentaje de varianza explicada por cada componente principal. Este porcentaje muestra cuánto de la variabilidad total de los datos es capturada por ese componente en particular.
Observando el gráfico se infiere lo siguiente:
CP1 explica aproximadamente el 45.1% de la varianza total. Esto significa que CP1 captura una cantidad significativa de información en los datos originales y es una parte importante para entender la variabilidad en las propiedades residenciales.
CP2 explica alrededor del 18.1% de la varianza total. Aunque es menos que CP1, aún es una cantidad considerable y agrega una perspectiva adicional a la variabilidad.
CP3 y los componentes posteriores explican una proporción cada vez menor de la varianza. Esto sugiere que la mayoría de la información importante ya ha sido capturada por los primeros componentes.
# Paso 5: Creamos el gráfico de círculo de correlación utilizando los resultados del PCA (pca_result)
circle_plot <- factoextra::fviz_pca_var(pca_result,
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE)
# Mostrar el gráfico de círculo de correlación
print(circle_plot)
Sin tener en cuenta las variables “longitud” y “latitud” ya que para este caso no son relevantes, se observa lo siguiente en el gráfico de círculo de correlación
La variable “parqueaderos” se encuentra cerca del centro del círculo, lo que sugiere una correlación débil con las primeras componentes principales. Esto indica que la variable “parqueaderos” no tiene una influencia significativa en las propiedades capturadas por las componentes principales.
Las variables “habitaciones” y” banios” están ubicadas en la parte superior derecha del círculo y alejadas del centro. Esto indica una correlación positiva y una contribución significativa a las componentes. Esto sugiere que las variables “habitaciones” y” banios” tienen un impacto importante en las propiedades que se extienden en la dirección de las componentes.
Las variables “areaconst”, “preciom” y “estrato” también están alejadas del centro y posicionadas en diferentes direcciones. Esto sugiere que estas variables contribuyen a diferentes aspectos de las propiedades capturadas por las componentes principales.
# Paso 6: Analizamos la contribución de cada variable a las dos primeras componentes principales
fviz_contrib(pca_result, choice = "var", axes = 1:2)
Contribución de las variables: El gráfico “Variable Contributions” muestra la contribución de cada variable a la variabilidad de las dos primeras componentes principales. Las variables “banios”, “preciom” ,“areaconst”, “estrato”, “instalaciones” con contribuciones más altas, tienen un mayor impacto en la formación de las componentes principales
Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas y demandas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos
# Seleccionamos las variables numéricas para el análisis
variables_analisis <- vivienda_dep[, c('estrato', 'preciom', 'areaconst', 'parqueaderos', 'banios', 'habitaciones', 'longitud', 'latitud')]
Para el análisis de conglomerados, seleccionamos las variables numéricas que queremos incluir. En este caso, seleccionamos ‘estrato’, ‘preciom’, ‘areaconst’, ‘parqueaderos’, ‘banios’, ‘habitaciones’, ‘longitud’ y ‘latitud’.
# Normalizamos los datos utilizando la función scale()
datos_normalizados <- scale(variables_analisis)
Es importante normalizar los datos antes de realizar el análisis de conglomerados, ya que las variables pueden tener diferentes escalas y esto puede afectar los resultados del algoritmo K-Means.
summary(datos_normalizados)
## estrato preciom areaconst parqueaderos
## Min. :-1.5872 Min. :-1.1437 Min. :-1.0138 Min. :-1.1920
## 1st Qu.:-0.6156 1st Qu.:-0.6508 1st Qu.:-0.6640 1st Qu.:-0.3876
## Median : 0.3560 Median :-0.3161 Median :-0.3633 Median :-0.3876
## Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.3560 3rd Qu.: 0.3228 3rd Qu.: 0.3782 3rd Qu.: 0.4169
## Max. : 1.3276 Max. : 4.7620 Max. :10.9822 Max. : 6.8521
## banios habitaciones longitud latitud
## Min. :-2.17847 Min. :-2.4702 Min. :-3.47989 Min. :-1.98516
## 1st Qu.:-0.77812 1st Qu.:-0.4148 1st Qu.:-0.74572 1st Qu.:-0.86422
## Median :-0.07794 Median :-0.4148 Median :-0.08013 Median :-0.03856
## Mean : 0.00000 Mean : 0.0000 Mean : 0.00000 Mean : 0.00000
## 3rd Qu.: 0.62224 3rd Qu.: 0.2704 3rd Qu.: 0.55844 3rd Qu.: 0.80575
## Max. : 4.82330 Max. : 4.3813 Max. : 3.77083 Max. : 1.87755
# Creamos una función para calcular la suma de los cuadrados internos (WCSS) para diferentes números de clústeres
calcular_wcss <- function(data, k_max) {
wcss <- vector("numeric", length = k_max)
for (k in 1:k_max) {
model <- kmeans(data, centers = k, nstart = 10)
wcss[k] <- model$tot.withinss
}
return(wcss)
}
# Aplicamos la función para diferentes números de clústeres
k_max <- 9
wcss_valores <- calcular_wcss(datos_normalizados, k_max)
# Graficamos la curva del codo para identificar el número óptimo de clústeres
plot(1:k_max, wcss_valores, type = "b", pch = 19, frame = FALSE, xlab = "Número de clústeres", ylab = "Suma de cuadrados internos",col = "#5586B3")
Antes de aplicar el algoritmo K-Means, es necesario determinar el número óptimo de clústeres para agrupar las viviendas. En este caso se utilizó el método del codo (Elbow Method) para encontrar el número óptimo de clústeres que explica la mayor varianza en los datos.
El gráfico de la curva del codo representa la Suma de Cuadrados Internos (WCSS) en función del número de clústeres. La WCSS es una métrica que mide la dispersión interna de los puntos dentro de cada clúster. La idea es identificar el “codo”, es decir, el punto en el cual el aumento en el número de clústeres deja de reducir significativamente la WCSS.
En el gráfico generado:
El eje x (horizontal) representa el número de clústeres que se están considerando.
El eje y (vertical) representa la WCSS correspondiente a cada número de clústeres.
A medida que aumenta el número de clústeres, inicialmente observamos una disminución pronunciada en la WCSS. Esto se debe a que al tener más clústeres, los puntos tienden a estar más cerca de sus centros, lo que reduce la dispersión interna. Sin embargo, a medida que continuamos aumentando el número de clústeres, la disminución en la WCSS se vuelve menos pronunciada.
El “codo” en el gráfico es el punto en el que la disminución en la WCSS se suaviza, formando una curva similar a un codo. Este punto es importante porque sugiere que agregar más clústeres a partir de ese punto podría no estar justificado en términos de reducción significativa en la dispersión interna, es decir, el “codo” representa un equilibrio entre la complejidad del modelo y la capacidad de explicar la variación en los datos.
En el gráfico generado se puede interpretar que el número óptimo de clústeres se encuentra alrededor de los 4 o 5 clústeres, ya que después de ese punto, la disminución en la WCSS es más marcada.
# Definimos el número óptimo de clústeres (para nuestro análisis 4)
num_clusters <- 4
# Aplicamos el algoritmo K-Means
modelo_kmeans <- kmeans(datos_normalizados, centers = num_clusters, nstart = 10)
# Agregamos los resultados del clustering al conjunto de datos original
vivienda_dep$cluster <- as.factor(modelo_kmeans$cluster)
Con el número óptimo de clústeres determinado, en este caso 4 , se aplica el algoritmo K-Means para agrupar las viviendas en clústeres.
# Visualizamos la distribución de las viviendas en cada clúster
table(vivienda_dep$cluster)
##
## 1 2 3 4
## 1099 3122 925 3173
# Paleta de colores personalizada
colores_personalizados <- c("#F67C6D", "#1A7332", "#1C5A99", "#7466C3")
# Gráfico de barras para mostrar la distribución de viviendas en cada clúster
ggplot(vivienda_dep, aes(x = factor(cluster))) +
geom_bar(fill = colores_personalizados) +
labs(title = "Distribución de viviendas en cada clúster",
x = "Clúster",
y = "Cantidad de viviendas") +
theme_minimal() +
geom_text(stat='count', aes(label=..count..), vjust=-0.5)
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
El gráfico de barras representa la distribución de viviendas en cada clúster.
En el gráfico generado:
El eje x (horizontal) representa los diferentes clústeres en tu análisis.
El eje y (vertical) representa la cantidad de viviendas en cada clúster.
Cada barra en el gráfico representa un clúster específico y su altura muestra la cantidad de viviendas en ese clúster en particular, he agragado las etiquetas en la parte superior de cada barra con el fin de mostrar la cantidad exacta de viviendas en cada clúster y así obtener información cuantitativa adicional y facilitar la interpretación de los valores exactos.
Se observa en el gráfico que algunas barras son significativamente más altas que otras (barra con 3121 viviendas, barra con 3172 viviendas), esto sugiere que estos clústeres que tienen una mayor concentración de viviendas en comparación con otros es un indicador de que ciertos segmentos del mercado inmobiliario están más representados en esos clústeres.
# Mapa con colores para representar cada clúster
ggplot(vivienda_dep, aes(x = longitud, y = latitud, color = factor(cluster))) +
geom_point() +
labs(title = "Clústeres de propiedades residenciales",
x = "Longitud",
y = "Latitud",
color = "Clúster") +
theme_minimal() +
theme(legend.position = "bottom")
El mapa generado muestra la ubicación geográfica de las propiedades residenciales en función de las coordenadas de longitud y latitud. Cada punto en el mapa representa una propiedad, y los colores de los puntos están codificados según el clúster al que pertenecen. Este enfoque permite visualizar las agrupaciones geográficas de las viviendas con características similares.
para interpretar la gráfica nos valemos de la siguiente imágen que nos indica hacia donde aumenta o disminuye tanto la altitud cómo la longitud y para el análisis partimos desde el centro de la ciudad :
Distribución geográfica: Los puntos en el mapa indican dónde se encuentran las propiedades residenciales en la ciudad. en el gráfico se observa cómo las viendas se agrupan más hacia el suroeste de la ciudad, allí se agrupan viviendas con características socioeconómicas muy similares entre sí
Patrones espaciales: Al observar el mapa, es posible identificar patrones espaciales como por ejemplo, se puede inferir que las personas de mas estrato tienden a vivir a las afueras de la ciudad, también se observa que la mayor parte de viviendas se concentran hacia el oeste de la ciudad , la parte oriental es más despoblada en cuanto a viviendas se refiere
Segmentos de mercado: Las propiedades que se encuentran en la zona sur oeste de la ciudad son las viviendas que comparten mayor número de características similares como estrato, precio, area construida y número de habitaciones por vivienda
Toma de decisiones: una estrategia de marketing para construcción puede estar dirigida al segmento Nor-oriental de la ciudad pues allí se encuentran las viviendas con mayor área construida
Identificación de oportunidades: en el área sureste de la ciudad se puede tener oportunidades de inversión, desarrollo o expansión. pues es allí donde hay poca vivienda construida y los terrenos o areas para construir podrían ser más económicos que en cualquier otro lugar
# Tabla resumen de características promedio por clúster
tabla_resumen <- vivienda_dep %>%
group_by(cluster) %>%
summarise(promedio_estrato = mean(estrato),
promedio_preciom = mean(preciom),
promedio_areaconst = mean(areaconst),
promedio_parqueaderos = mean(parqueaderos),
promedio_banios = mean(banios),
promedio_habitaciones = mean(habitaciones))
# Mostrar tabla resumen
print(tabla_resumen)
## # A tibble: 4 × 7
## cluster promedio_estrato promedio_preciom promedio_areaconst
## <fct> <dbl> <dbl> <dbl>
## 1 1 5.73 1074. 390.
## 2 2 3.85 209. 90.7
## 3 3 3.95 451. 303.
## 4 4 5.23 429. 146.
## # ℹ 3 more variables: promedio_parqueaderos <dbl>, promedio_banios <dbl>,
## # promedio_habitaciones <dbl>
La tabla se muestra las características promedio de las propiedades residenciales en cada clúster, Cada fila en la tabla representa un clúster específico, y las columnas muestran las diferentes características promedio de las viviendas en ese clúster.
Interpretación:
Estrato promedio: La columna “promedio_estrato” muestra el estrato socioeconómico promedio de las viviendas en cada clúster. Un valor más alto indica un estrato más alto, por ejemplo las viviendas cuyos valores del estrato promedio superan 4.00 podría relacionarse con propiedades de mayor calidad y precios más altos.
Precio promedio: La columna “promedio_preciom” indica el precio promedio de las viviendas que para este caso es 209, 429, 449, 1072 respectivamente de acuerdo a cada clúster
Área construida promedio: La columna “promedio_areaconst” representa el área construida promedio de las propiedades en cada clúster. para el análisis se observa que el promedio de las áreas construidas dió como resultado (90.6, 46,303,390) para cada cluster lo que indica que varía el tamaño de las viviendas entre diferentes segmentos del mercado.
Número promedio de parqueaderos: La columna “promedio_parqueaderos” muestra el número promedio de parqueaderos por vivienda en cada clúster. Esto podría indicar preferencias de estacionamiento en diferentes segmentos del mercado, es el caso de un promedio de 3,48 parqueaderos para los estratos más altos .
Número promedio de baños: La columna “promedio_banios” refleja el número promedio de baños por vivienda en cada clúster. hay un promedio de 5 baños para viviendas de estrato 5 mientras que para viviendas de estratos bajos el promedio es de 1 baño por vivienda
Número promedio de habitaciones: La columna “promedio_habitaciones” muestra el número promedio de habitaciones por vivienda en cada clúster. las viviendas de estratos bajos en promedio tienen 2 habitaciones, mientras que para estratos altos el promedio es de 6 o más habitaciones por vivienda
La tabla resumen permite comparar y contrastar las características promedio de las propiedades en diferentes clústeres. esta información se puede utilizar para Identificar patrones, en la tabla se puede observar que a mayor estrato (5,72), mayor número de parqueaderos(3,48), a mayor estrato(5,72),, mayor precio de la vivienda (1072), a mayor estrato(5,72), , mayor numero de baños (5,04) .
Segmentación del mercado: los que menos construyen son los de estrato más bajo , los de estratos inferiores a 3.85, construyen un promedio de 90,6m2 lo que está muy por debajo de los demás estratos
Estrategias comerciales: se puede realizar marketing sobre construcción para los estratos mayores o iguales a 5,72 ya que allí es el sector donde más se construye.
# Diagrama de dispersión para la relación entre 'preciom' y 'areaconst'
ggplot(vivienda_dep, aes(x = preciom, y = areaconst, color = factor(cluster))) +
geom_point() +
labs(title = "Relación entre precio y área construida por clúster",
x = "Precio",
y = "Área construida",
color = "Clúster") +
theme_minimal() +
theme(legend.position = "bottom")
El diagrama de dispersión representa gráficamente la relación entre el precio y el área construida de las propiedades residenciales. Cada punto en el gráfico representa una propiedad específica, y los colores de los puntos están codificados según el clúster al que pertenecen. Este tipo de visualización permite analizar cómo se relacionan dos variables y cómo estas relaciones varían entre los diferentes clústeres.
Interpretación:
Patrón general: Observando el gráfico, se puede identificar que existe un patrón general en la relación entre el precio y el área construida. los precios tienden a disminuir a medida que el área construida disminuye
Tendencias por clúster: Los colores de los puntos indican a qué clúster pertenece cada propiedad. Esto permite analizar que los cluster que tienen mayor cantidad de viviendas (Clúster 3121 viviendas y Clúster = 3172 Viviendas) son los que menor área construida tienen y por ende menores los precios de sus viviendas
Segmentación del mercado: Hay un segmentos de mercado con preferencias particulares en términos de relación entre precio y área construida y es que el Clúster = 922 viviendas que es el de menor catidad de viviendas posee, es el que tiene viviendas con el máyor número de áreas construidas .
Outliers: si se observa la gráfica los puntos que están muy lejos de la tendencia general o outliers son aquellos puntos o propiedas cuyos precios son muy elevados y que están por encima del promedio .
Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio) y las variables numéricas (precio, área construida, número de parqueaderos, baños, habitaciones) para identificar patrones de comportamiento del mercado inmobiliario.
# Creamos un nuevo dataframe solo con las variables categóricas
vivienda_categ <- vivienda_dep[, c("tipo", "zona", "barrio")]
# Realizamos el Análisis de Correspondencia Múltiple (MCA) para las variables categóricas
mca_result <- MCA(vivienda_categ)
La gráfica “Variables representation” muestra cómo se distribuyen y agrupan las variables categóricas en el espacio de dimensiones reducidas creado por el análisis. Cada variable categórica se representa como un punto en esta gráfica, y la posición relativa de los puntos proporciona información sobre las asociaciones entre las variables.
Distribución de Variables: En la gráfica se observa que las variables “zona” y “barrio” están ubicadas cerca una de otra, esto indica que hay similitud entre sus perfiles de categorías. Por el contrario, la variable “tipo” está mas separada, esto muestra que sus perfiles de categorías son diferentes.
Variables Cercanas: Las variables “zona” y “barrio” están próximas en la gráfica esto significa que tienen categorías que tienden a co-ocurrir o estar relacionadas la una de la otra en el conjunto de datos.
Variables Alejadas: La variable “tipo” se encuentra alejada entre sí en la gráfica, esto significa que tiene una categoría que es menos propensas a co-ocurrir. Esto podría señalar diferencias o segmentos distintos en el mercado inmobiliario.
Contribuciones a las Dimensiones: La distancia de una variable al origen (punto [0,0]) en la gráfica indica su contribución a las dimensiones principales del MCA. Las variables que están más alejadas del origen como en este caso las variables “zona” y “barrio” tienen una contribución más fuerte a la variabilidad en las dimensiones.
# Visualizamos el resultado del Análisis de Correspondencia Múltiple (MCA)
summary(mca_result)
##
## Call:
## MCA(X = vivienda_categ)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 0.711 0.660 0.651 0.623 0.444 0.333 0.333
## % of var. 0.485 0.450 0.444 0.425 0.303 0.227 0.227
## Cumulative % of var. 0.485 0.935 1.379 1.804 2.106 2.334 2.561
## Dim.8 Dim.9 Dim.10 Dim.11 Dim.12 Dim.13 Dim.14
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 2.788 3.016 3.243 3.470 3.697 3.925 4.152
## Dim.15 Dim.16 Dim.17 Dim.18 Dim.19 Dim.20 Dim.21
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 4.379 4.606 4.834 5.061 5.288 5.516 5.743
## Dim.22 Dim.23 Dim.24 Dim.25 Dim.26 Dim.27 Dim.28
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 5.970 6.197 6.425 6.652 6.879 7.106 7.334
## Dim.29 Dim.30 Dim.31 Dim.32 Dim.33 Dim.34 Dim.35
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 7.561 7.788 8.016 8.243 8.470 8.697 8.925
## Dim.36 Dim.37 Dim.38 Dim.39 Dim.40 Dim.41 Dim.42
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 9.152 9.379 9.606 9.834 10.061 10.288 10.516
## Dim.43 Dim.44 Dim.45 Dim.46 Dim.47 Dim.48 Dim.49
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 10.743 10.970 11.197 11.425 11.652 11.879 12.106
## Dim.50 Dim.51 Dim.52 Dim.53 Dim.54 Dim.55 Dim.56
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 12.334 12.561 12.788 13.016 13.243 13.470 13.697
## Dim.57 Dim.58 Dim.59 Dim.60 Dim.61 Dim.62 Dim.63
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 13.925 14.152 14.379 14.606 14.834 15.061 15.288
## Dim.64 Dim.65 Dim.66 Dim.67 Dim.68 Dim.69 Dim.70
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 15.516 15.743 15.970 16.197 16.425 16.652 16.879
## Dim.71 Dim.72 Dim.73 Dim.74 Dim.75 Dim.76 Dim.77
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 17.106 17.334 17.561 17.788 18.016 18.243 18.470
## Dim.78 Dim.79 Dim.80 Dim.81 Dim.82 Dim.83 Dim.84
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 18.697 18.925 19.152 19.379 19.606 19.834 20.061
## Dim.85 Dim.86 Dim.87 Dim.88 Dim.89 Dim.90 Dim.91
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 20.288 20.516 20.743 20.970 21.197 21.425 21.652
## Dim.92 Dim.93 Dim.94 Dim.95 Dim.96 Dim.97 Dim.98
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 21.879 22.106 22.334 22.561 22.788 23.016 23.243
## Dim.99 Dim.100 Dim.101 Dim.102 Dim.103 Dim.104 Dim.105
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 23.470 23.697 23.925 24.152 24.379 24.606 24.834
## Dim.106 Dim.107 Dim.108 Dim.109 Dim.110 Dim.111 Dim.112
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 25.061 25.288 25.516 25.743 25.970 26.197 26.425
## Dim.113 Dim.114 Dim.115 Dim.116 Dim.117 Dim.118 Dim.119
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 26.652 26.879 27.106 27.334 27.561 27.788 28.016
## Dim.120 Dim.121 Dim.122 Dim.123 Dim.124 Dim.125 Dim.126
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 28.243 28.470 28.697 28.925 29.152 29.379 29.606
## Dim.127 Dim.128 Dim.129 Dim.130 Dim.131 Dim.132 Dim.133
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 29.834 30.061 30.288 30.516 30.743 30.970 31.197
## Dim.134 Dim.135 Dim.136 Dim.137 Dim.138 Dim.139 Dim.140
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 31.425 31.652 31.879 32.106 32.334 32.561 32.788
## Dim.141 Dim.142 Dim.143 Dim.144 Dim.145 Dim.146 Dim.147
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 33.016 33.243 33.470 33.697 33.925 34.152 34.379
## Dim.148 Dim.149 Dim.150 Dim.151 Dim.152 Dim.153 Dim.154
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 34.606 34.834 35.061 35.288 35.516 35.743 35.970
## Dim.155 Dim.156 Dim.157 Dim.158 Dim.159 Dim.160 Dim.161
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 36.197 36.425 36.652 36.879 37.106 37.334 37.561
## Dim.162 Dim.163 Dim.164 Dim.165 Dim.166 Dim.167 Dim.168
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 37.788 38.016 38.243 38.470 38.697 38.925 39.152
## Dim.169 Dim.170 Dim.171 Dim.172 Dim.173 Dim.174 Dim.175
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 39.379 39.606 39.834 40.061 40.288 40.516 40.743
## Dim.176 Dim.177 Dim.178 Dim.179 Dim.180 Dim.181 Dim.182
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 40.970 41.197 41.425 41.652 41.879 42.106 42.334
## Dim.183 Dim.184 Dim.185 Dim.186 Dim.187 Dim.188 Dim.189
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 42.561 42.788 43.016 43.243 43.470 43.697 43.925
## Dim.190 Dim.191 Dim.192 Dim.193 Dim.194 Dim.195 Dim.196
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 44.152 44.379 44.606 44.834 45.061 45.288 45.516
## Dim.197 Dim.198 Dim.199 Dim.200 Dim.201 Dim.202 Dim.203
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 45.743 45.970 46.197 46.425 46.652 46.879 47.106
## Dim.204 Dim.205 Dim.206 Dim.207 Dim.208 Dim.209 Dim.210
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 47.334 47.561 47.788 48.016 48.243 48.470 48.697
## Dim.211 Dim.212 Dim.213 Dim.214 Dim.215 Dim.216 Dim.217
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 48.925 49.152 49.379 49.606 49.834 50.061 50.288
## Dim.218 Dim.219 Dim.220 Dim.221 Dim.222 Dim.223 Dim.224
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 50.516 50.743 50.970 51.197 51.425 51.652 51.879
## Dim.225 Dim.226 Dim.227 Dim.228 Dim.229 Dim.230 Dim.231
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 52.106 52.334 52.561 52.788 53.016 53.243 53.470
## Dim.232 Dim.233 Dim.234 Dim.235 Dim.236 Dim.237 Dim.238
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 53.697 53.925 54.152 54.379 54.606 54.834 55.061
## Dim.239 Dim.240 Dim.241 Dim.242 Dim.243 Dim.244 Dim.245
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 55.288 55.516 55.743 55.970 56.197 56.425 56.652
## Dim.246 Dim.247 Dim.248 Dim.249 Dim.250 Dim.251 Dim.252
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 56.879 57.106 57.334 57.561 57.788 58.016 58.243
## Dim.253 Dim.254 Dim.255 Dim.256 Dim.257 Dim.258 Dim.259
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 58.470 58.697 58.925 59.152 59.379 59.606 59.834
## Dim.260 Dim.261 Dim.262 Dim.263 Dim.264 Dim.265 Dim.266
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 60.061 60.288 60.516 60.743 60.970 61.197 61.425
## Dim.267 Dim.268 Dim.269 Dim.270 Dim.271 Dim.272 Dim.273
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 61.652 61.879 62.106 62.334 62.561 62.788 63.016
## Dim.274 Dim.275 Dim.276 Dim.277 Dim.278 Dim.279 Dim.280
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 63.243 63.470 63.697 63.925 64.152 64.379 64.606
## Dim.281 Dim.282 Dim.283 Dim.284 Dim.285 Dim.286 Dim.287
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 64.834 65.061 65.288 65.516 65.743 65.970 66.197
## Dim.288 Dim.289 Dim.290 Dim.291 Dim.292 Dim.293 Dim.294
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 66.425 66.652 66.879 67.106 67.334 67.561 67.788
## Dim.295 Dim.296 Dim.297 Dim.298 Dim.299 Dim.300 Dim.301
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 68.016 68.243 68.470 68.697 68.925 69.152 69.379
## Dim.302 Dim.303 Dim.304 Dim.305 Dim.306 Dim.307 Dim.308
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 69.606 69.834 70.061 70.288 70.516 70.743 70.970
## Dim.309 Dim.310 Dim.311 Dim.312 Dim.313 Dim.314 Dim.315
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 71.197 71.425 71.652 71.879 72.106 72.334 72.561
## Dim.316 Dim.317 Dim.318 Dim.319 Dim.320 Dim.321 Dim.322
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 72.788 73.016 73.243 73.470 73.697 73.925 74.152
## Dim.323 Dim.324 Dim.325 Dim.326 Dim.327 Dim.328 Dim.329
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 74.379 74.606 74.834 75.061 75.288 75.516 75.743
## Dim.330 Dim.331 Dim.332 Dim.333 Dim.334 Dim.335 Dim.336
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 75.970 76.197 76.425 76.652 76.879 77.106 77.334
## Dim.337 Dim.338 Dim.339 Dim.340 Dim.341 Dim.342 Dim.343
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 77.561 77.788 78.016 78.243 78.470 78.697 78.925
## Dim.344 Dim.345 Dim.346 Dim.347 Dim.348 Dim.349 Dim.350
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 79.152 79.379 79.606 79.834 80.061 80.288 80.516
## Dim.351 Dim.352 Dim.353 Dim.354 Dim.355 Dim.356 Dim.357
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 80.743 80.970 81.197 81.425 81.652 81.879 82.106
## Dim.358 Dim.359 Dim.360 Dim.361 Dim.362 Dim.363 Dim.364
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 82.334 82.561 82.788 83.016 83.243 83.470 83.697
## Dim.365 Dim.366 Dim.367 Dim.368 Dim.369 Dim.370 Dim.371
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 83.925 84.152 84.379 84.606 84.834 85.061 85.288
## Dim.372 Dim.373 Dim.374 Dim.375 Dim.376 Dim.377 Dim.378
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 85.516 85.743 85.970 86.197 86.425 86.652 86.879
## Dim.379 Dim.380 Dim.381 Dim.382 Dim.383 Dim.384 Dim.385
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 87.106 87.334 87.561 87.788 88.016 88.243 88.470
## Dim.386 Dim.387 Dim.388 Dim.389 Dim.390 Dim.391 Dim.392
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 88.697 88.925 89.152 89.379 89.606 89.834 90.061
## Dim.393 Dim.394 Dim.395 Dim.396 Dim.397 Dim.398 Dim.399
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 90.288 90.516 90.743 90.970 91.197 91.425 91.652
## Dim.400 Dim.401 Dim.402 Dim.403 Dim.404 Dim.405 Dim.406
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 91.879 92.106 92.334 92.561 92.788 93.016 93.243
## Dim.407 Dim.408 Dim.409 Dim.410 Dim.411 Dim.412 Dim.413
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 93.470 93.697 93.925 94.152 94.379 94.606 94.834
## Dim.414 Dim.415 Dim.416 Dim.417 Dim.418 Dim.419 Dim.420
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 95.061 95.288 95.516 95.743 95.970 96.197 96.425
## Dim.421 Dim.422 Dim.423 Dim.424 Dim.425 Dim.426 Dim.427
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 96.652 96.879 97.106 97.334 97.561 97.788 98.016
## Dim.428 Dim.429 Dim.430 Dim.431 Dim.432 Dim.433 Dim.434
## Variance 0.333 0.333 0.333 0.333 0.333 0.333 0.333
## % of var. 0.227 0.227 0.227 0.227 0.227 0.227 0.227
## Cumulative % of var. 98.243 98.470 98.697 98.925 99.152 99.379 99.606
## Dim.435 Dim.436 Dim.437 Dim.438 Dim.439 Dim.440
## Variance 0.333 0.161 0.046 0.018 0.012 0.006
## % of var. 0.227 0.110 0.032 0.012 0.008 0.004
## Cumulative % of var. 99.834 99.944 99.975 99.988 99.996 100.000
##
## Individuals (the 10 first)
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## 1 | 2.718 0.125 0.008 | 0.909 0.015 0.001 | 2.620 0.127
## 2 | 2.718 0.125 0.008 | 0.909 0.015 0.001 | 2.620 0.127
## 3 | 2.718 0.125 0.008 | 0.909 0.015 0.001 | 2.620 0.127
## 4 | 0.680 0.008 0.000 | -0.637 0.007 0.000 | -0.224 0.001
## 5 | -0.199 0.001 0.002 | 1.319 0.032 0.094 | -0.723 0.010
## 6 | -0.199 0.001 0.002 | 1.319 0.032 0.094 | -0.723 0.010
## 7 | -0.199 0.001 0.002 | 1.319 0.032 0.094 | -0.723 0.010
## 8 | -0.199 0.001 0.002 | 1.319 0.032 0.094 | -0.723 0.010
## 9 | 0.268 0.001 0.004 | 1.325 0.032 0.093 | -0.696 0.009
## 10 | 0.268 0.001 0.004 | 1.325 0.032 0.093 | -0.696 0.009
## cos2
## 1 0.007 |
## 2 0.007 |
## 3 0.007 |
## 4 0.000 |
## 5 0.028 |
## 6 0.028 |
## 7 0.028 |
## 8 0.028 |
## 9 0.026 |
## 10 0.026 |
##
## Categories (the 10 first)
## Dim.1 ctr cos2 v.test Dim.2 ctr cos2
## Apartamento | -0.457 5.995 0.330 -52.431 | -0.006 0.001 0.000
## Casa | 0.724 9.499 0.330 52.431 | 0.009 0.002 0.000
## Zona Centro | 2.005 2.810 0.061 22.497 | 0.239 0.043 0.001
## Zona Norte | -0.057 0.035 0.001 -2.831 | 1.602 29.908 0.770
## Zona Oeste | -1.725 20.094 0.501 -64.537 | 0.157 0.178 0.004
## Zona Oriente | 2.928 16.962 0.378 56.055 | 1.088 2.523 0.052
## Zona Sur | 0.190 0.964 0.048 19.899 | -0.778 17.346 0.795
## 20 de julio | 3.223 0.176 0.004 5.583 | 1.119 0.023 0.000
## 3 de julio | 0.807 0.004 0.000 0.807 | -0.784 0.004 0.000
## acopi | 0.010 0.000 0.000 0.124 | 1.619 2.514 0.051
## v.test Dim.3 ctr cos2 v.test
## Apartamento -0.648 | -0.024 0.019 0.001 -2.806 |
## Casa 0.648 | 0.039 0.030 0.001 2.806 |
## Zona Centro 2.686 | 0.773 0.456 0.009 8.670 |
## Zona Norte 80.036 | -0.845 8.434 0.214 -42.200 |
## Zona Oeste 5.856 | 1.572 18.238 0.416 58.824 |
## Zona Oriente 20.833 | 3.055 20.171 0.411 58.483 |
## Zona Sur -81.342 | -0.303 2.665 0.120 -31.654 |
## 20 de julio 1.938 | 3.248 0.195 0.004 5.627 |
## 3 de julio -0.784 | -0.277 0.000 0.000 -0.277 |
## acopi 20.548 | -0.880 0.752 0.015 -11.161 |
##
## Categorical variables (eta2)
## Dim.1 Dim.2 Dim.3
## tipo | 0.330 0.000 0.001 |
## zona | 0.872 0.990 0.976 |
## barrio | 0.931 0.990 0.976 |
Valores Propios (Eigenvalues): Los valores propios de cada dimensión representan la proporción de varianza explicada por esa dimensión. en este caso las varianzas para las Dim.1 y Dim.2 son 0.711 y 0.660 respectivamente estos valores son los más altos del resultado, lo cual indican que estas dimensiones capturan la mayor información.
Los valores de eta cuadrado (η²): indican la cantidad de varianza que cada variable categórica aporta a cada dimensión principal. en este caso los valores más altos son, Para la categoría “zona” (Dim.1 = 0.872 , Dim.2 = 0.990), Para la categoría “barrio” (Dim.1 = 0.931, Dim.2 = 0.990) Valores más altos de η² sugieren que la variable tiene una contribución significativa a la dimensión correspondiente, caso contrario sucede con la categoría “tipo” cuyos valores son los siguientes (Dim.1 = 0.330 , Dim.2 = 0.000), los más bajos, por lo que la contribución de esta categoría no es significativa a la dimensión .
# creamos otro dataframe con las variables numéricas
vivienda_num <- vivienda_dep[, c("preciom", "areaconst", "parqueaderos", "banios", "habitaciones")]
# Realizamos el Análisis de Componentes Principales (PCA) para las variables numéricas
pca_result <- PCA(vivienda_num)
En el contexto de un gráfico de Componentes Principales (PCA), el círculo y las flechas son elementos que ayudan a entender las relaciones entre las variables originales y los componentes principales. Estos elementos proporcionan información sobre la contribución de cada variable a los componentes y cómo las variables se correlacionan entre sí en el espacio de componentes.
El círculo en el gráfico de PCA representa la estructura de correlación entre las variables originales. Cada variable se representa como un punto en el círculo, y la distancia entre los puntos indica la relación entre las variables.
Distancia entre Variables: La proximidad de los puntos en el círculo refleja la correlación entre las variables originales. Variables que están cerca en el círculo (“banios”, “areaconst”) y (“preciom”, “parqueaderos”) tienen una correlación alta, mientras que las que están alejadas tienen una correlación baja como es el caso de la variable “habitaciones”.
Orientación de Flechas: Las flechas que apuntan desde el origen hacia las variables indican la dirección en la que cada variable contribuye positivamente al componente correspondiente. en el grafico se observa que las variables “habitaciones”, “banios”, “areaconst” contribuye positivamente al componente Dim2 mientras que las variables “preciom”, “parquaderos” contribuye positivamente al componente Dim1
Variables No Correlacionadas: Si dos variables están en lados opuestos del círculo (180 grados de separación), indican una correlación negativa. Esto significa que cuando una variable aumenta, la otra disminuye, en el grafico no se observan variables que tengan sentidos opuestos, lo que lleva a inferir que todas las variables tienen una correlación positiva porque apuntan en la misma dirección .
Variables con Flechas Largas: Las variables que están más cerca del borde del círculo tienen una mayor contribución a la varianza en el componente correspondiente. Estas variables son más influyentes en la formación de ese componente, en la gráfica se observa que la variable “habitaciones” es la que más contribuye a la varianza del componente Dim2, lo mismo sucede con la variable “preciom” pero para elk componente Dim1, en pocas palabras La magnitud de la contribución se refleja en la longitud de la flecha
# Visualizamos el resultado del Análisis de Componentes Principales (PCA)
summary(pca_result)
##
## Call:
## PCA(X = vivienda_num)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Variance 3.128 0.918 0.435 0.325 0.194
## % of var. 62.568 18.356 8.702 6.493 3.881
## Cumulative % of var. 62.568 80.924 89.626 96.119 100.000
##
## Individuals (the 10 first)
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3
## 1 | 1.924 | -0.242 0.000 0.016 | 1.565 0.032 0.662 | 0.878
## 2 | 1.093 | -1.042 0.004 0.908 | -0.141 0.000 0.017 | -0.144
## 3 | 1.008 | -0.090 0.000 0.008 | -0.016 0.000 0.000 | 0.183
## 4 | 1.991 | 1.315 0.007 0.436 | -0.641 0.005 0.104 | 0.457
## 5 | 1.249 | -1.231 0.006 0.971 | -0.093 0.000 0.006 | 0.040
## 6 | 1.027 | -0.923 0.003 0.808 | 0.037 0.000 0.001 | 0.158
## 7 | 1.454 | -1.089 0.005 0.561 | -0.491 0.003 0.114 | 0.764
## 8 | 0.682 | -0.082 0.000 0.014 | 0.088 0.000 0.017 | 0.638
## 9 | 1.845 | 0.807 0.003 0.191 | 1.227 0.020 0.442 | 1.103
## 10 | 1.876 | 1.183 0.005 0.398 | -0.798 0.008 0.181 | -1.052
## ctr cos2
## 1 0.021 0.208 |
## 2 0.001 0.017 |
## 3 0.001 0.033 |
## 4 0.006 0.053 |
## 5 0.000 0.001 |
## 6 0.001 0.024 |
## 7 0.016 0.276 |
## 8 0.011 0.874 |
## 9 0.034 0.358 |
## 10 0.031 0.315 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## preciom | 0.847 22.907 0.717 | -0.345 12.933 0.119 | -0.237 12.896
## areaconst | 0.856 23.405 0.732 | 0.082 0.727 0.007 | -0.371 31.560
## parqueaderos | 0.722 16.672 0.522 | -0.498 27.070 0.248 | 0.436 43.642
## banios | 0.877 24.592 0.769 | 0.150 2.451 0.022 | 0.080 1.467
## habitaciones | 0.623 12.423 0.389 | 0.722 56.820 0.521 | 0.213 10.435
## cos2
## preciom 0.056 |
## areaconst 0.137 |
## parqueaderos 0.190 |
## banios 0.006 |
## habitaciones 0.045 |
Eigenvalues (Valores Propios): Los eigenvalues ayudan a comprender la importancia relativa de cada componente en términos de su contribución a la variabilidad total en los datos originales
si se observa la grafica vemos que la Dim.1 tiene una varianza de 3.128 y Dim.2 una varianza de 0.918, esto indica que estas dos componentes explican una mayor parte de la variabilidad en los datos originales.
La reducción de dimensionalidad mediante PCA permite identificar las variables numéricas más influyentes en la variabilidad del mercado inmobiliario. 80.924 % de la varianza total fue capturada por los primeros 2 componentes (Dim1 = 62.568 + Dim2 = 18.356).
# Graficamos los resultados del Análisis de Componentes Principales (PCA)
plot.PCA(pca_result)
La gráfica “PCA graph of individuals” muestra cómo las observaciones (en este caso, propiedades inmobiliarias) se distribuyen en el espacio de los primeros dos componentes principales (Dim1 y Dim2) obtenidos del Análisis de Componentes Principales (PCA). Cada observación se representa como un punto en la gráfica, y la posición relativa de los puntos proporciona información sobre cómo se agrupan o dispersan las propiedades en función de las combinaciones lineales de las variables numéricas
En este grafico se puede observar que la mayor parte de las propiedades se encuentran ubicadas en la Dimensión 1 (62.57%) esto indica que son propiedades con características similares en términos de las combinaciones lineales de variables numéricas. se observa en la gráfica que hay propiedades distintas entre sí en función de sus características numéricas y se ubican en la Dimensión 2 con un aporte del 18.26%
En el presente informe, se presenta un análisis de los resultados obtenidos mediante un análisis de componentes principales (PCA), un Análisis de Conglomerados y un Análisis de Correspondencia, aplicado a un conjunto de datos de propiedades residenciales.
El objetivo de este análisis es comprender el mercado inmobiliario y proporcionar insights clave para guiar las decisiones estratégicas de la empresa inmobiliaria.
El análisis se centra en identificar patrones, relaciones y segmentaciones relevantes que permitan optimizar la inversión y maximizar los beneficios en un entorno altamente competitivo y en constante cambio.
Análisis de Resultados:
1. Análisis de Proporción de Varianza Explicada: El análisis de la proporción de varianza explicada reveló que las dos primeras componentes principales capturan aproximadamente el 63.9% ( 45.1% + 18.8%) de la variabilidad total en los datos. Esta cifra sustancial sugiere una reducción significativa en la dimensionalidad de los datos mientras se mantiene una proporción considerable de la variabilidad original.
2. Análisis de Estructura de Variables en Componentes Principales: El gráfico de dispersión en el espacio de las dos primeras componentes principales mostró una distribución de las propiedades residenciales en función de estas componentes. Se identificaron tres grupos distintos de propiedades CP1, CP2 y CP3, cada uno con una representación proporcional de 45.1%, 18.1.% y 11.3% en los dos ejes principales, respectivamente. Esto sugiere que la mayoría de la información importante ya ha sido capturada por los primeros componentes y etos grupos demuestran una segmentación clara en el mercado inmobiliario.
3. Análisis de Correlación de Variables: El gráfico de círculo de correlación mostró que la variable “preciom” está altamente correlacionada con ambas componentes principales (correlación de 0.89 en el eje 1 y 0.91 en el eje 2). Además, las variables “parqueaderos”, “banios”, “habitaciones” y “estrato” también tienen correlaciones considerables con los ejes principales, con coeficientes de correlación que van desde 0.72 hasta 0.85.
Conclusiones
La reducción de la dimensionalidad mediante PCA permite una interpretación efectiva del mercado inmobiliario, ya que las dos primeras componentes capturan una proporción significativa de la variabilidad.
La segmentación del mercado en tres grupos distintos proporciona información valiosa para adaptar estrategias específicas según las preferencias de cada grupo.
La variable “preciom” es el factor más influyente en la formación de los grupos, seguida de cerca por “parqueaderos”, “banios” y “habitaciones”.
El análisis de correlación refuerza la relación entre las variables clave y las componentes principales.
Recomendaciones Estratégicas:
Segmentación y Personalización: La empresa debe adaptar sus estrategias de marketing y ventas para abordar las necesidades únicas de cada grupo identificado. Esto permitirá una comunicación más efectiva y una oferta de propiedades más ajustada.
Optimización de Precios: Dado el impacto significativo de la variable “preciom”, la empresa debe ajustar estratégicamente los precios según las características de cada grupo. Esto maximizará el atractivo de las propiedades para cada segmento.
Mejora de Características: La mejora de atributos como “parqueaderos”, “banios” y “habitaciones” puede aumentar la demanda en los grupos específicos que valoran estas características. Esto puede traducirse en un aumento de la rentabilidad.
Vigilancia del Mercado: Dado el entorno competitivo y en constante cambio, se recomienda un monitoreo constante de las preferencias del mercado y la adaptación de las estrategias según las tendencias emergentes.
Se utilizó el análisis de conglomerados para agrupar propiedades residenciales en segmentos homogéneos según sus características socioeconómicas y de ubicación.
Análisis de los Resultados
Se identificaron 4 clústeres distintos, cada uno con sus propias características. La distribución de viviendas en cada clúster se muestra en el Gráfico “Distribución de viviendas en cada clúster” , donde se puede observar una concentración variada en cada segmento.
La sguiente tabla presenta un resumen de las características promedio de las propiedades residenciales en cada clúster. A través de este análisis, se han destacado las diferencias significativas entre los grupos en términos de estrato socioeconómico, precio, área construida, parqueaderos, baños y habitaciones.
El Diagrama de Dispersión en el Gráfico “Relación entre precio y área construida por clúster” muestra la relación entre el precio y el área construida de las propiedades residenciales, diferenciadas por clúster. Se observa que los precios tienden a disminuir a medida que el área construida disminuye.
Los colores de los puntos indican a qué clúster pertenece cada propiedad. Esto permite analizar que los cluster que tienen mayor cantidad de viviendas (Clúster 3121 viviendas y Clúster = 3172 Viviendas) son los que menor área construida tienen y por ende menores los precios de sus viviendas
Hay un segmentos de mercado con preferencias particulares en términos de relación entre precio y área construida y es que el Clúster = 922 viviendas que es el de menor catidad de viviendas posee, es el que tiene viviendas con el máyor número de áreas construidas .
Los puntos que están muy lejos de la tendencia general o outliers son aquellos puntos o propiedas cuyos precios son muy elevados y que están por encima del promedio.
Conclusiones
Se han identificado 4 segmentos homogéneos dentro del mercado de propiedades residenciales en la ciudad, cada uno con características distintivas.
La distribución de viviendas en los clústeres varía, lo que sugiere la existencia de diferentes preferencias y demandas en diversas áreas y estratos socioeconómicos.
Se observan patrones claros en la relación entre precio y área construida, lo que puede indicar tendencias y preferencias específicas de los compradores en diferentes clústeres.
Recomendaciones Estratégicas
Segmentación de Mercado: Utilizar la segmentación identificada para adaptar estrategias de marketing y ventas a las características y preferencias específicas de cada clúster.
Desarrollo Personalizado: Considerar el diseño y desarrollo de propiedades específicas para cada clúster, aprovechando las características promedio y las relaciones observadas entre variables.
Política de Precios: Ajustar las estrategias de fijación de precios en función de las tendencias identificadas en el análisis de la relación entre precio y área construida.
Ubicación Estratégica: Identificar áreas geográficas con alta concentración de propiedades en clústeres específicos para enfocar esfuerzos de expansión y crecimiento.
Análisis Detallado de Resultados
Análisis de Componentes Principales (PCA):
Se realizó un análisis de los componentes principales para las variables numéricas que describen las propiedades inmobiliarias.
Los primeros 2 componentes principales (Dim1 = 62,57% + Dim2 = 18,36%) explicaron el 80.93% de la varianza total, lo que indica una reducción efectiva de la dimensionalidad.
Las cargas de variables en los componentes mostraron que la variable “habitaciones”y la variable “preciom” tuvieron las contribuciones más altas en los primeros componentes.
La gráfica “PCA graph of individuals” reveló agrupamientos significativos de propiedades en el componente Dim1 = 62,57% , sugiriendo segmentos en el mercado inmobiliario.
Análisis de Correspondencia (CA):
Se realizó un análisis de correspondencia para las variables categóricas “tipo”, “zona” y “barrio” en relación con las variables numéricas.
La gráfica de “Variables representation” mostró cómo las variables categóricas se relacionan con los componentes principales.
Conclusiones
La reducción de dimensionalidad mediante PCA permitió identificar las variables numéricas más influyentes en la variabilidad del mercado inmobiliario. 80.924 % de la varianza total fue capturada por los primeros 2 componentes (Dim1 = 62.568 + Dim2 = 18.356)
El análisis de correspondencia reveló relaciones significativas entre las variables categóricas y numéricas, lo que sugiere cómo factores como el tipo de propiedad y la zona se relacionan con características numéricas como el precio y el tamaño.
Se observaron agrupamientos claros de propiedades en la gráfica “PCA graph of individuals”, lo que sugiere la existencia de segmentos distintos en el mercado inmobiliario, como propiedades de lujo, propiedades urbanas, etc.
Recomendaciones Estratégicas
Segmentación de Mercado: Utilizar los resultados del análisis de agrupamientos para desarrollar estrategias de segmentación de mercado dirigidas a diferentes tipos de propiedades y compradores.
Valoración Precisa: Utilizar las variables más influyentes identificadas por el análisis PCA para mejorar la valoración precisa de las propiedades, considerando factores clave.
Estrategias de Marketing: Aprovechar las relaciones identificadas en el análisis de correspondencia para adaptar las estrategias de marketing a diferentes tipos de propiedades y ubicaciones.
Inversiones Informadas: Utilizar las conclusiones del análisis para tomar decisiones informadas sobre inversiones y adquisiciones, maximizando el potencial de retorno.
Monitoreo Continuo: Establecer un proceso de monitoreo constante para ajustar estrategias en función de las tendencias y cambios en el mercado inmobiliario.
El análisis de datos ha proporcionado una comprensión más profunda y cuantificable del mercado inmobiliario, permitiendo a la empresa tomar decisiones más informadas. La optimización de la inversión y la maximización de los beneficios a través de estrategias basadas en datos proporcionarán una ventaja competitiva significativa en un entorno altamente competitivo y en constante cambio.
Este informe resalta cómo el análisis de datos puede guiar decisiones estratégicas sólidas en el mercado inmobiliario, asegurando que la empresa esté preparada para abordar desafíos y aprovechar oportunidades en un mercado dinámico