El objetivo principal de este informe es proporcionar un análisis estadístico exhaustivo del mercado de viviendas urbanas, basado en los datos disponibles sobre propiedades residenciales. Este análisis permitirá:
Identificar patrones de comportamiento del mercado.
Detectar relaciones significativas entre variables.
Segmentar el mercado en función de características clave.
Apoyar la toma de decisiones estratégicas para compra, venta y valorización de propiedades.
La base de datos suministrada contiene información detallada de aproximadamente 10.000 propiedades urbanas, con las siguientes variables principales:
Ubicación geográfica (zona, barrio, estrato).
Tipo de propiedad (apartamento, casa).
Área construida y área total (m²).
Número de habitaciones y baños.
Antigüedad de la propiedad.
Precio de venta y precio por m².
Disponibilidad de parqueadero
Se encontraron gran cantidad de datos vacios por lo que se aplicaran diferentes metodos que nos ayudaran a corregir estos datos faltantes. Inicialmente se excluyen los datos que poseen mas de 4 valores faltantes debido a que estos datos afectaria como tal el proceso y no agregarian informacion de valor a este informe
Al seguir presentando valores faltantes, se decidio utilizar el metodo de imputacion de datos faltantes para comprender mejor el comportamiento de los datos imputados y los datos originales
## Cargando paquete requerido: colorspace
## Cargando paquete requerido: grid
## VIM is ready to use.
## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues
##
## Adjuntando el paquete: 'VIM'
## The following object is masked from 'package:datasets':
##
## sleep
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Al realizar la imputacion de datos comparamos si se presentan diferencias entre la base original y nuestra base transformada.
## Warning: Removed 4237 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
Al realizar la comparacion de los datos imputados y los datos originales no se presentan diferencias por lo que continuaremos nuestro proceso de transformacion de los datos
Es importante validar si presentamos datos duplicados que puedan afectar el desarrollo de nuestro analisis
## [1] 0
Se comrobo que los datos no presentan duplicados por lo que
evaluaremos si existe correlacion fuerte (>80%), para utilizar el
metodo de eliminacion de variables correlacionadas fuerte y disminuyendo
la dimensinalidad de los datos
Eliminamos la columna id debido a que esta variable no aportara ningun conocimiento de valor a la inmobiliaria
#4. Analisis de Componentes Principales (PAC) Reducir la dimensionalidad del conjunto de datos cuantitativos y visualizar la estructura subyacente de las propiedades para identificar variables que explican la mayor variabilidad en el mercado.
## piso estrato preciom areaconst parqueaderos banios
## 0 0 0 0 0 0
## habitaciones
## 0
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.4 ✔ tibble 3.3.0
## ✔ purrr 1.1.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Standard deviations (1, .., p=7):
## [1] 1.8741075 1.1892864 0.8997468 0.6909710 0.6032158 0.4875280 0.4298613
##
## Rotation (n x k) = (7 x 7):
## PC1 PC2 PC3 PC4 PC5
## piso 0.08219974 -0.55869718 0.79626746 0.2063049 -0.03897524
## estrato -0.30525961 -0.54232695 -0.22413426 -0.5917582 -0.01120654
## preciom -0.46983836 -0.21507762 -0.09734768 0.1210107 -0.25762923
## areaconst -0.44603607 0.18374934 0.02346714 0.3394415 -0.64915529
## parqueaderos -0.42756315 -0.14057555 -0.17351893 0.5339870 0.66667901
## banios -0.46025135 0.09210338 0.22783873 -0.3599283 0.13340590
## habitaciones -0.29278312 0.53429600 0.47294332 -0.2504114 0.21982243
## PC6 PC7
## piso 0.03491528 0.04193939
## estrato 0.42611562 0.17488271
## preciom -0.17964299 -0.78117153
## areaconst 0.20252576 0.43485341
## parqueaderos 0.11992111 0.15275907
## banios -0.70624978 0.28572879
## habitaciones 0.48036267 -0.25170301
En este caso el primer componente principal explica el 50.2% de la
variabilidad contenida en la base de datos y entre los tres primeros se
casi el 82% de los datos (81.9%), lo cual indicaría que con solo una
variable (CP1) que se obtiene mediante una combinación lineal de las
variables se puede resumir gran parte de la variabilidad que contiene la
base de datos.
Al visualizar las variables en el plano de los componentes
principales permite identificar el sentido y la caracterización de los
componentes (característica capturada por los vectores propios de Σ). En
este ejercicio el primer componente principal está asociado
principalmente con el tamano de la vivienda Habitaciones,
areaconst, parqueaderos, baños, mientras que el segundo
componente se puede asociar a la ubicacion socieconocima de la vivienda
con estrato, precio por metro cuadrado y piso
Para explicar el sentido de los ejes, se escogen cuatro casos extremos conformados por los siguientes clientes
## zona piso estrato preciom areaconst parqueaderos banios
## Vivienda 120 Zona Norte 2 4 275 190 1 2
## Vivienda 280 Zona Centro 3 4 610 750 1 8
## Vivienda 005 Zona Norte 1 5 260 90 1 2
## Vivienda 450 Zona Oeste 3 5 410 300 3 3
## habitaciones tipo barrio longitud latitud piso_imp
## Vivienda 120 3 Casa acopi -76.53198 3.45165 TRUE
## Vivienda 280 10 Casa alameda -76.53198 3.45165 FALSE
## Vivienda 005 3 Apartamento acopi -76.51350 3.45891 FALSE
## Vivienda 450 6 Casa bella suiza -76.53353 3.40459 FALSE
## parqueaderos_imp
## Vivienda 120 TRUE
## Vivienda 280 TRUE
## Vivienda 005 FALSE
## Vivienda 450 FALSE
Las propiedades con mayor área, más habitaciones y ubicadas en
estratos altos tienden a concentrarse en un mismo espacio dimensional,
sugiriendo una diferenciación clara frente a viviendas más pequeñas y
antiguas en estratos bajos. #5. Análisis de Conglomerados
(Clustering) Segmentar el mercado inmobiliario agrupando
propiedades con características similares para identificar nichos de
mercado y estrategias diferenciadas de oferta.
De acuerdo con el metodo del codo, escogeremos 4 clusteres para
nuestra segmentacion de vivienda.
Se observa una buena distribucion de los 4 clusteres en nuestros
dos componetes principales (70.4%). Ahora lo ubicaremos en mapa ##
5.1 Caracterizacion de los clusteres
El cluster 4 son las viviendas con alto confort, mayo area
contruida y por ede sus precios son superiores a los de los demas
cluster a diferencia del cluster 1 que es todo lo contrario
En la categoria no hay una distribucion marcada sin embargo,
como en la variables numericas el cluster 4 se caracteriza por se casa y
estar en los estratos 5 y 6
El mercado presenta una clara segmentación por estrato y
ubicación, lo que permite diseñar estrategias diferenciadas para cada
tipo de propiedad.
Analizar relaciones entre variables categóricas como tipo de vivienda, zona, y barrio, para identificar patrones de comportamiento del mercado.
##
## Adjuntando el paquete: 'mice'
## The following object is masked from 'package:stats':
##
## filter
## The following objects are masked from 'package:base':
##
## cbind, rbind
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo
## 4000 1 1 1 1 1 1 1 1 1
## 0 0 0 0 0 0 0 0 0
## barrio longitud latitud piso_imp parqueaderos_imp cluster
## 4000 1 1 1 1 1 1 0
## 0 0 0 0 0 0 0
La muestra seleccionada NO contiene registros con datos faltantes para ambas variables
##
## Estrato 3 Estrato 4 Estrato 5 Estrato 6
## Zona Centro 48 9 2 0
## Zona Norte 258 177 391 84
## Zona Oeste 26 39 144 368
## Zona Oriente 177 2 1 0
## Zona Sur 186 773 812 503
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 1891.8, df = 12, p-value < 2.2e-16
El resultado indica que se rechaza la hipótesis de independencia de las variables (p-value: 0.0000), indicando grado tipo de relación entre ellas. Finalmente se procede a realizar el análisis de correspondencia que consiste en estimar las coordenadas para cada uno de los niveles de ambas variables y representarlas en un plano cartesiano
##
## Adjuntando el paquete: 'gridExtra'
## The following object is masked from 'package:dplyr':
##
## combine
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.3303342 69.845242 69.84524
## dim 2 0.1263917 26.724026 96.56927
## dim 3 0.0162257 3.430732 100.00000
Existe una fuerte asociación entre el tipo de propiedad y la zona,
lo que indica especialización del mercado según la ubicación. Esto
permite a la empresa ajustar sus estrategias según las dinámicas
locales. # 7. Conclusiones Generales - Las características
clave que explican la variación en precios están relacionadas con
tamaño, antigüedad y ubicación.
Se identificaron 4 segmentos claramente diferenciados, lo que permite diseñar estrategias por perfil de propiedad.
El tipo de vivienda está fuertemente asociado con la zona, validando las dinámicas de especialización urbana.
Las visualizaciones facilitan la comunicación clara con el equipo estratégico y aportan valor práctico a las decisiones inmobiliarias.