Informe Estadistico del Mercado de Viviendas Urbanas

1. Objetivo del Estudio


El objetivo principal de este informe es proporcionar un análisis estadístico exhaustivo del mercado de viviendas urbanas, basado en los datos disponibles sobre propiedades residenciales. Este análisis permitirá:

  • Identificar patrones de comportamiento del mercado.

  • Detectar relaciones significativas entre variables.

  • Segmentar el mercado en función de características clave.

  • Apoyar la toma de decisiones estratégicas para compra, venta y valorización de propiedades.

2. Descripcion de los datos

La base de datos suministrada contiene información detallada de aproximadamente 10.000 propiedades urbanas, con las siguientes variables principales:

  • Ubicación geográfica (zona, barrio, estrato).

  • Tipo de propiedad (apartamento, casa).

  • Área construida y área total (m²).

  • Número de habitaciones y baños.

  • Antigüedad de la propiedad.

  • Precio de venta y precio por m².

  • Disponibilidad de parqueadero



3. Transformacion y limpieza de datos

Se encontraron gran cantidad de datos vacios por lo que se aplicaran diferentes metodos que nos ayudaran a corregir estos datos faltantes. Inicialmente se excluyen los datos que poseen mas de 4 valores faltantes debido a que estos datos afectaria como tal el proceso y no agregarian informacion de valor a este informe

Al seguir presentando valores faltantes, se decidio utilizar el metodo de imputacion de datos faltantes para comprender mejor el comportamiento de los datos imputados y los datos originales

## Cargando paquete requerido: colorspace
## Cargando paquete requerido: grid
## VIM is ready to use.
## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues
## 
## Adjuntando el paquete: 'VIM'
## The following object is masked from 'package:datasets':
## 
##     sleep
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union


Al realizar la imputacion de datos comparamos si se presentan diferencias entre la base original y nuestra base transformada.

## Warning: Removed 4237 rows containing non-finite outside the scale range
## (`stat_boxplot()`).


Al realizar la comparacion de los datos imputados y los datos originales no se presentan diferencias por lo que continuaremos nuestro proceso de transformacion de los datos


Es importante validar si presentamos datos duplicados que puedan afectar el desarrollo de nuestro analisis

## [1] 0


Se comrobo que los datos no presentan duplicados por lo que evaluaremos si existe correlacion fuerte (>80%), para utilizar el metodo de eliminacion de variables correlacionadas fuerte y disminuyendo la dimensinalidad de los datos


Eliminamos la columna id debido a que esta variable no aportara ningun conocimiento de valor a la inmobiliaria


#4. Analisis de Componentes Principales (PAC)
Reducir la dimensionalidad del conjunto de datos cuantitativos y visualizar la estructura subyacente de las propiedades para identificar variables que explican la mayor variabilidad en el mercado.

##         piso      estrato      preciom    areaconst parqueaderos       banios 
##            0            0            0            0            0            0 
## habitaciones 
##            0
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.4     ✔ tibble    3.3.0
## ✔ purrr     1.1.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Standard deviations (1, .., p=7):
## [1] 1.8741075 1.1892864 0.8997468 0.6909710 0.6032158 0.4875280 0.4298613
## 
## Rotation (n x k) = (7 x 7):
##                      PC1         PC2         PC3        PC4         PC5
## piso          0.08219974 -0.55869718  0.79626746  0.2063049 -0.03897524
## estrato      -0.30525961 -0.54232695 -0.22413426 -0.5917582 -0.01120654
## preciom      -0.46983836 -0.21507762 -0.09734768  0.1210107 -0.25762923
## areaconst    -0.44603607  0.18374934  0.02346714  0.3394415 -0.64915529
## parqueaderos -0.42756315 -0.14057555 -0.17351893  0.5339870  0.66667901
## banios       -0.46025135  0.09210338  0.22783873 -0.3599283  0.13340590
## habitaciones -0.29278312  0.53429600  0.47294332 -0.2504114  0.21982243
##                      PC6         PC7
## piso          0.03491528  0.04193939
## estrato       0.42611562  0.17488271
## preciom      -0.17964299 -0.78117153
## areaconst     0.20252576  0.43485341
## parqueaderos  0.11992111  0.15275907
## banios       -0.70624978  0.28572879
## habitaciones  0.48036267 -0.25170301


En este caso el primer componente principal explica el 50.2% de la variabilidad contenida en la base de datos y entre los tres primeros se casi el 82% de los datos (81.9%), lo cual indicaría que con solo una variable (CP1) que se obtiene mediante una combinación lineal de las variables se puede resumir gran parte de la variabilidad que contiene la base de datos.

Al visualizar las variables en el plano de los componentes principales permite identificar el sentido y la caracterización de los componentes (característica capturada por los vectores propios de Σ). En este ejercicio el primer componente principal está asociado principalmente con el tamano de la vivienda Habitaciones, areaconst, parqueaderos, baños, mientras que el segundo componente se puede asociar a la ubicacion socieconocima de la vivienda con estrato, precio por metro cuadrado y piso

Para explicar el sentido de los ejes, se escogen cuatro casos extremos conformados por los siguientes clientes

##                     zona piso estrato preciom areaconst parqueaderos banios
## Vivienda 120  Zona Norte    2       4     275       190            1      2
## Vivienda 280 Zona Centro    3       4     610       750            1      8
## Vivienda 005  Zona Norte    1       5     260        90            1      2
## Vivienda 450  Zona Oeste    3       5     410       300            3      3
##              habitaciones        tipo      barrio  longitud latitud piso_imp
## Vivienda 120            3        Casa       acopi -76.53198 3.45165     TRUE
## Vivienda 280           10        Casa     alameda -76.53198 3.45165    FALSE
## Vivienda 005            3 Apartamento       acopi -76.51350 3.45891    FALSE
## Vivienda 450            6        Casa bella suiza -76.53353 3.40459    FALSE
##              parqueaderos_imp
## Vivienda 120             TRUE
## Vivienda 280             TRUE
## Vivienda 005            FALSE
## Vivienda 450            FALSE


Las propiedades con mayor área, más habitaciones y ubicadas en estratos altos tienden a concentrarse en un mismo espacio dimensional, sugiriendo una diferenciación clara frente a viviendas más pequeñas y antiguas en estratos bajos.
#5. Análisis de Conglomerados (Clustering)
Segmentar el mercado inmobiliario agrupando propiedades con características similares para identificar nichos de mercado y estrategias diferenciadas de oferta.

De acuerdo con el metodo del codo, escogeremos 4 clusteres para nuestra segmentacion de vivienda.

Se observa una buena distribucion de los 4 clusteres en nuestros dos componetes principales (70.4%). Ahora lo ubicaremos en mapa
## 5.1 Caracterizacion de los clusteres

El cluster 4 son las viviendas con alto confort, mayo area contruida y por ede sus precios son superiores a los de los demas cluster a diferencia del cluster 1 que es todo lo contrario


En la categoria no hay una distribucion marcada sin embargo, como en la variables numericas el cluster 4 se caracteriza por se casa y estar en los estratos 5 y 6

El mercado presenta una clara segmentación por estrato y ubicación, lo que permite diseñar estrategias diferenciadas para cada tipo de propiedad.


6. Analsisi de Conglomerado


Analizar relaciones entre variables categóricas como tipo de vivienda, zona, y barrio, para identificar patrones de comportamiento del mercado.

## 
## Adjuntando el paquete: 'mice'
## The following object is masked from 'package:stats':
## 
##     filter
## The following objects are masked from 'package:base':
## 
##     cbind, rbind
##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo
## 4000    1    1       1       1         1            1      1            1    1
##         0    0       0       0         0            0      0            0    0
##      barrio longitud latitud piso_imp parqueaderos_imp cluster  
## 4000      1        1       1        1                1       1 0
##           0        0       0        0                0       0 0


La muestra seleccionada NO contiene registros con datos faltantes para ambas variables

##               
##                Estrato 3 Estrato 4 Estrato 5 Estrato 6
##   Zona Centro         48         9         2         0
##   Zona Norte         258       177       391        84
##   Zona Oeste          26        39       144       368
##   Zona Oriente       177         2         1         0
##   Zona Sur           186       773       812       503


## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 1891.8, df = 12, p-value < 2.2e-16


El resultado indica que se rechaza la hipótesis de independencia de las variables (p-value: 0.0000), indicando grado tipo de relación entre ellas.
Finalmente se procede a realizar el análisis de correspondencia que consiste en estimar las coordenadas para cada uno de los niveles de ambas variables y representarlas en un plano cartesiano

## 
## Adjuntando el paquete: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine

##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1  0.3303342              69.845242                          69.84524
## dim 2  0.1263917              26.724026                          96.56927
## dim 3  0.0162257               3.430732                         100.00000


Existe una fuerte asociación entre el tipo de propiedad y la zona, lo que indica especialización del mercado según la ubicación. Esto permite a la empresa ajustar sus estrategias según las dinámicas locales.
# 7. Conclusiones Generales
- Las características clave que explican la variación en precios están relacionadas con tamaño, antigüedad y ubicación.