Análisis holístico para identificación de patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades, basados en el mercado de viviendas urbanas.
Se determina que el número de columnas son 13:
Los tipos de datos de cada columna son:
Se procede a realizar lo solicitado:
Al presentarse trece (columnas) de la base de datos en mención “vivienda”, cabe resaltar que para el análisis a realizar se tomarán las siguientes variables:
Es decir se procede a realizar una matriz de las cuatro columnas mencionadas precedentemente:
## # A tibble: 6 × 4
## preciom banios habitaciones areaconst
## <dbl> <dbl> <dbl> <dbl>
## 1 250 3 6 70
## 2 320 2 3 120
## 3 350 2 4 220
## 4 400 5 3 280
## 5 260 2 3 90
## 6 240 3 3 87
Ahora como un análisis inicial se procede a mirar datos de centralidad de la matriz creada anteriormente:
## preciom banios habitaciones areaconst
## Min. : 58.0 Min. : 0.000 Min. : 0.000 Min. : 30.0
## 1st Qu.: 220.0 1st Qu.: 2.000 1st Qu.: 3.000 1st Qu.: 80.0
## Median : 330.0 Median : 3.000 Median : 3.000 Median : 123.0
## Mean : 433.9 Mean : 3.111 Mean : 3.605 Mean : 174.9
## 3rd Qu.: 540.0 3rd Qu.: 4.000 3rd Qu.: 4.000 3rd Qu.: 229.0
## Max. :1999.0 Max. :10.000 Max. :10.000 Max. :1745.0
## NA's :2 NA's :3 NA's :3 NA's :3
Ahora se continua con la estandarización:
## preciom banios habitaciones areaconst
## Min. :-1.1438 Min. :-2.17847 Min. :-2.4702 Min. :-1.0138
## 1st Qu.:-0.6508 1st Qu.:-0.77812 1st Qu.:-0.4148 1st Qu.:-0.6640
## Median :-0.3161 Median :-0.07794 Median :-0.4148 Median :-0.3633
## Mean : 0.0000 Mean : 0.00000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.3229 3rd Qu.: 0.62224 3rd Qu.: 0.2704 3rd Qu.: 0.3782
## Max. : 4.7623 Max. : 4.82330 Max. : 4.3813 Max. :10.9822
## NA's :2 NA's :3 NA's :3 NA's :3
Se continua con la revisión de datos faltantes:
## preciom banios habitaciones areaconst
## 8319 1 1 1 1 0
## 1 1 0 0 0 3
## 2 0 0 0 0 4
## 2 3 3 3 11
Se observa que hay varios datos faltantes, en cuyo caso se procede a dejar en 0, o que no se presente esta situación.
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## preciom banios habitaciones areaconst
## 8319 1 1 1 1 0
## 0 0 0 0 0
A continuación se realiza nuevamente estandarización con el fin de evitar sesgos en la data:
## preciom banios habitaciones areaconst
## [1,] -0.5595498 -0.07793773 1.6406840 -0.7339949
## [2,] -0.3465670 -0.77811479 -0.4147626 -0.3842568
## [3,] -0.2552886 -0.77811479 0.2703863 0.3152194
## [4,] -0.1031580 1.32241640 -0.4147626 0.7349051
## [5,] -0.5291236 -0.77811479 -0.4147626 -0.5940997
## [6,] -0.5899759 -0.07793773 -0.4147626 -0.6150839
Se realiza el proceso de estimación de componentes principales:
## Standard deviations (1, .., p=4):
## [1] 1.6454433 0.8658509 0.5887917 0.4428804
##
## Rotation (n x k) = (4 x 4):
## PC1 PC2 PC3 PC4
## preciom 0.4924103 0.58973588 0.12672576 -0.6274426
## banios 0.5418940 -0.04149097 0.65939159 0.5194537
## habitaciones 0.4245937 -0.79575725 -0.06237589 -0.4273170
## areaconst 0.5325440 0.13137919 -0.73841219 0.3922803
Podemos observar que se grafican 4 PCs, PC1, PC2, PC3 y PC4
Podemos notar que los dos primeros componentes principales son los que nos darían la pauta de seleccíon de este análisis donde podríamos mencionarlos de la siguiente manera:
Graficamente se tiene:
Otro gráfico que da una mayor observancia de los datos directamente relacionados:
Se seleccionan 4 datos extremos de los siguientes inmuebles
## id zona piso estrato preciom areaconst parqueaderos
## inmueble 466 7509 Zona Oeste 02 5 1200 660 NA
## inmueble 8227 591 Zona Oriente 01 3 350 72 1
## inmueble 5484 5396 Zona Sur <NA> 6 1600 1600 3
## inmueble 429 1816 Zona Oriente <NA> 3 750 183 2
## banios habitaciones tipo barrio longitud latitud
## inmueble 466 0 0 Casa bellavista -76.55000 3.44700
## inmueble 8227 4 10 Casa zona oriente -76.49918 3.42603
## inmueble 5484 6 6 Casa parcelaciones pance -76.53621 3.34642
## inmueble 429 0 0 Casa barrio el recuerdo -76.51772 3.46116
Posteriormente se procede a graficar PCA - individual
Tambien conocidos como clustering, la idea de este análisis es comprender los grupos que se forman dentro de los datos planteados.
Comenzamos realizando una matriz de las cuatro columnas mencionadas precedentemente:
## # A tibble: 6 × 4
## preciom banios habitaciones areaconst
## <dbl> <dbl> <dbl> <dbl>
## 1 250 3 6 70
## 2 320 2 3 120
## 3 350 2 4 220
## 4 400 5 3 280
## 5 260 2 3 90
## 6 240 3 3 87
Se continua con estandarizarición
## preciom banios habitaciones areaconst
## Min. :-1.1438 Min. :-2.17847 Min. :-2.4702 Min. :-1.0138
## 1st Qu.:-0.6508 1st Qu.:-0.77812 1st Qu.:-0.4148 1st Qu.:-0.6640
## Median :-0.3161 Median :-0.07794 Median :-0.4148 Median :-0.3633
## Mean : 0.0000 Mean : 0.00000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.3229 3rd Qu.: 0.62224 3rd Qu.: 0.2704 3rd Qu.: 0.3782
## Max. : 4.7623 Max. : 4.82330 Max. : 4.3813 Max. :10.9822
## NA's :2 NA's :3 NA's :3 NA's :3
Se continua con la revisión de datos faltantes:
## preciom banios habitaciones areaconst
## 8319 1 1 1 1 0
## 1 1 0 0 0 3
## 2 0 0 0 0 4
## 2 3 3 3 11
Se observa que hay varios datos faltantes, en cuyo caso se procede a dejar en 0, o que no se presente esta situación.
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## preciom banios habitaciones areaconst
## 8319 1 1 1 1 0
## 0 0 0 0 0
A continuación se realiza nuevamente estandarización con el fin de evitar sesgos en la data:
## preciom banios habitaciones areaconst
## [1,] -0.5595498 -0.07793773 1.6406840 -0.7339949
## [2,] -0.3465670 -0.77811479 -0.4147626 -0.3842568
## [3,] -0.2552886 -0.77811479 0.2703863 0.3152194
## [4,] -0.1031580 1.32241640 -0.4147626 0.7349051
## [5,] -0.5291236 -0.77811479 -0.4147626 -0.5940997
## [6,] -0.5899759 -0.07793773 -0.4147626 -0.6150839
Ahora sigue lo referente a las distancias de los valores estandarizados.
Nota: Se observa que cuando se desea tomar las distancias euclidiana, manhattan y minkowski, se presenta un elevado consumo de memoria RAM, y el tiempo de ejecución de las distancias, al ser una base de datos con 8322 registros, es muy elevado. por lo que se procede a realizar el ejercicio con las librerías propias establecidas de R.
En este caso se usa la técnica de K means para agrupamiento o clustering
Se observa la gráfica de codo, donde el número óptimo de clusters, que para este caso serían 4.
En el gráfico precedente se observa que el número óptimo de cluster serían 2.
Ahora se procede a realizar el gráfica de clusters, donde se ve el agrupamiento de los 4 grupos mencionados como óptimos en el gráfico de codos
Después de tener los clusters o agrupamientos definidos, es importante mirar la distribución del agrupamiento de los 4 clusters:
##
## 1 2 3 4
## 2365 752 616 4586
Como resultado se tiene que los grupos están distribuidos de la siguiente forma:
Para datos categóricos, de esta base de datos se encuentran 4 tipos de datos categóricos que son:
Por recomendación de experto se decide tomar solo dos de estas columnas de datos, Zona y Estrato.
Se revisa si hay datos faltantes.
## zona estrato
## 8319 1 1 0
## 3 0 0 2
## 3 3 6
Al encontrar estos datos faltantes se procede a realizar el ajuste requerido.
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## zona estrato
## 8319 1 1 0
## 0 0 0
Posterior a esto se realiza una tabla cruzada con las variables zona y estrato
##
## Estrato_3 Estrato_4 Estrato_5 Estrato_6
## Zona Centro 105 14 4 1
## Zona Norte 572 407 769 172
## Zona Oeste 54 84 290 770
## Zona Oriente 340 8 2 1
## Zona Sur 382 1616 1685 1043
Ahora sacamos la prueba de Chi cuadrado
##
## Pearson's Chi-squared test
##
## data: vivienda_zon
## X-squared = 3830.4, df = 12, p-value < 2.2e-16
Se rechaza la hipótesis de independencia de las variables indicando grado tipo de relación entre ellas.
Revisando la data arrojando en una gráfica
Podemos encontrar que:
Midiendo el grado de representatividad, basado en la matriz de discrepancias
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.32215213 69.965515 69.96551
## dim 2 0.12745096 27.680002 97.64552
## dim 3 0.01084108 2.354483 100.00000
Se encuentra que: