Modelos Estadísticos para la toma de decisiones

Evaluación de la oferta inmobiliaria urbana

Análisis holístico para identificación de patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades, basados en el mercado de viviendas urbanas.

Se determina que el número de columnas son 13:

Los tipos de datos de cada columna son:

Se procede a realizar lo solicitado:

1. Análisis de Componentes principales:

Al presentarse trece (columnas) de la base de datos en mención “vivienda”, cabe resaltar que para el análisis a realizar se tomarán las siguientes variables:

Es decir se procede a realizar una matriz de las cuatro columnas mencionadas precedentemente:

## # A tibble: 6 × 4
##   preciom banios habitaciones areaconst
##     <dbl>  <dbl>        <dbl>     <dbl>
## 1     250      3            6        70
## 2     320      2            3       120
## 3     350      2            4       220
## 4     400      5            3       280
## 5     260      2            3        90
## 6     240      3            3        87

Ahora como un análisis inicial se procede a mirar datos de centralidad de la matriz creada anteriormente:

##     preciom           banios        habitaciones      areaconst     
##  Min.   :  58.0   Min.   : 0.000   Min.   : 0.000   Min.   :  30.0  
##  1st Qu.: 220.0   1st Qu.: 2.000   1st Qu.: 3.000   1st Qu.:  80.0  
##  Median : 330.0   Median : 3.000   Median : 3.000   Median : 123.0  
##  Mean   : 433.9   Mean   : 3.111   Mean   : 3.605   Mean   : 174.9  
##  3rd Qu.: 540.0   3rd Qu.: 4.000   3rd Qu.: 4.000   3rd Qu.: 229.0  
##  Max.   :1999.0   Max.   :10.000   Max.   :10.000   Max.   :1745.0  
##  NA's   :2        NA's   :3        NA's   :3        NA's   :3

Ahora se continua con la estandarización:

##     preciom            banios          habitaciones       areaconst      
##  Min.   :-1.1438   Min.   :-2.17847   Min.   :-2.4702   Min.   :-1.0138  
##  1st Qu.:-0.6508   1st Qu.:-0.77812   1st Qu.:-0.4148   1st Qu.:-0.6640  
##  Median :-0.3161   Median :-0.07794   Median :-0.4148   Median :-0.3633  
##  Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.0000   Mean   : 0.0000  
##  3rd Qu.: 0.3229   3rd Qu.: 0.62224   3rd Qu.: 0.2704   3rd Qu.: 0.3782  
##  Max.   : 4.7623   Max.   : 4.82330   Max.   : 4.3813   Max.   :10.9822  
##  NA's   :2         NA's   :3          NA's   :3         NA's   :3

Se continua con la revisión de datos faltantes:

##      preciom banios habitaciones areaconst   
## 8319       1      1            1         1  0
## 1          1      0            0         0  3
## 2          0      0            0         0  4
##            2      3            3         3 11

Se observa que hay varios datos faltantes, en cuyo caso se procede a dejar en 0, o que no se presente esta situación.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      preciom banios habitaciones areaconst  
## 8319       1      1            1         1 0
##            0      0            0         0 0

A continuación se realiza nuevamente estandarización con el fin de evitar sesgos en la data:

##         preciom      banios habitaciones  areaconst
## [1,] -0.5595498 -0.07793773    1.6406840 -0.7339949
## [2,] -0.3465670 -0.77811479   -0.4147626 -0.3842568
## [3,] -0.2552886 -0.77811479    0.2703863  0.3152194
## [4,] -0.1031580  1.32241640   -0.4147626  0.7349051
## [5,] -0.5291236 -0.77811479   -0.4147626 -0.5940997
## [6,] -0.5899759 -0.07793773   -0.4147626 -0.6150839

Se realiza el proceso de estimación de componentes principales:

## Standard deviations (1, .., p=4):
## [1] 1.6454433 0.8658509 0.5887917 0.4428804
## 
## Rotation (n x k) = (4 x 4):
##                    PC1         PC2         PC3        PC4
## preciom      0.4924103  0.58973588  0.12672576 -0.6274426
## banios       0.5418940 -0.04149097  0.65939159  0.5194537
## habitaciones 0.4245937 -0.79575725 -0.06237589 -0.4273170
## areaconst    0.5325440  0.13137919 -0.73841219  0.3922803

Podemos observar que se grafican 4 PCs, PC1, PC2, PC3 y PC4

Podemos notar que los dos primeros componentes principales son los que nos darían la pauta de seleccíon de este análisis donde podríamos mencionarlos de la siguiente manera:

Graficamente se tiene:

Otro gráfico que da una mayor observancia de los datos directamente relacionados:

Se seleccionan 4 datos extremos de los siguientes inmuebles

##                 id         zona piso estrato preciom areaconst parqueaderos
## inmueble 466  7509   Zona Oeste   02       5    1200       660           NA
## inmueble 8227  591 Zona Oriente   01       3     350        72            1
## inmueble 5484 5396     Zona Sur <NA>       6    1600      1600            3
## inmueble 429  1816 Zona Oriente <NA>       3     750       183            2
##               banios habitaciones tipo              barrio  longitud latitud
## inmueble 466       0            0 Casa          bellavista -76.55000 3.44700
## inmueble 8227      4           10 Casa        zona oriente -76.49918 3.42603
## inmueble 5484      6            6 Casa parcelaciones pance -76.53621 3.34642
## inmueble 429       0            0 Casa  barrio el recuerdo -76.51772 3.46116

Posteriormente se procede a graficar PCA - individual

2. Análisis de Conglomerados:

Tambien conocidos como clustering, la idea de este análisis es comprender los grupos que se forman dentro de los datos planteados.

Comenzamos realizando una matriz de las cuatro columnas mencionadas precedentemente:

## # A tibble: 6 × 4
##   preciom banios habitaciones areaconst
##     <dbl>  <dbl>        <dbl>     <dbl>
## 1     250      3            6        70
## 2     320      2            3       120
## 3     350      2            4       220
## 4     400      5            3       280
## 5     260      2            3        90
## 6     240      3            3        87

Se continua con estandarizarición

##     preciom            banios          habitaciones       areaconst      
##  Min.   :-1.1438   Min.   :-2.17847   Min.   :-2.4702   Min.   :-1.0138  
##  1st Qu.:-0.6508   1st Qu.:-0.77812   1st Qu.:-0.4148   1st Qu.:-0.6640  
##  Median :-0.3161   Median :-0.07794   Median :-0.4148   Median :-0.3633  
##  Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.0000   Mean   : 0.0000  
##  3rd Qu.: 0.3229   3rd Qu.: 0.62224   3rd Qu.: 0.2704   3rd Qu.: 0.3782  
##  Max.   : 4.7623   Max.   : 4.82330   Max.   : 4.3813   Max.   :10.9822  
##  NA's   :2         NA's   :3          NA's   :3         NA's   :3

Se continua con la revisión de datos faltantes:

##      preciom banios habitaciones areaconst   
## 8319       1      1            1         1  0
## 1          1      0            0         0  3
## 2          0      0            0         0  4
##            2      3            3         3 11

Se observa que hay varios datos faltantes, en cuyo caso se procede a dejar en 0, o que no se presente esta situación.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      preciom banios habitaciones areaconst  
## 8319       1      1            1         1 0
##            0      0            0         0 0

A continuación se realiza nuevamente estandarización con el fin de evitar sesgos en la data:

##         preciom      banios habitaciones  areaconst
## [1,] -0.5595498 -0.07793773    1.6406840 -0.7339949
## [2,] -0.3465670 -0.77811479   -0.4147626 -0.3842568
## [3,] -0.2552886 -0.77811479    0.2703863  0.3152194
## [4,] -0.1031580  1.32241640   -0.4147626  0.7349051
## [5,] -0.5291236 -0.77811479   -0.4147626 -0.5940997
## [6,] -0.5899759 -0.07793773   -0.4147626 -0.6150839

Ahora sigue lo referente a las distancias de los valores estandarizados.

Nota: Se observa que cuando se desea tomar las distancias euclidiana, manhattan y minkowski, se presenta un elevado consumo de memoria RAM, y el tiempo de ejecución de las distancias, al ser una base de datos con 8322 registros, es muy elevado. por lo que se procede a realizar el ejercicio con las librerías propias establecidas de R.

En este caso se usa la técnica de K means para agrupamiento o clustering

Se observa la gráfica de codo, donde el número óptimo de clusters, que para este caso serían 4.

En el gráfico precedente se observa que el número óptimo de cluster serían 2.

Ahora se procede a realizar el gráfica de clusters, donde se ve el agrupamiento de los 4 grupos mencionados como óptimos en el gráfico de codos

Después de tener los clusters o agrupamientos definidos, es importante mirar la distribución del agrupamiento de los 4 clusters:

## 
##    1    2    3    4 
## 2365  752  616 4586

Como resultado se tiene que los grupos están distribuidos de la siguiente forma:

3. Análisis de Correspondencia:

Para datos categóricos, de esta base de datos se encuentran 4 tipos de datos categóricos que son:

Por recomendación de experto se decide tomar solo dos de estas columnas de datos, Zona y Estrato.

Se revisa si hay datos faltantes.

##      zona estrato  
## 8319    1       1 0
## 3       0       0 2
##         3       3 6

Al encontrar estos datos faltantes se procede a realizar el ajuste requerido.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      zona estrato  
## 8319    1       1 0
##         0       0 0

Posterior a esto se realiza una tabla cruzada con las variables zona y estrato

##               
##                Estrato_3 Estrato_4 Estrato_5 Estrato_6
##   Zona Centro        105        14         4         1
##   Zona Norte         572       407       769       172
##   Zona Oeste          54        84       290       770
##   Zona Oriente       340         8         2         1
##   Zona Sur           382      1616      1685      1043

Ahora sacamos la prueba de Chi cuadrado

## 
##  Pearson's Chi-squared test
## 
## data:  vivienda_zon
## X-squared = 3830.4, df = 12, p-value < 2.2e-16

Se rechaza la hipótesis de independencia de las variables indicando grado tipo de relación entre ellas.

Revisando la data arrojando en una gráfica

Podemos encontrar que:

Midiendo el grado de representatividad, basado en la matriz de discrepancias

##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.32215213              69.965515                          69.96551
## dim 2 0.12745096              27.680002                          97.64552
## dim 3 0.01084108               2.354483                         100.00000

Se encuentra que:

Conclusiones: