Unidad

Modelos Estadísticos para la toma de decisiones

Evaluación de la oferta inmobiliaria urbana

Análisis holístico para identificación de patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades, basados en el mercado de viviendas urbanas.

Se determina que el número de columnas son 13:

id
zona
piso
estrato
preciom
areaconst
parqueaderos
banios
habitaciones
tipo
barrio
longitud
latitud

Los tipos de datos de cada columna son:

id = col_double(), - Numérica
zona = col_character(), - Texto
piso = col_character(), - Texto
estrato = col_double(), - Numérica
preciom = col_double(), - Numérica
areaconst = col_double(), - Numérica
parqueaderos = col_double(), - Numérica
banios = col_double(), - Numérica
habitaciones = col_double(), - Numérica
tipo = col_character(), - Texto
barrio = col_character(), - Texto
longitud = col_double(), - Numérica
latitud = col_double()) - Numérica

Se procede a realizar lo solicitado:

1. Análisis de Componentes principales:

Al presentarse trece (columnas) de la base de datos en mención “vivienda”, cabe resaltar que para el análisis a realizar se tomarán las siguientes variables:

Precio
Número de baños
Número de habitaciones
Área

Es decir se procede a realizar una matriz de las cuatro columnas mencionadas precedentemente:

## # A tibble: 6 × 4
##   preciom banios habitaciones areaconst
##     <dbl>  <dbl>        <dbl>     <dbl>
## 1     250      3            6        70
## 2     320      2            3       120
## 3     350      2            4       220
## 4     400      5            3       280
## 5     260      2            3        90
## 6     240      3            3        87

Ahora como un análisis inicial se procede a mirar datos de centralidad de la matriz creada anteriormente:

##     preciom           banios        habitaciones      areaconst     
##  Min.   :  58.0   Min.   : 0.000   Min.   : 0.000   Min.   :  30.0  
##  1st Qu.: 220.0   1st Qu.: 2.000   1st Qu.: 3.000   1st Qu.:  80.0  
##  Median : 330.0   Median : 3.000   Median : 3.000   Median : 123.0  
##  Mean   : 433.9   Mean   : 3.111   Mean   : 3.605   Mean   : 174.9  
##  3rd Qu.: 540.0   3rd Qu.: 4.000   3rd Qu.: 4.000   3rd Qu.: 229.0  
##  Max.   :1999.0   Max.   :10.000   Max.   :10.000   Max.   :1745.0  
##  NA's   :2        NA's   :3        NA's   :3        NA's   :3

Ahora se continua con la estandarización:

##     preciom            banios          habitaciones       areaconst      
##  Min.   :-1.1438   Min.   :-2.17847   Min.   :-2.4702   Min.   :-1.0138  
##  1st Qu.:-0.6508   1st Qu.:-0.77812   1st Qu.:-0.4148   1st Qu.:-0.6640  
##  Median :-0.3161   Median :-0.07794   Median :-0.4148   Median :-0.3633  
##  Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.0000   Mean   : 0.0000  
##  3rd Qu.: 0.3229   3rd Qu.: 0.62224   3rd Qu.: 0.2704   3rd Qu.: 0.3782  
##  Max.   : 4.7623   Max.   : 4.82330   Max.   : 4.3813   Max.   :10.9822  
##  NA's   :2         NA's   :3          NA's   :3         NA's   :3

Se continua con la revisión de datos faltantes:

##      preciom banios habitaciones areaconst   
## 8319       1      1            1         1  0
## 1          1      0            0         0  3
## 2          0      0            0         0  4
##            2      3            3         3 11

Se observa que hay varios datos faltantes, en cuyo caso se procede a dejar en 0, o que no se presente esta situación.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      preciom banios habitaciones areaconst  
## 8319       1      1            1         1 0
##            0      0            0         0 0

A continuación se realiza nuevamente estandarización con el fin de evitar sesgos en la data:

##         preciom      banios habitaciones  areaconst
## [1,] -0.5595498 -0.07793773    1.6406840 -0.7339949
## [2,] -0.3465670 -0.77811479   -0.4147626 -0.3842568
## [3,] -0.2552886 -0.77811479    0.2703863  0.3152194
## [4,] -0.1031580  1.32241640   -0.4147626  0.7349051
## [5,] -0.5291236 -0.77811479   -0.4147626 -0.5940997
## [6,] -0.5899759 -0.07793773   -0.4147626 -0.6150839

Se realiza el proceso de estimación de componentes principales:

## Standard deviations (1, .., p=4):
## [1] 1.6454433 0.8658509 0.5887917 0.4428804
## 
## Rotation (n x k) = (4 x 4):
##                    PC1         PC2         PC3        PC4
## preciom      0.4924103  0.58973588  0.12672576 -0.6274426
## banios       0.5418940 -0.04149097  0.65939159  0.5194537
## habitaciones 0.4245937 -0.79575725 -0.06237589 -0.4273170
## areaconst    0.5325440  0.13137919 -0.73841219  0.3922803

Podemos observar que se grafican 4 PCs, PC1, PC2, PC3 y PC4

El mayor porcentaje lo tiene el componente principal PC1 con un 67.7%
El segundo porcentaje lo tiene el componente princpipal PC2 con 18.7%
El tercer porcentaje lo tiene el componente principal PC3 con 8.7%
El menor porcnetaje lo tiene el componente principal PC4 con 4.9%

Podemos notar que los dos primeros componentes principales son los que nos darían la pauta de seleccíon de este análisis donde podríamos mencionarlos de la siguiente manera:

PC1 = Costo
PC2 = Tamaño

Graficamente se tiene:

Otro gráfico que da una mayor observancia de los datos directamente relacionados:

Se seleccionan 4 datos extremos de los siguientes inmuebles

id 466
id 8227
id 5484
id 429

##                 id         zona piso estrato preciom areaconst parqueaderos
## inmueble 466  7509   Zona Oeste   02       5    1200       660           NA
## inmueble 8227  591 Zona Oriente   01       3     350        72            1
## inmueble 5484 5396     Zona Sur <NA>       6    1600      1600            3
## inmueble 429  1816 Zona Oriente <NA>       3     750       183            2
##               banios habitaciones tipo              barrio  longitud latitud
## inmueble 466       0            0 Casa          bellavista -76.55000 3.44700
## inmueble 8227      4           10 Casa        zona oriente -76.49918 3.42603
## inmueble 5484      6            6 Casa parcelaciones pance -76.53621 3.34642
## inmueble 429       0            0 Casa  barrio el recuerdo -76.51772 3.46116

Posteriormente se procede a graficar PCA - individual

2. Análisis de Conglomerados:

Tambien conocidos como clustering, la idea de este análisis es comprender los grupos que se forman dentro de los datos planteados.

Comenzamos realizando una matriz de las cuatro columnas mencionadas precedentemente:

## # A tibble: 6 × 4
##   preciom banios habitaciones areaconst
##     <dbl>  <dbl>        <dbl>     <dbl>
## 1     250      3            6        70
## 2     320      2            3       120
## 3     350      2            4       220
## 4     400      5            3       280
## 5     260      2            3        90
## 6     240      3            3        87

Se continua con estandarizarición

##     preciom            banios          habitaciones       areaconst      
##  Min.   :-1.1438   Min.   :-2.17847   Min.   :-2.4702   Min.   :-1.0138  
##  1st Qu.:-0.6508   1st Qu.:-0.77812   1st Qu.:-0.4148   1st Qu.:-0.6640  
##  Median :-0.3161   Median :-0.07794   Median :-0.4148   Median :-0.3633  
##  Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.0000   Mean   : 0.0000  
##  3rd Qu.: 0.3229   3rd Qu.: 0.62224   3rd Qu.: 0.2704   3rd Qu.: 0.3782  
##  Max.   : 4.7623   Max.   : 4.82330   Max.   : 4.3813   Max.   :10.9822  
##  NA's   :2         NA's   :3          NA's   :3         NA's   :3

Se continua con la revisión de datos faltantes:

##      preciom banios habitaciones areaconst   
## 8319       1      1            1         1  0
## 1          1      0            0         0  3
## 2          0      0            0         0  4
##            2      3            3         3 11

Se observa que hay varios datos faltantes, en cuyo caso se procede a dejar en 0, o que no se presente esta situación.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      preciom banios habitaciones areaconst  
## 8319       1      1            1         1 0
##            0      0            0         0 0

A continuación se realiza nuevamente estandarización con el fin de evitar sesgos en la data:

##         preciom      banios habitaciones  areaconst
## [1,] -0.5595498 -0.07793773    1.6406840 -0.7339949
## [2,] -0.3465670 -0.77811479   -0.4147626 -0.3842568
## [3,] -0.2552886 -0.77811479    0.2703863  0.3152194
## [4,] -0.1031580  1.32241640   -0.4147626  0.7349051
## [5,] -0.5291236 -0.77811479   -0.4147626 -0.5940997
## [6,] -0.5899759 -0.07793773   -0.4147626 -0.6150839

Ahora sigue lo referente a las distancias de los valores estandarizados.

Nota: Se observa que cuando se desea tomar las distancias euclidiana, manhattan y minkowski, se presenta un elevado consumo de memoria RAM, y el tiempo de ejecución de las distancias, al ser una base de datos con 8322 registros, es muy elevado. por lo que se procede a realizar el ejercicio con las librerías propias establecidas de R.

En este caso se usa la técnica de K means para agrupamiento o clustering

Se observa la gráfica de codo, donde el número óptimo de clusters, que para este caso serían 4.

En el gráfico precedente se observa que el número óptimo de cluster serían 2.

Ahora se procede a realizar el gráfica de clusters, donde se ve el agrupamiento de los 4 grupos mencionados como óptimos en el gráfico de codos

Después de tener los clusters o agrupamientos definidos, es importante mirar la distribución del agrupamiento de los 4 clusters:

## 
##    1    2    3    4 
## 2365  752  616 4586

Como resultado se tiene que los grupos están distribuidos de la siguiente forma:

Grupo 1 = 2365
Grupo 2 = 752
Grupo 3 = 616
Grupo 4 = 4586

3. Análisis de Correspondencia:

Para datos categóricos, de esta base de datos se encuentran 4 tipos de datos categóricos que son:

Zona
Estrato
Barrio
Tipo

Por recomendación de experto se decide tomar solo dos de estas columnas de datos, Zona y Estrato.

Se revisa si hay datos faltantes.

##      zona estrato  
## 8319    1       1 0
## 3       0       0 2
##         3       3 6

Al encontrar estos datos faltantes se procede a realizar el ajuste requerido.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      zona estrato  
## 8319    1       1 0
##         0       0 0

Posterior a esto se realiza una tabla cruzada con las variables zona y estrato

##               
##                Estrato_3 Estrato_4 Estrato_5 Estrato_6
##   Zona Centro        105        14         4         1
##   Zona Norte         572       407       769       172
##   Zona Oeste          54        84       290       770
##   Zona Oriente       340         8         2         1
##   Zona Sur           382      1616      1685      1043

Ahora sacamos la prueba de Chi cuadrado

## 
##  Pearson's Chi-squared test
## 
## data:  vivienda_zon
## X-squared = 3830.4, df = 12, p-value < 2.2e-16

Se rechaza la hipótesis de independencia de las variables indicando grado tipo de relación entre ellas.

Revisando la data arrojando en una gráfica

Podemos encontrar que:

La ubicación geográfica está ligado directamente con el nivel socioeconómico, se aprecia una correlación puntual.
El estrato 5 y 4 están relacionados con la zona sur y zona norte, forman un grupo distintivo.
El Estrato 6 se relaciona directamente con la zona oeste de la ciudad de Cali.
El estrato 3 tiene a relacionarse con la zona centro y zonca oriente.

Midiendo el grado de representatividad, basado en la matriz de discrepancias

##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.32215213              69.965515                          69.96551
## dim 2 0.12745096              27.680002                          97.64552
## dim 3 0.01084108               2.354483                         100.00000

Se encuentra que:

El primer componente tiene un 70%
El segundo componente tiene un 27.7%
El tercer componente tiene un 2.4%

Conclusiones:

Las técnicas de análisis multivariado presentados dan una multiplicidad de posiblidades muy concretas a la hora de poder tomar decisiones basados en mínimo dos variables.
Respecto al tema del análisis de conglomerados al buscar las distancias euclidiana, manhattan o minkowski, se observa un gran consumo de recurso máquina, por lo que para una base de datos de gran tamaño, el consumo de tiempo y recurso tecnológico es importante.
Al querer tomar para el análisis de correspondencia la columna “barrios”, se torna muy engorroso el manejo de la información y el tratamiento de la misma, por lo que se procede a tomar las dos columnas Estrato y zona, para mayor entendimiento y rendimiento en la ejecución.

Unidad_1

Dmedina

2024-02-01