Introducción

La empresa B&C (Bienes y Casas) es una agencia inmobiliaria que opera en Cali, Colombia. La empresa fue fundada hace 10 años por Sandra Milena y actualmente emplea a 8 agentes inmobiliarios.

El mercado inmobiliario de Cali ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios. En 2021, la industria generó ventas por $6.700 millones en Cali y $6.100 millones en 2022. Se espera que la industria continúe creciendo en los próximos años, contribuyendo así al crecimiento económico regional.

Objetivos

El objetivo de este informe es dar a conocer información de interes para los directivos de la empresa B & C inmobiliaria y así poder tomar decisiones sobre su negocio como lo sería: definir su nicho de mercado, desarrollar estrategias de marketing, establecer precios de venta y ofrecer servicios personalizados a sus clientes.

Metodos y resultados

En la parte de metodos y resultados, nos encontraremos con distintos metodos que vamos a utilizar para la interpretacion de los datos como lo son inicialmente la limpieza de las variables, a partir de las estadísticas descriptivas se va a resumir sus características principales, en donde se emplearan métodos de visualización de datos esto con el fin de descubrir patrones y tendencias en los datos asi de esta forma proporcionando una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas.

Limpieza de datos

Incialmente vamos a explorar una muestra de tamaño 8330 filas con 13 columnas, las variables son: id, zona, piso, estrato, preciom, areaconst, parquea, banios, habitac, tipo, barrio, longitud, latitud.

library(paqueteMET)
library(dplyr)
library(mice)
## 
## Attaching package: 'mice'
## The following object is masked from 'package:stats':
## 
##     filter
## The following objects are masked from 'package:base':
## 
##     cbind, rbind
library(modeest)
## Warning: package 'modeest' was built under R version 4.1.3
## Registered S3 methods overwritten by 'rmutil':
##   method         from 
##   plot.residuals psych
##   print.response httr
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:PerformanceAnalytics':
## 
##     skewness
data("vivienda_faltantes")
set.seed(123)
datosNA<-sample_n(vivienda_faltantes, 8330)
str(datosNA)
## spc_tbl_ [8,330 x 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id       : num [1:8330] 122 190 880 1663 1401 ...
##  $ zona     : chr [1:8330] "Zona Norte" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso     : num [1:8330] 1 4 1 NA NA 1 7 NA 2 4 ...
##  $ estrato  : num [1:8330] 3 3 3 4 4 5 5 3 5 3 ...
##  $ preciom  : num [1:8330] 150 360 250 375 150 270 290 235 450 125 ...
##  $ areaconst: num [1:8330] 93 420 210 74 57 75 93 122 252 72 ...
##  $ parquea  : num [1:8330] NA 1 NA 1 NA 1 1 1 2 NA ...
##  $ banios   : num [1:8330] 1 6 4 5 2 2 3 2 2 2 ...
##  $ habitac  : num [1:8330] 4 9 4 5 3 3 3 5 7 3 ...
##  $ tipo     : chr [1:8330] "Casa" "Casa" "Apartamento" "Casa" ...
##  $ barrio   : chr [1:8330] "la rivera" "las ceibas" "morichal de comfandi" "calicanto viii" ...
##  $ longitud : num [1:8330] -76.5 -76.5 -76.5 -76517 -76.5 ...
##  $ latitud  : num [1:8330] 3.48 3.46 3.4 3373 3.38 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   id = col_double(),
##   ..   zona = col_character(),
##   ..   piso = col_double(),
##   ..   estrato = col_double(),
##   ..   preciom = col_double(),
##   ..   areaconst = col_double(),
##   ..   parquea = col_double(),
##   ..   banios = col_double(),
##   ..   habitac = col_double(),
##   ..   tipo = col_character(),
##   ..   barrio = col_character(),
##   ..   longitud = col_double(),
##   ..   latitud = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>

En esta tabla podemos visualizar que las variables piso y parquea son las variables que contienen mayor cantidad de valores faltantes o missing values, en piso encontramos 2641 registros con NA y en parquea 1606 registros con NA.

faltantes <- colSums(is.na(datosNA))
faltantes
##        id      zona      piso   estrato   preciom areaconst   parquea    banios 
##         3         3      2641         3         2         3      1606         3 
##   habitac      tipo    barrio  longitud   latitud 
##         3         3         3         3         3
grafico <-md.pattern(datosNA, rotate.names = TRUE)

Imputacion

Dado que podríamos eliminar los valores faltantes, debemos tener en cuenta que se perdería gran cantidad de información que puede aportar finalmente a los resultados, asi que procederemos a reemplazar los NA (missing values) por el valor correspondiente a la media.

media_parquea <- mean(datosNA$parquea, na.rm = TRUE)
datosNA$parquea[is.na(datosNA$parquea)] <- media_parquea
media_piso <- mean(datosNA$piso, na.rm = TRUE)
datosNA$piso[is.na(datosNA$piso)] <- media_piso
media_latitud <- mean(datosNA$latitud, na.rm = TRUE)
datosNA$latitud[is.na(datosNA$latitud)] <- media_latitud
media_longitud <- mean(datosNA$longitud, na.rm = TRUE)
datosNA$longitud[is.na(datosNA$longitud)] <- media_longitud
moda_barrio <- mfv(datosNA$barrio, na.rm = TRUE)
## argument 'na.rm' is soft-deprecated, please start using 'na_rm' instead
datosNA$barrio[is.na(datosNA$barrio)] <- moda_barrio
moda_tipo <- mfv(datosNA$tipo, na.rm = TRUE)
## argument 'na.rm' is soft-deprecated, please start using 'na_rm' instead
datosNA$tipo[is.na(datosNA$tipo)] <- moda_tipo
media_habitac <- mean(datosNA$habitac, na.rm = TRUE)
datosNA$habitac[is.na(datosNA$habitac)] <- media_habitac
media_banios <- mean(datosNA$banios, na.rm = TRUE)
datosNA$banios[is.na(datosNA$banios)] <- media_banios
media_areaconst <- mean(datosNA$areaconst, na.rm = TRUE)
datosNA$areaconst[is.na(datosNA$areaconst)] <- media_areaconst
media_estrato <- mean(datosNA$estrato, na.rm = TRUE)
datosNA$estrato[is.na(datosNA$estrato)] <- media_estrato
moda_zona <- mfv(datosNA$zona, na.rm = TRUE)
## argument 'na.rm' is soft-deprecated, please start using 'na_rm' instead
datosNA$zona[is.na(datosNA$zona)] <- moda_zona
media_preciom <- mean(datosNA$preciom, na.rm = TRUE)
datosNA$preciom[is.na(datosNA$preciom)] <- media_preciom
media_id <- mean(datosNA$id, na.rm = TRUE)
datosNA$id[is.na(datosNA$id)] <- media_id
grafico <-md.pattern(datosNA, rotate.names = TRUE)
##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

Estadisticas Descriptivas

Inicialmente empezaremos a conocer las variables cualitativas, donde nos encontramos con que la zona mas común en la que viven las personas es la zona sur (4729 registros), seguido de la zona norte (1922 registros) y la zona oeste (1204 registros).

table(datosNA$zona)
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##          124         1922         1204          351         4729
barplot(prop.table(table(datosNA$zona)),col=c("orange","blue", "red", "green", "yellow"),
        legend.text=c("Zona Centro","Zona Norte","Zona Oeste","Zona Oriente", "Zona Sur"),
        ylim=c(0,1.2),ylab="Frecuencias Relativas")

La variable tipo que hace referencia al tipo de vivienda cuenta con registros en mayusculas y minusculas, se optó por pasar a minuscula todos los registros, posterior a ello vemos que los registros apartamento y apto hacen referencia a lo mismo por lo que se procede a hacer una homologación. Como análisis tenemos que 5109 personas viven en apartamento y 3221 personas viven en casa.

table(datosNA$tipo)
## 
## Apartamento APARTAMENTO        apto        casa        Casa        CASA 
##        5035          61          13          14        3195          12
datosNA$tipo=str_to_lower(datosNA$tipo)
table(datosNA$tipo)
## 
## apartamento        apto        casa 
##        5096          13        3221
table1<-str_replace_all(string = datosNA$tipo,pattern = c('apto' = "apartamento",'casa' = "casa"))
table(table1)
## table1
## apartamento        casa 
##        5109        3221
library(plotrix)
## 
## Attaching package: 'plotrix'
## The following object is masked from 'package:psych':
## 
##     rescale
proporciones <- c(5109, 3221) # creamos un vector con proporciones
etiquetas <- c("apartamento", "casa") # vector con etiquetas

pct <- round(proporciones/sum(proporciones)*100)
etiquetas <- paste(etiquetas, pct) # Añadimos porcentajes a etiquetas
etiquetas <- paste(etiquetas,"%",sep="") # Añadimos el símbolo de %

pie(proporciones,labels = etiquetas,
    col=rainbow(length(etiquetas)),
    main="Diagrama de torta: tipo de vivienda")

# Añadimos un cuadro con leyendas
legend("topright", c("apartamento","casa"), cex = 0.8,
       fill = rainbow(length(proporciones)))

Ahora en la tabla de frecuencias podemos ver en la variable barrio, que el barrio más común donde viven las personas es valle de lili. La variable barrio cuenta con registros en mayusculas y minusculas, se optó por pasar a minuscula todos los registros.

datosNA$barrio <- chartr('áéíóú','aeiou', datosNA$barrio)
datosNA$barrio=str_to_lower(datosNA$barrio)
tab.p11.v2 <- freq(datosNA$barrio)
tab.p11.v2
## Frequencies  
## datosNA$barrio  
## Type: Character  
## 
##                                       Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------------------------------- ------ --------- -------------- --------- --------------
##                         20 de julio      3     0.036          0.036     0.036          0.036
##                          3 de julio      1     0.012          0.048     0.012          0.048
##                               acopi    158     1.897          1.945     1.897          1.945
##                         agua blanca      1     0.012          1.957     0.012          1.957
##                          aguablanca      2     0.024          1.981     0.024          1.981
##                           aguacatal    110     1.321          3.301     1.321          3.301
##                             alameda     16     0.192          3.493     0.192          3.493
##                     alameda del rio      3     0.036          3.529     0.036          3.529
##                              alamos     14     0.168          3.697     0.168          3.697
##                            alborada      1     0.012          3.709     0.012          3.709
##                           alcazares      2     0.024          3.733     0.024          3.733
##                        alferez real      2     0.024          3.758     0.024          3.758
##                       alfonso lopez     22     0.264          4.022     0.264          4.022
##                     alfonso lopez i      1     0.012          4.034     0.012          4.034
##                       alfv©rez real      5     0.060          4.094     0.060          4.094
##                         alto jordan      1     0.012          4.106     0.012          4.106
##                  altos de guadalupe      4     0.048          4.154     0.048          4.154
##                      altos de menga      3     0.036          4.190     0.036          4.190
##                      altos de santa      1     0.012          4.202     0.012          4.202
##                      antonio nariño      2     0.024          4.226     0.024          4.226
##                            aranjuez     15     0.180          4.406     0.180          4.406
##                            arboleda      5     0.060          4.466     0.060          4.466
##       arboleda campestre candelaria      1     0.012          4.478     0.012          4.478
##                           arboledas     38     0.456          4.934     0.456          4.934
##                   atanasio girardot      9     0.108          5.042     0.108          5.042
##                       autopista sur      1     0.012          5.054     0.012          5.054
##                      bajo aguacatal      1     0.012          5.066     0.012          5.066
##                        barranquilla      6     0.072          5.138     0.072          5.138
##                   barrio 7de agosto      1     0.012          5.150     0.012          5.150
##                  barrio el recuerdo      1     0.012          5.162     0.012          5.162
##                  barrio eucaristico      1     0.012          5.174     0.012          5.174
##                       barrio obrero      1     0.012          5.186     0.012          5.186
##                  barrio tranquilo y      1     0.012          5.198     0.012          5.198
##                         base av©rea      2     0.024          5.222     0.024          5.222
##                          belalcazar      4     0.048          5.270     0.048          5.270
##                   belisario caicedo      2     0.024          5.294     0.024          5.294
##                         bella suiza     18     0.216          5.510     0.216          5.510
##                    bella suiza alta      4     0.048          5.558     0.048          5.558
##                          bellavista     43     0.516          6.074     0.516          6.074
##                    benjamin herrera      8     0.096          6.170     0.096          6.170
##                              berlin      1     0.012          6.182     0.012          6.182
##                 bloques del limonar      1     0.012          6.194     0.012          6.194
##                           bochalema     33     0.396          6.591     0.396          6.591
##                         bolivariano      1     0.012          6.603     0.012          6.603
##                 bosques de alboleda      1     0.012          6.615     0.012          6.615
##                 bosques del limonar     21     0.252          6.867     0.252          6.867
##                              boyaca      1     0.012          6.879     0.012          6.879
##                             bretaña     16     0.192          7.071     0.192          7.071
##                 brisas de guadalupe      1     0.012          7.083     0.012          7.083
##                       brisas de los     82     0.984          8.067     0.984          8.067
##                  brisas del guabito      1     0.012          8.079     0.012          8.079
##                  brisas del limonar      1     0.012          8.091     0.012          8.091
##                        bueno madrid      1     0.012          8.103     0.012          8.103
##                        buenos aires      7     0.084          8.187     0.084          8.187
##                              caldas      1     0.012          8.199     0.012          8.199
##                                cali     37     0.444          8.643     0.444          8.643
##                          cali bella      1     0.012          8.655     0.012          8.655
##                          cali canto      1     0.012          8.667     0.012          8.667
##                           calibella      1     0.012          8.679     0.012          8.679
##                           calicanto      8     0.096          8.776     0.096          8.776
##                      calicanto viii      1     0.012          8.788     0.012          8.788
##                              calima      6     0.072          8.860     0.072          8.860
##                       calimio norte      5     0.060          8.920     0.060          8.920
##                             calipso     11     0.132          9.052     0.132          9.052
##                            cambulos      3     0.036          9.088     0.036          9.088
##                         camino real     36     0.432          9.520     0.432          9.520
##                           campestre      1     0.012          9.532     0.012          9.532
##                               caney     88     1.056         10.588     1.056         10.588
##                      caney especial      5     0.060         10.648     0.060         10.648
##                         cañasgordas      7     0.084         10.732     0.084         10.732
##                        cañaveralejo     12     0.144         10.876     0.144         10.876
##                         cañaverales     21     0.252         11.128     0.252         11.128
##             cañaverales los samanes      1     0.012         11.140     0.012         11.140
##                               capri     56     0.672         11.813     0.672         11.813
##                            cascajal      1     0.012         11.825     0.012         11.825
##                         cataya real      1     0.012         11.837     0.012         11.837
##                              ceibas      1     0.012         11.849     0.012         11.849
##                            centelsa      1     0.012         11.861     0.012         11.861
##                          centenario     16     0.192         12.053     0.192         12.053
##                              centro      4     0.048         12.101     0.048         12.101
##                     cerro cristales     22     0.264         12.365     0.264         12.365
##                 cerros de guadalupe      1     0.012         12.377     0.012         12.377
##                          champagnat     14     0.168         12.545     0.168         12.545
##                           chapinero      7     0.084         12.629     0.084         12.629
##                         chiminangos     18     0.216         12.845     0.216         12.845
##                 chiminangos 1 etapa      1     0.012         12.857     0.012         12.857
##                 chiminangos 2 etapa      2     0.024         12.881     0.024         12.881
##                          chipichape     30     0.360         13.241     0.360         13.241
##                         ciudad 2000     96     1.152         14.394     1.152         14.394
##                   ciudad antejardin      1     0.012         14.406     0.012         14.406
##                    ciudad bochalema     48     0.576         14.982     0.576         14.982
##                        ciudad capri     13     0.156         15.138     0.156         15.138
##                      ciudad cordoba     35     0.420         15.558     0.420         15.558
##            ciudad cordoba reservado      1     0.012         15.570     0.012         15.570
##                      ciudad country      1     0.012         15.582     0.012         15.582
##                    ciudad del campo      1     0.012         15.594     0.012         15.594
##                       ciudad jardin    540     6.483         22.077     6.483         22.077
##                 ciudad jardin pance      1     0.012         22.089     0.012         22.089
##                   ciudad los alamos     26     0.312         22.401     0.312         22.401
##                     ciudad melendez      1     0.012         22.413     0.012         22.413
##                    ciudad melv©ndez      1     0.012         22.425     0.012         22.425
##                       ciudad modelo      7     0.084         22.509     0.084         22.509
##                     ciudad pacifica      3     0.036         22.545     0.036         22.545
##                         ciudad real      3     0.036         22.581     0.036         22.581
##                      ciudad talanga      1     0.012         22.593     0.012         22.593
##                ciudad universitaria      1     0.012         22.605     0.012         22.605
##                  ciudadela comfandi     17     0.204         22.809     0.204         22.809
##                   ciudadela del rio      1     0.012         22.821     0.012         22.821
##                  ciudadela melendez      1     0.012         22.833     0.012         22.833
##                ciudadela paso ancho      1     0.012         22.845     0.012         22.845
##                 ciudadela pasoancho     21     0.252         23.097     0.252         23.097
##                    colinas de menga      3     0.036         23.133     0.036         23.133
##                  colinas del bosque      1     0.012         23.145     0.012         23.145
##                     colinas del sur      8     0.096         23.241     0.096         23.241
##                               colon      1     0.012         23.253     0.012         23.253
##                          colseguros     44     0.528         23.782     0.528         23.782
##                    colseguros andes      5     0.060         23.842     0.060         23.842
##                          comfenalco      1     0.012         23.854     0.012         23.854
##                           compartir      1     0.012         23.866     0.012         23.866
##                  conjunto gibraltar      1     0.012         23.878     0.012         23.878
##                           cristales     83     0.996         24.874     0.996         24.874
##                     cristobal colon     16     0.192         25.066     0.192         25.066
##                     cuarto de legua     44     0.528         25.594     0.528         25.594
##                       departamental     29     0.348         25.942     0.348         25.942
##                 ed benjamin herrera      1     0.012         25.954     0.012         25.954
##                           el bosque     50     0.600         26.555     0.600         26.555
##                            el caney    209     2.509         29.064     2.509         29.064
##                         el castillo      6     0.072         29.136     0.072         29.136
##                            el cedro      8     0.096         29.232     0.096         29.232
##                         el diamante      2     0.024         29.256     0.024         29.256
##                           el dorado      6     0.072         29.328     0.072         29.328
##                     el gran limonar      8     0.096         29.424     0.096         29.424
##                           el guabal     19     0.228         29.652     0.228         29.652
##                          el guabito      1     0.012         29.664     0.012         29.664
##                          el ingenio    203     2.437         32.101     2.437         32.101
##                        el ingenio 3      1     0.012         32.113     0.012         32.113
##                        el ingenio i     19     0.228         32.341     0.228         32.341
##                       el ingenio ii     21     0.252         32.593     0.252         32.593
##                      el ingenio iii     20     0.240         32.833     0.240         32.833
##                           el jardin     15     0.180         33.013     0.180         33.013
##                           el jordan      1     0.012         33.025     0.012         33.025
##                             el lido     59     0.708         33.733     0.708         33.733
##                          el limonar    135     1.621         35.354     1.621         35.354
##                         el nacional      1     0.012         35.366     0.012         35.366
##                          el paraiso      3     0.036         35.402     0.036         35.402
##                            el peñon     60     0.720         36.122     0.720         36.122
##                            el prado      2     0.024         36.146     0.024         36.146
##                          el refugio    120     1.441         37.587     1.441         37.587
##                            el rodeo      1     0.012         37.599     0.012         37.599
##                             el sena      1     0.012         37.611     0.012         37.611
##                          el troncal     19     0.228         37.839     0.228         37.839
##                          el trv©bol      5     0.060         37.899     0.060         37.899
##                          el vallado      1     0.012         37.911     0.012         37.911
##                         eucaristico      2     0.024         37.935     0.024         37.935
##                     evaristo garcia      2     0.024         37.959     0.024         37.959
##                farrallones de pance      1     0.012         37.971     0.012         37.971
##                     fenalco kennedy      1     0.012         37.983     0.012         37.983
##                             fepicol      1     0.012         37.995     0.012         37.995
##                               flora      1     0.012         38.007     0.012         38.007
##                    flora industrial     16     0.192         38.199     0.192         38.199
##                            floralia      6     0.072         38.271     0.072         38.271
##                        fonaviemcali      1     0.012         38.283     0.012         38.283
##            francisco eladio ramirez      1     0.012         38.295     0.012         38.295
##                       fuentes de la      1     0.012         38.307     0.012         38.307
##                              gaitan      1     0.012         38.319     0.012         38.319
##                        gran limonar     24     0.288         38.607     0.288         38.607
##                             granada     16     0.192         38.800     0.192         38.800
##                           guadalupe     21     0.252         39.052     0.252         39.052
##                      guadalupe alto      1     0.012         39.064     0.012         39.064
##                           guaduales      2     0.024         39.088     0.024         39.088
##                           guayaquil     16     0.192         39.280     0.192         39.280
##               hacienda alferez real      1     0.012         39.292     0.012         39.292
##                             ingenio      1     0.012         39.304     0.012         39.304
##                           ingenio i      1     0.012         39.316     0.012         39.316
##                          ingenio ii      1     0.012         39.328     0.012         39.328
##                             jamundi      4     0.048         39.376     0.048         39.376
##                   jamundi alfaguara      1     0.012         39.388     0.012         39.388
##                jorge eliecer gaitan      1     0.012         39.400     0.012         39.400
##                        jorge isaacs      1     0.012         39.412     0.012         39.412
##               jose manuel marroquin      1     0.012         39.424     0.012         39.424
##                            juanambu      2     0.024         39.448     0.024         39.448
##                    juanambv<U+222B>     53     0.636         40.084     0.636         40.084
##                               junin     24     0.288         40.372     0.288         40.372
##                         la alborada      5     0.060         40.432     0.060         40.432
##                          la alianza      5     0.060         40.492     0.060         40.492
##                         la arboleda     18     0.216         40.708     0.216         40.708
##                             la base     15     0.180         40.888     0.180         40.888
##                         la buitrera      3     0.036         40.924     0.036         40.924
##                          la campiña     13     0.156         41.080     0.156         41.080
##                          la cascada      7     0.084         41.164     0.084         41.164
##                           la ceibas      1     0.012         41.176     0.012         41.176
##                        la esmeralda      1     0.012         41.188     0.012         41.188
##                            la flora    369     4.430         45.618     4.430         45.618
##                         la floresta     18     0.216         45.834     0.216         45.834
##                        la fortaleza      4     0.048         45.882     0.048         45.882
##                    la gran colombia      1     0.012         45.894     0.012         45.894
##                         la hacienda    166     1.993         47.887     1.993         47.887
##                    la independencia     12     0.144         48.031     0.144         48.031
##                         la libertad      2     0.024         48.055     0.024         48.055
##                            la luisa      1     0.012         48.067     0.012         48.067
##                           la merced     26     0.312         48.379     0.312         48.379
##                           la morada      1     0.012         48.391     0.012         48.391
##                       la nueva base      8     0.096         48.487     0.096         48.487
##                            la playa      1     0.012         48.499     0.012         48.499
##                       la portada al      1     0.012         48.511     0.012         48.511
##                        la primavera      1     0.012         48.523     0.012         48.523
##                          la reforma      1     0.012         48.535     0.012         48.535
##                           la rivera     11     0.132         48.667     0.132         48.667
##                         la rivera i      2     0.024         48.691     0.024         48.691
##                        la rivera ii      2     0.024         48.715     0.024         48.715
##                         la riverita      1     0.012         48.727     0.012         48.727
##                          la riviera      1     0.012         48.739     0.012         48.739
##                            la selva     11     0.132         48.872     0.132         48.872
##                        la villa del      1     0.012         48.884     0.012         48.884
##                             laflora      1     0.012         48.896     0.012         48.896
##                 lares de comfenalco      1     0.012         48.908     0.012         48.908
##                         las acacias     12     0.144         49.052     0.144         49.052
##                       las amv©ricas      3     0.036         49.088     0.036         49.088
##                        las camelias      1     0.012         49.100     0.012         49.100
##                          las ceibas     23     0.276         49.376     0.276         49.376
##                        las delicias      5     0.060         49.436     0.060         49.436
##                         las granjas     10     0.120         49.556     0.120         49.556
##                      las quintas de      1     0.012         49.568     0.012         49.568
##                           las vegas      1     0.012         49.580     0.012         49.580
##                        las vegas de      1     0.012         49.592     0.012         49.592
##                        libertadores      3     0.036         49.628     0.036         49.628
##                          los alamos      1     0.012         49.640     0.012         49.640
##                       los alcazares     22     0.264         49.904     0.264         49.904
##                           los andes     21     0.252         50.156     0.252         50.156
##                        los cambulos     31     0.372         50.528     0.372         50.528
##                       los cristales    154     1.849         52.377     1.849         52.377
##                  los cristales club      1     0.012         52.389     0.012         52.389
##                      los farallones      4     0.048         52.437     0.048         52.437
##                       los guaduales     26     0.312         52.749     0.312         52.749
##                      los guayacanes      3     0.036         52.785     0.036         52.785
##                         los jockeys      1     0.012         52.797     0.012         52.797
##                    los libertadores      4     0.048         52.845     0.048         52.845
##            los parques barranquilla      6     0.072         52.917     0.072         52.917
##                          los robles      1     0.012         52.929     0.012         52.929
##                             lourdes      2     0.024         52.953     0.024         52.953
##                            mamellan      1     0.012         52.965     0.012         52.965
##                          manzanares      5     0.060         53.025     0.060         53.025
##                       mariano ramos      1     0.012         53.037     0.012         53.037
##                       marroquin iii      1     0.012         53.049     0.012         53.049
##                   mayapan las vegas     46     0.552         53.601     0.552         53.601
##                            melendez     52     0.624         54.226     0.624         54.226
##                           melv©ndez     23     0.276         54.502     0.276         54.502
##                               menga     23     0.276         54.778     0.276         54.778
##             metropolitano del norte     21     0.252         55.030     0.252         55.030
##               miradol del aguacatal      1     0.012         55.042     0.012         55.042
##                          miraflores     26     0.312         55.354     0.312         55.354
##                morichal de comfandi      3     0.036         55.390     0.036         55.390
##                         multicentro     27     0.324         55.714     0.324         55.714
##                           municipal      3     0.036         55.750     0.036         55.750
##                             napoles     31     0.372         56.122     0.372         56.122
##                           normandia    163     1.957         58.079     1.957         58.079
##                normandia west point      1     0.012         58.091     0.012         58.091
##                               norte      9     0.108         58.199     0.108         58.199
##                      norte la flora      1     0.012         58.211     0.012         58.211
##                          nueva base      1     0.012         58.223     0.012         58.223
##                      nueva floresta     15     0.180         58.403     0.180         58.403
##                    nueva tequendama     73     0.876         59.280     0.876         59.280
##                   oasis de comfandi      6     0.072         59.352     0.072         59.352
##                  oasis de pasoancho      1     0.012         59.364     0.012         59.364
##                           occidente     11     0.132         59.496     0.132         59.496
##                              pacara     23     0.276         59.772     0.276         59.772
##                  palmas del ingenio      1     0.012         59.784     0.012         59.784
##                         pampa linda     26     0.312         60.096     0.312         60.096
##                          pampalinda     12     0.144         60.240     0.144         60.240
##                        panamericano      9     0.108         60.348     0.108         60.348
##                               pance    412     4.946         65.294     4.946         65.294
##                 parcelaciones pance     61     0.732         66.026     0.732         66.026
##               parque residencial el      1     0.012         66.038     0.012         66.038
##                        paseo de los      2     0.024         66.062     0.024         66.062
##                   paso del comercio      6     0.072         66.134     0.072         66.134
##                           pasoancho      6     0.072         66.206     0.072         66.206
##                   poblado campestre      2     0.024         66.230     0.024         66.230
##                               ponce      1     0.012         66.242     0.012         66.242
##                             popular      6     0.072         66.315     0.072         66.315
##                 portada de comfandi      2     0.024         66.339     0.024         66.339
##                portales de comfandi      1     0.012         66.351     0.012         66.351
##                            porvenir      3     0.036         66.387     0.036         66.387
##                   prados de oriente      6     0.072         66.459     0.072         66.459
##                  prados del limonar     21     0.252         66.711     0.252         66.711
##                    prados del norte    127     1.525         68.235     1.525         68.235
##                      prados del sur      2     0.024         68.259     0.024         68.259
##                           primavera      2     0.024         68.283     0.024         68.283
##                     primero de mayo     37     0.444         68.727     0.444         68.727
##                    primitivo crespo      3     0.036         68.764     0.036         68.764
##                 puente del comercio      6     0.072         68.836     0.072         68.836
##                        puente palma      1     0.012         68.848     0.012         68.848
##                      quintas de don     73     0.876         69.724     0.876         69.724
##                  quintas de salomia      4     0.048         69.772     0.048         69.772
##                  rafael uribe uribe      1     0.012         69.784     0.012         69.784
##                             refugio      2     0.024         69.808     0.024         69.808
##         repv<U+222B>blica de israel      1     0.012         69.820     0.012         69.820
##                        rincon de la      1     0.012         69.832     0.012         69.832
##                   rincon de salomia      1     0.012         69.844     0.012         69.844
##                   riveras del valle      1     0.012         69.856     0.012         69.856
##                       rozo la torre      1     0.012         69.868     0.012         69.868
##                    saavedra galindo      4     0.048         69.916     0.048         69.916
##                             salomia     40     0.480         70.396     0.480         70.396
##                             samanes      1     0.012         70.408     0.012         70.408
##                samanes de guadalupe      1     0.012         70.420     0.012         70.420
##                              sameco      1     0.012         70.432     0.012         70.432
##                         san antonio     24     0.288         70.720     0.288         70.720
##                           san bosco      8     0.096         70.816     0.096         70.816
##                          san carlos      4     0.048         70.864     0.048         70.864
##                        san cayetano      9     0.108         70.972     0.108         70.972
##                        san fernando     55     0.660         71.633     0.660         71.633
##                  san fernando nuevo     10     0.120         71.753     0.120         71.753
##                  san fernando viejo     18     0.216         71.969     0.216         71.969
##                         san joaquin     20     0.240         72.209     0.240         72.209
##                      san juan bosco      7     0.084         72.293     0.084         72.293
##                           san judas      1     0.012         72.305     0.012         72.305
##                     san judas tadeo      2     0.024         72.329     0.024         72.329
##                            san luis      3     0.036         72.365     0.036         72.365
##                         san nicolas      2     0.024         72.389     0.024         72.389
##                           san pedro      3     0.036         72.425     0.036         72.425
##                         san vicente     48     0.576         73.001     0.576         73.001
##                               santa      1     0.012         73.013     0.012         73.013
##                         santa anita     50     0.600         73.613     0.600         73.613
##                     santa anita sur      1     0.012         73.625     0.012         73.625
##                       santa barbara      3     0.036         73.661     0.036         73.661
##                         santa elena     10     0.120         73.782     0.120         73.782
##                            santa fe      8     0.096         73.878     0.096         73.878
##                     santa helena de      1     0.012         73.890     0.012         73.890
##                        santa isabel     64     0.768         74.658     0.768         74.658
##                        santa monica     55     0.660         75.318     0.660         75.318
##                   santa monica alta      1     0.012         75.330     0.012         75.330
##                  santa monica norte      2     0.024         75.354     0.024         75.354
##                santa monica popular      9     0.108         75.462     0.108         75.462
##            santa monica residencial     44     0.528         75.990     0.528         75.990
##                          santa rita     46     0.552         76.543     0.552         76.543
##                          santa rosa      1     0.012         76.555     0.012         76.555
##                      santa teresita    263     3.157         79.712     3.157         79.712
##                             santafe      1     0.012         79.724     0.012         79.724
##                           santander      1     0.012         79.736     0.012         79.736
##                       santo domingo      6     0.072         79.808     0.072         79.808
##                    sector aguacatal      1     0.012         79.820     0.012         79.820
##       sector cañaveralejo guadalupe      2     0.024         79.844     0.024         79.844
##                           seminario     32     0.384         80.228     0.384         80.228
##                sierras de normandia      1     0.012         80.240     0.012         80.240
##                     siete de agosto      8     0.096         80.336     0.096         80.336
##                       simon bolivar      1     0.012         80.348     0.012         80.348
##                   tejares cristales      4     0.048         80.396     0.048         80.396
##                      tejares de san     14     0.168         80.564     0.168         80.564
##                            templete      4     0.048         80.612     0.048         80.612
##                          tequendama     44     0.528         81.140     0.528         81.140
##                          tequendema      1     0.012         81.152     0.012         81.152
##                     terron colorado      1     0.012         81.164     0.012         81.164
##                  torres de comfandi     57     0.684         81.849     0.684         81.849
##                      unicentro cali      1     0.012         81.861     0.012         81.861
##                   union de vivienda      3     0.036         81.897     0.036         81.897
##           urbanizacion barranquilla      4     0.048         81.945     0.048         81.945
##                 urbanizacion boyaca      1     0.012         81.957     0.012         81.957
##             urbanizacion colseguros      3     0.036         81.993     0.036         81.993
##               urbanizacion el saman      1     0.012         82.005     0.012         82.005
##              urbanizacion gratamira      1     0.012         82.017     0.012         82.017
##               urbanizacion la flora     83     0.996         83.013     0.996         83.013
##              urbanizacion la merced      4     0.048         83.061     0.048         83.061
##               urbanizacion la nueva      4     0.048         83.109     0.048         83.109
##           urbanizacion las cascadas      1     0.012         83.121     0.012         83.121
##                   urbanizacion lili      2     0.024         83.145     0.024         83.145
##          urbanizacion nueva granada      3     0.036         83.181     0.036         83.181
##                 urbanizacion pacara      1     0.012         83.193     0.012         83.193
##               urbanizacion rio lili      5     0.060         83.253     0.060         83.253
##            urbanizacion san joaquin      4     0.048         83.301     0.048         83.301
##             urbanizacion tequendama      7     0.084         83.385     0.084         83.385
##                       valle de lili      1     0.012         83.397     0.012         83.397
##                      valle del lili   1012    12.149         95.546    12.149         95.546
##                        valle grande      1     0.012         95.558     0.012         95.558
##                           versalles     71     0.852         96.411     0.852         96.411
##                      villa colombia      6     0.072         96.483     0.072         96.483
##                   villa de veracruz      6     0.072         96.555     0.072         96.555
##                      villa del lago     10     0.120         96.675     0.120         96.675
##                    villa del parque      1     0.012         96.687     0.012         96.687
##                     villa del prado     52     0.624         97.311     0.624         97.311
##                       villa del sol     25     0.300         97.611     0.300         97.611
##                       villa del sur      5     0.060         97.671     0.060         97.671
##                  villas de veracruz      9     0.108         97.779     0.108         97.779
##                              vipasa     32     0.384         98.163     0.384         98.163
##                         zona centro      1     0.012         98.175     0.012         98.175
##                          zona norte     32     0.384         98.559     0.384         98.559
##                      zona norte los      1     0.012         98.571     0.012         98.571
##                          zona oeste     26     0.312         98.884     0.312         98.884
##                        zona oriente     18     0.216         99.100     0.216         99.100
##                    zona residencial      1     0.012         99.112     0.012         99.112
##                            zona sur     74     0.888        100.000     0.888        100.000
##                                <NA>      0                              0.000        100.000
##                               Total   8330   100.000        100.000   100.000        100.000

Vamos a darle un vistazo a las estadísticas descriptivas que presentan las variables a continuacion:

summary(datosNA)
##        id           zona                piso           estrato     
##  Min.   :   1   Length:8330        Min.   : 1.000   Min.   :3.000  
##  1st Qu.:2083   Class :character   1st Qu.: 2.000   1st Qu.:4.000  
##  Median :4164   Mode  :character   Median : 3.772   Median :5.000  
##  Mean   :4164                      Mean   : 3.772   Mean   :4.634  
##  3rd Qu.:6245                      3rd Qu.: 4.000   3rd Qu.:5.000  
##  Max.   :8319                      Max.   :12.000   Max.   :6.000  
##     preciom         areaconst       parquea           banios      
##  Min.   :  58.0   Min.   :  30   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123   Median : 1.836   Median : 3.000  
##  Mean   : 434.2   Mean   : 175   Mean   : 1.836   Mean   : 3.112  
##  3rd Qu.: 540.0   3rd Qu.: 229   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745   Max.   :10.000   Max.   :10.000  
##     habitac           tipo              barrio             longitud        
##  Min.   : 0.000   Length:8330        Length:8330        Min.   :-76576.00  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76506.00  
##  Median : 3.000   Mode  :character   Mode  :character   Median :   -76.54  
##  Mean   : 3.605                                         Mean   :-21845.13  
##  3rd Qu.: 4.000                                         3rd Qu.:   -76.52  
##  Max.   :10.000                                         Max.   :   -76.46  
##     latitud        
##  Min.   :   3.333  
##  1st Qu.:   3.390  
##  Median :   3.450  
##  Mean   : 970.370  
##  3rd Qu.:3367.000  
##  Max.   :3497.000
mfv(datosNA$piso)
## [1] 3.772368
mfv(datosNA$estrato)
## [1] 5
mfv(datosNA$preciom)
## [1] 350
mfv(datosNA$areaconst)
## [1] 60
mfv(datosNA$parquea)
## [1] 1
mfv(datosNA$banios)
## [1] 2
mfv(datosNA$habitac)
## [1] 3
mfv(datosNA$tipo)
## [1] "apartamento"
mfv(datosNA$barrio)
## [1] "valle del lili"
mfv(datosNA$zona)
## [1] "Zona Sur"

Coeficiente de variacion

De acuerdo al coeficiente de variacion tenemos como regla empírica para la interpretación del coeficiente de variación el límite del 20% para separar los grupos homogéneos de los heterogéneos, por lo general se utiliza un valor hasta el 20% para determinar que un grupo de datos son homogéneos, de lo contrario se calificará como heterogéneo.

(sd(datosNA$estrato)/abs(mean(datosNA$estrato)))*100
## [1] 22.20695
(sd(datosNA$preciom)/abs(mean(datosNA$preciom)))*100
## [1] 75.75896
(sd(datosNA$areaconst)/abs(mean(datosNA$areaconst)))*100
## [1] 81.6767
(sd(datosNA$habitac)/abs(mean(datosNA$habitac)))*100
## [1] 40.46534
(sd(datosNA$piso)/abs(mean(datosNA$piso)))*100
## [1] 57.2853
(sd(datosNA$banios)/abs(mean(datosNA$banios)))*100
## [1] 45.88906
(sd(datosNA$parquea)/abs(mean(datosNA$parquea)))*100
## [1] 55.05625

Diagrama de caja

Ahora utilizaremos diagramas de cajas para conocer mas a fondo las variables: su concentracion de los datos, existencia de valores atipicos y su sesgo.

par(mfrow = c(1, 2))
hist(datosNA$estrato, prob = TRUE,
     col = "white",
     main = "Estrato socioeconomico")
par(new=TRUE)
boxplot(datosNA$estrato, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

hist(datosNA$piso, prob = TRUE,
     col = "white",
     main = "Numero de pisos")
par(new=TRUE)
boxplot(datosNA$piso, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

par(mfrow = c(1, 2))
hist(datosNA$preciom, prob = TRUE,
     col = "white",
     main = "Precio de la vivienda")
par(new=TRUE)
boxplot(datosNA$preciom, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

hist(datosNA$areaconst, prob = TRUE,
     col = "white",
     main = "Area construida")
par(new=TRUE)
boxplot(datosNA$areaconst, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

par(mfrow = c(1, 2))
hist(datosNA$parquea, prob = TRUE,
     col = "white",
     main = "Número de parqueaderos")
par(new=TRUE)
boxplot(datosNA$parquea, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

hist(datosNA$banios, prob = TRUE,
     col = "white",
     main = "Número de baños")
par(new=TRUE)
boxplot(datosNA$banios, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

hist(datosNA$habitac, prob = TRUE,
     col = "white",
     main = "Número de habitaciones")
par(new=TRUE)
boxplot(datosNA$habitac, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()

Diagrama de correlacion

Ahora vamos a ver las correlaciones que existen en las variables cuantitativas (estadísticamente significativas):

nuevo<-data.frame(datosNA$piso, datosNA$estrato,datosNA$preciom, datosNA$areaconst, datosNA$parquea, datosNA$banios, datosNA$habitac, datosNA$longitud, datosNA$latitud)
correlacion<-round(cor(nuevo), 1)
chart.Correlation(nuevo, histogram = F, pch = 19)

round(cor(nuevo),2)  
##                   datosNA.piso datosNA.estrato datosNA.preciom
## datosNA.piso              1.00            0.11           -0.01
## datosNA.estrato           0.11            1.00            0.61
## datosNA.preciom          -0.01            0.61            1.00
## datosNA.areaconst        -0.16            0.27            0.69
## datosNA.parquea          -0.08            0.35            0.63
## datosNA.banios           -0.08            0.42            0.67
## datosNA.habitac          -0.18           -0.07            0.26
## datosNA.longitud         -0.04           -0.02           -0.07
## datosNA.latitud           0.03            0.02            0.08
##                   datosNA.areaconst datosNA.parquea datosNA.banios
## datosNA.piso                  -0.16           -0.08          -0.08
## datosNA.estrato                0.27            0.35           0.42
## datosNA.preciom                0.69            0.63           0.67
## datosNA.areaconst              1.00            0.53           0.65
## datosNA.parquea                0.53            1.00           0.50
## datosNA.banios                 0.65            0.50           1.00
## datosNA.habitac                0.52            0.24           0.59
## datosNA.longitud              -0.04           -0.04          -0.03
## datosNA.latitud                0.05            0.06           0.03
##                   datosNA.habitac datosNA.longitud datosNA.latitud
## datosNA.piso                -0.18            -0.04            0.03
## datosNA.estrato             -0.07            -0.02            0.02
## datosNA.preciom              0.26            -0.07            0.08
## datosNA.areaconst            0.52            -0.04            0.05
## datosNA.parquea              0.24            -0.04            0.06
## datosNA.banios               0.59            -0.03            0.03
## datosNA.habitac              1.00            -0.01            0.01
## datosNA.longitud            -0.01             1.00           -0.84
## datosNA.latitud              0.01            -0.84            1.00

Conclusiones

Como conclusiones se obtiene lo siguiente: