La empresa B&C (Bienes y Casas) es una agencia inmobiliaria que opera en Cali, Colombia. La empresa fue fundada hace 10 años por Sandra Milena y actualmente emplea a 8 agentes inmobiliarios.
El mercado inmobiliario de Cali ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios. En 2021, la industria generó ventas por $6.700 millones en Cali y $6.100 millones en 2022. Se espera que la industria continúe creciendo en los próximos años, contribuyendo así al crecimiento económico regional.
El objetivo de este informe es dar a conocer información de interes para los directivos de la empresa B & C inmobiliaria y así poder tomar decisiones sobre su negocio como lo sería: definir su nicho de mercado, desarrollar estrategias de marketing, establecer precios de venta y ofrecer servicios personalizados a sus clientes.
En la parte de metodos y resultados, nos encontraremos con distintos metodos que vamos a utilizar para la interpretacion de los datos como lo son inicialmente la limpieza de las variables, a partir de las estadísticas descriptivas se va a resumir sus características principales, en donde se emplearan métodos de visualización de datos esto con el fin de descubrir patrones y tendencias en los datos asi de esta forma proporcionando una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas.
Incialmente vamos a explorar una muestra de tamaño 8330 filas con 13 columnas, las variables son: id, zona, piso, estrato, preciom, areaconst, parquea, banios, habitac, tipo, barrio, longitud, latitud.
library(paqueteMET)
library(dplyr)
library(mice)
##
## Attaching package: 'mice'
## The following object is masked from 'package:stats':
##
## filter
## The following objects are masked from 'package:base':
##
## cbind, rbind
library(modeest)
## Warning: package 'modeest' was built under R version 4.1.3
## Registered S3 methods overwritten by 'rmutil':
## method from
## plot.residuals psych
## print.response httr
##
## Attaching package: 'modeest'
## The following object is masked from 'package:PerformanceAnalytics':
##
## skewness
data("vivienda_faltantes")
set.seed(123)
datosNA<-sample_n(vivienda_faltantes, 8330)
str(datosNA)
## spc_tbl_ [8,330 x 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8330] 122 190 880 1663 1401 ...
## $ zona : chr [1:8330] "Zona Norte" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : num [1:8330] 1 4 1 NA NA 1 7 NA 2 4 ...
## $ estrato : num [1:8330] 3 3 3 4 4 5 5 3 5 3 ...
## $ preciom : num [1:8330] 150 360 250 375 150 270 290 235 450 125 ...
## $ areaconst: num [1:8330] 93 420 210 74 57 75 93 122 252 72 ...
## $ parquea : num [1:8330] NA 1 NA 1 NA 1 1 1 2 NA ...
## $ banios : num [1:8330] 1 6 4 5 2 2 3 2 2 2 ...
## $ habitac : num [1:8330] 4 9 4 5 3 3 3 5 7 3 ...
## $ tipo : chr [1:8330] "Casa" "Casa" "Apartamento" "Casa" ...
## $ barrio : chr [1:8330] "la rivera" "las ceibas" "morichal de comfandi" "calicanto viii" ...
## $ longitud : num [1:8330] -76.5 -76.5 -76.5 -76517 -76.5 ...
## $ latitud : num [1:8330] 3.48 3.46 3.4 3373 3.38 ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. zona = col_character(),
## .. piso = col_double(),
## .. estrato = col_double(),
## .. preciom = col_double(),
## .. areaconst = col_double(),
## .. parquea = col_double(),
## .. banios = col_double(),
## .. habitac = col_double(),
## .. tipo = col_character(),
## .. barrio = col_character(),
## .. longitud = col_double(),
## .. latitud = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
En esta tabla podemos visualizar que las variables piso y parquea son las variables que contienen mayor cantidad de valores faltantes o missing values, en piso encontramos 2641 registros con NA y en parquea 1606 registros con NA.
faltantes <- colSums(is.na(datosNA))
faltantes
## id zona piso estrato preciom areaconst parquea banios
## 3 3 2641 3 2 3 1606 3
## habitac tipo barrio longitud latitud
## 3 3 3 3 3
grafico <-md.pattern(datosNA, rotate.names = TRUE)
Dado que podríamos eliminar los valores faltantes, debemos tener en cuenta que se perdería gran cantidad de información que puede aportar finalmente a los resultados, asi que procederemos a reemplazar los NA (missing values) por el valor correspondiente a la media.
media_parquea <- mean(datosNA$parquea, na.rm = TRUE)
datosNA$parquea[is.na(datosNA$parquea)] <- media_parquea
media_piso <- mean(datosNA$piso, na.rm = TRUE)
datosNA$piso[is.na(datosNA$piso)] <- media_piso
media_latitud <- mean(datosNA$latitud, na.rm = TRUE)
datosNA$latitud[is.na(datosNA$latitud)] <- media_latitud
media_longitud <- mean(datosNA$longitud, na.rm = TRUE)
datosNA$longitud[is.na(datosNA$longitud)] <- media_longitud
moda_barrio <- mfv(datosNA$barrio, na.rm = TRUE)
## argument 'na.rm' is soft-deprecated, please start using 'na_rm' instead
datosNA$barrio[is.na(datosNA$barrio)] <- moda_barrio
moda_tipo <- mfv(datosNA$tipo, na.rm = TRUE)
## argument 'na.rm' is soft-deprecated, please start using 'na_rm' instead
datosNA$tipo[is.na(datosNA$tipo)] <- moda_tipo
media_habitac <- mean(datosNA$habitac, na.rm = TRUE)
datosNA$habitac[is.na(datosNA$habitac)] <- media_habitac
media_banios <- mean(datosNA$banios, na.rm = TRUE)
datosNA$banios[is.na(datosNA$banios)] <- media_banios
media_areaconst <- mean(datosNA$areaconst, na.rm = TRUE)
datosNA$areaconst[is.na(datosNA$areaconst)] <- media_areaconst
media_estrato <- mean(datosNA$estrato, na.rm = TRUE)
datosNA$estrato[is.na(datosNA$estrato)] <- media_estrato
moda_zona <- mfv(datosNA$zona, na.rm = TRUE)
## argument 'na.rm' is soft-deprecated, please start using 'na_rm' instead
datosNA$zona[is.na(datosNA$zona)] <- moda_zona
media_preciom <- mean(datosNA$preciom, na.rm = TRUE)
datosNA$preciom[is.na(datosNA$preciom)] <- media_preciom
media_id <- mean(datosNA$id, na.rm = TRUE)
datosNA$id[is.na(datosNA$id)] <- media_id
grafico <-md.pattern(datosNA, rotate.names = TRUE)
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
Inicialmente empezaremos a conocer las variables cualitativas, donde nos encontramos con que la zona mas común en la que viven las personas es la zona sur (4729 registros), seguido de la zona norte (1922 registros) y la zona oeste (1204 registros).
table(datosNA$zona)
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 124 1922 1204 351 4729
barplot(prop.table(table(datosNA$zona)),col=c("orange","blue", "red", "green", "yellow"),
legend.text=c("Zona Centro","Zona Norte","Zona Oeste","Zona Oriente", "Zona Sur"),
ylim=c(0,1.2),ylab="Frecuencias Relativas")
La variable tipo que hace referencia al tipo de vivienda cuenta con registros en mayusculas y minusculas, se optó por pasar a minuscula todos los registros, posterior a ello vemos que los registros apartamento y apto hacen referencia a lo mismo por lo que se procede a hacer una homologación. Como análisis tenemos que 5109 personas viven en apartamento y 3221 personas viven en casa.
table(datosNA$tipo)
##
## Apartamento APARTAMENTO apto casa Casa CASA
## 5035 61 13 14 3195 12
datosNA$tipo=str_to_lower(datosNA$tipo)
table(datosNA$tipo)
##
## apartamento apto casa
## 5096 13 3221
table1<-str_replace_all(string = datosNA$tipo,pattern = c('apto' = "apartamento",'casa' = "casa"))
table(table1)
## table1
## apartamento casa
## 5109 3221
library(plotrix)
##
## Attaching package: 'plotrix'
## The following object is masked from 'package:psych':
##
## rescale
proporciones <- c(5109, 3221) # creamos un vector con proporciones
etiquetas <- c("apartamento", "casa") # vector con etiquetas
pct <- round(proporciones/sum(proporciones)*100)
etiquetas <- paste(etiquetas, pct) # Añadimos porcentajes a etiquetas
etiquetas <- paste(etiquetas,"%",sep="") # Añadimos el símbolo de %
pie(proporciones,labels = etiquetas,
col=rainbow(length(etiquetas)),
main="Diagrama de torta: tipo de vivienda")
# Añadimos un cuadro con leyendas
legend("topright", c("apartamento","casa"), cex = 0.8,
fill = rainbow(length(proporciones)))
Ahora en la tabla de frecuencias podemos ver en la variable barrio, que el barrio más común donde viven las personas es valle de lili. La variable barrio cuenta con registros en mayusculas y minusculas, se optó por pasar a minuscula todos los registros.
datosNA$barrio <- chartr('áéíóú','aeiou', datosNA$barrio)
datosNA$barrio=str_to_lower(datosNA$barrio)
tab.p11.v2 <- freq(datosNA$barrio)
tab.p11.v2
## Frequencies
## datosNA$barrio
## Type: Character
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------------------------------- ------ --------- -------------- --------- --------------
## 20 de julio 3 0.036 0.036 0.036 0.036
## 3 de julio 1 0.012 0.048 0.012 0.048
## acopi 158 1.897 1.945 1.897 1.945
## agua blanca 1 0.012 1.957 0.012 1.957
## aguablanca 2 0.024 1.981 0.024 1.981
## aguacatal 110 1.321 3.301 1.321 3.301
## alameda 16 0.192 3.493 0.192 3.493
## alameda del rio 3 0.036 3.529 0.036 3.529
## alamos 14 0.168 3.697 0.168 3.697
## alborada 1 0.012 3.709 0.012 3.709
## alcazares 2 0.024 3.733 0.024 3.733
## alferez real 2 0.024 3.758 0.024 3.758
## alfonso lopez 22 0.264 4.022 0.264 4.022
## alfonso lopez i 1 0.012 4.034 0.012 4.034
## alfv©rez real 5 0.060 4.094 0.060 4.094
## alto jordan 1 0.012 4.106 0.012 4.106
## altos de guadalupe 4 0.048 4.154 0.048 4.154
## altos de menga 3 0.036 4.190 0.036 4.190
## altos de santa 1 0.012 4.202 0.012 4.202
## antonio nariño 2 0.024 4.226 0.024 4.226
## aranjuez 15 0.180 4.406 0.180 4.406
## arboleda 5 0.060 4.466 0.060 4.466
## arboleda campestre candelaria 1 0.012 4.478 0.012 4.478
## arboledas 38 0.456 4.934 0.456 4.934
## atanasio girardot 9 0.108 5.042 0.108 5.042
## autopista sur 1 0.012 5.054 0.012 5.054
## bajo aguacatal 1 0.012 5.066 0.012 5.066
## barranquilla 6 0.072 5.138 0.072 5.138
## barrio 7de agosto 1 0.012 5.150 0.012 5.150
## barrio el recuerdo 1 0.012 5.162 0.012 5.162
## barrio eucaristico 1 0.012 5.174 0.012 5.174
## barrio obrero 1 0.012 5.186 0.012 5.186
## barrio tranquilo y 1 0.012 5.198 0.012 5.198
## base av©rea 2 0.024 5.222 0.024 5.222
## belalcazar 4 0.048 5.270 0.048 5.270
## belisario caicedo 2 0.024 5.294 0.024 5.294
## bella suiza 18 0.216 5.510 0.216 5.510
## bella suiza alta 4 0.048 5.558 0.048 5.558
## bellavista 43 0.516 6.074 0.516 6.074
## benjamin herrera 8 0.096 6.170 0.096 6.170
## berlin 1 0.012 6.182 0.012 6.182
## bloques del limonar 1 0.012 6.194 0.012 6.194
## bochalema 33 0.396 6.591 0.396 6.591
## bolivariano 1 0.012 6.603 0.012 6.603
## bosques de alboleda 1 0.012 6.615 0.012 6.615
## bosques del limonar 21 0.252 6.867 0.252 6.867
## boyaca 1 0.012 6.879 0.012 6.879
## bretaña 16 0.192 7.071 0.192 7.071
## brisas de guadalupe 1 0.012 7.083 0.012 7.083
## brisas de los 82 0.984 8.067 0.984 8.067
## brisas del guabito 1 0.012 8.079 0.012 8.079
## brisas del limonar 1 0.012 8.091 0.012 8.091
## bueno madrid 1 0.012 8.103 0.012 8.103
## buenos aires 7 0.084 8.187 0.084 8.187
## caldas 1 0.012 8.199 0.012 8.199
## cali 37 0.444 8.643 0.444 8.643
## cali bella 1 0.012 8.655 0.012 8.655
## cali canto 1 0.012 8.667 0.012 8.667
## calibella 1 0.012 8.679 0.012 8.679
## calicanto 8 0.096 8.776 0.096 8.776
## calicanto viii 1 0.012 8.788 0.012 8.788
## calima 6 0.072 8.860 0.072 8.860
## calimio norte 5 0.060 8.920 0.060 8.920
## calipso 11 0.132 9.052 0.132 9.052
## cambulos 3 0.036 9.088 0.036 9.088
## camino real 36 0.432 9.520 0.432 9.520
## campestre 1 0.012 9.532 0.012 9.532
## caney 88 1.056 10.588 1.056 10.588
## caney especial 5 0.060 10.648 0.060 10.648
## cañasgordas 7 0.084 10.732 0.084 10.732
## cañaveralejo 12 0.144 10.876 0.144 10.876
## cañaverales 21 0.252 11.128 0.252 11.128
## cañaverales los samanes 1 0.012 11.140 0.012 11.140
## capri 56 0.672 11.813 0.672 11.813
## cascajal 1 0.012 11.825 0.012 11.825
## cataya real 1 0.012 11.837 0.012 11.837
## ceibas 1 0.012 11.849 0.012 11.849
## centelsa 1 0.012 11.861 0.012 11.861
## centenario 16 0.192 12.053 0.192 12.053
## centro 4 0.048 12.101 0.048 12.101
## cerro cristales 22 0.264 12.365 0.264 12.365
## cerros de guadalupe 1 0.012 12.377 0.012 12.377
## champagnat 14 0.168 12.545 0.168 12.545
## chapinero 7 0.084 12.629 0.084 12.629
## chiminangos 18 0.216 12.845 0.216 12.845
## chiminangos 1 etapa 1 0.012 12.857 0.012 12.857
## chiminangos 2 etapa 2 0.024 12.881 0.024 12.881
## chipichape 30 0.360 13.241 0.360 13.241
## ciudad 2000 96 1.152 14.394 1.152 14.394
## ciudad antejardin 1 0.012 14.406 0.012 14.406
## ciudad bochalema 48 0.576 14.982 0.576 14.982
## ciudad capri 13 0.156 15.138 0.156 15.138
## ciudad cordoba 35 0.420 15.558 0.420 15.558
## ciudad cordoba reservado 1 0.012 15.570 0.012 15.570
## ciudad country 1 0.012 15.582 0.012 15.582
## ciudad del campo 1 0.012 15.594 0.012 15.594
## ciudad jardin 540 6.483 22.077 6.483 22.077
## ciudad jardin pance 1 0.012 22.089 0.012 22.089
## ciudad los alamos 26 0.312 22.401 0.312 22.401
## ciudad melendez 1 0.012 22.413 0.012 22.413
## ciudad melv©ndez 1 0.012 22.425 0.012 22.425
## ciudad modelo 7 0.084 22.509 0.084 22.509
## ciudad pacifica 3 0.036 22.545 0.036 22.545
## ciudad real 3 0.036 22.581 0.036 22.581
## ciudad talanga 1 0.012 22.593 0.012 22.593
## ciudad universitaria 1 0.012 22.605 0.012 22.605
## ciudadela comfandi 17 0.204 22.809 0.204 22.809
## ciudadela del rio 1 0.012 22.821 0.012 22.821
## ciudadela melendez 1 0.012 22.833 0.012 22.833
## ciudadela paso ancho 1 0.012 22.845 0.012 22.845
## ciudadela pasoancho 21 0.252 23.097 0.252 23.097
## colinas de menga 3 0.036 23.133 0.036 23.133
## colinas del bosque 1 0.012 23.145 0.012 23.145
## colinas del sur 8 0.096 23.241 0.096 23.241
## colon 1 0.012 23.253 0.012 23.253
## colseguros 44 0.528 23.782 0.528 23.782
## colseguros andes 5 0.060 23.842 0.060 23.842
## comfenalco 1 0.012 23.854 0.012 23.854
## compartir 1 0.012 23.866 0.012 23.866
## conjunto gibraltar 1 0.012 23.878 0.012 23.878
## cristales 83 0.996 24.874 0.996 24.874
## cristobal colon 16 0.192 25.066 0.192 25.066
## cuarto de legua 44 0.528 25.594 0.528 25.594
## departamental 29 0.348 25.942 0.348 25.942
## ed benjamin herrera 1 0.012 25.954 0.012 25.954
## el bosque 50 0.600 26.555 0.600 26.555
## el caney 209 2.509 29.064 2.509 29.064
## el castillo 6 0.072 29.136 0.072 29.136
## el cedro 8 0.096 29.232 0.096 29.232
## el diamante 2 0.024 29.256 0.024 29.256
## el dorado 6 0.072 29.328 0.072 29.328
## el gran limonar 8 0.096 29.424 0.096 29.424
## el guabal 19 0.228 29.652 0.228 29.652
## el guabito 1 0.012 29.664 0.012 29.664
## el ingenio 203 2.437 32.101 2.437 32.101
## el ingenio 3 1 0.012 32.113 0.012 32.113
## el ingenio i 19 0.228 32.341 0.228 32.341
## el ingenio ii 21 0.252 32.593 0.252 32.593
## el ingenio iii 20 0.240 32.833 0.240 32.833
## el jardin 15 0.180 33.013 0.180 33.013
## el jordan 1 0.012 33.025 0.012 33.025
## el lido 59 0.708 33.733 0.708 33.733
## el limonar 135 1.621 35.354 1.621 35.354
## el nacional 1 0.012 35.366 0.012 35.366
## el paraiso 3 0.036 35.402 0.036 35.402
## el peñon 60 0.720 36.122 0.720 36.122
## el prado 2 0.024 36.146 0.024 36.146
## el refugio 120 1.441 37.587 1.441 37.587
## el rodeo 1 0.012 37.599 0.012 37.599
## el sena 1 0.012 37.611 0.012 37.611
## el troncal 19 0.228 37.839 0.228 37.839
## el trv©bol 5 0.060 37.899 0.060 37.899
## el vallado 1 0.012 37.911 0.012 37.911
## eucaristico 2 0.024 37.935 0.024 37.935
## evaristo garcia 2 0.024 37.959 0.024 37.959
## farrallones de pance 1 0.012 37.971 0.012 37.971
## fenalco kennedy 1 0.012 37.983 0.012 37.983
## fepicol 1 0.012 37.995 0.012 37.995
## flora 1 0.012 38.007 0.012 38.007
## flora industrial 16 0.192 38.199 0.192 38.199
## floralia 6 0.072 38.271 0.072 38.271
## fonaviemcali 1 0.012 38.283 0.012 38.283
## francisco eladio ramirez 1 0.012 38.295 0.012 38.295
## fuentes de la 1 0.012 38.307 0.012 38.307
## gaitan 1 0.012 38.319 0.012 38.319
## gran limonar 24 0.288 38.607 0.288 38.607
## granada 16 0.192 38.800 0.192 38.800
## guadalupe 21 0.252 39.052 0.252 39.052
## guadalupe alto 1 0.012 39.064 0.012 39.064
## guaduales 2 0.024 39.088 0.024 39.088
## guayaquil 16 0.192 39.280 0.192 39.280
## hacienda alferez real 1 0.012 39.292 0.012 39.292
## ingenio 1 0.012 39.304 0.012 39.304
## ingenio i 1 0.012 39.316 0.012 39.316
## ingenio ii 1 0.012 39.328 0.012 39.328
## jamundi 4 0.048 39.376 0.048 39.376
## jamundi alfaguara 1 0.012 39.388 0.012 39.388
## jorge eliecer gaitan 1 0.012 39.400 0.012 39.400
## jorge isaacs 1 0.012 39.412 0.012 39.412
## jose manuel marroquin 1 0.012 39.424 0.012 39.424
## juanambu 2 0.024 39.448 0.024 39.448
## juanambv<U+222B> 53 0.636 40.084 0.636 40.084
## junin 24 0.288 40.372 0.288 40.372
## la alborada 5 0.060 40.432 0.060 40.432
## la alianza 5 0.060 40.492 0.060 40.492
## la arboleda 18 0.216 40.708 0.216 40.708
## la base 15 0.180 40.888 0.180 40.888
## la buitrera 3 0.036 40.924 0.036 40.924
## la campiña 13 0.156 41.080 0.156 41.080
## la cascada 7 0.084 41.164 0.084 41.164
## la ceibas 1 0.012 41.176 0.012 41.176
## la esmeralda 1 0.012 41.188 0.012 41.188
## la flora 369 4.430 45.618 4.430 45.618
## la floresta 18 0.216 45.834 0.216 45.834
## la fortaleza 4 0.048 45.882 0.048 45.882
## la gran colombia 1 0.012 45.894 0.012 45.894
## la hacienda 166 1.993 47.887 1.993 47.887
## la independencia 12 0.144 48.031 0.144 48.031
## la libertad 2 0.024 48.055 0.024 48.055
## la luisa 1 0.012 48.067 0.012 48.067
## la merced 26 0.312 48.379 0.312 48.379
## la morada 1 0.012 48.391 0.012 48.391
## la nueva base 8 0.096 48.487 0.096 48.487
## la playa 1 0.012 48.499 0.012 48.499
## la portada al 1 0.012 48.511 0.012 48.511
## la primavera 1 0.012 48.523 0.012 48.523
## la reforma 1 0.012 48.535 0.012 48.535
## la rivera 11 0.132 48.667 0.132 48.667
## la rivera i 2 0.024 48.691 0.024 48.691
## la rivera ii 2 0.024 48.715 0.024 48.715
## la riverita 1 0.012 48.727 0.012 48.727
## la riviera 1 0.012 48.739 0.012 48.739
## la selva 11 0.132 48.872 0.132 48.872
## la villa del 1 0.012 48.884 0.012 48.884
## laflora 1 0.012 48.896 0.012 48.896
## lares de comfenalco 1 0.012 48.908 0.012 48.908
## las acacias 12 0.144 49.052 0.144 49.052
## las amv©ricas 3 0.036 49.088 0.036 49.088
## las camelias 1 0.012 49.100 0.012 49.100
## las ceibas 23 0.276 49.376 0.276 49.376
## las delicias 5 0.060 49.436 0.060 49.436
## las granjas 10 0.120 49.556 0.120 49.556
## las quintas de 1 0.012 49.568 0.012 49.568
## las vegas 1 0.012 49.580 0.012 49.580
## las vegas de 1 0.012 49.592 0.012 49.592
## libertadores 3 0.036 49.628 0.036 49.628
## los alamos 1 0.012 49.640 0.012 49.640
## los alcazares 22 0.264 49.904 0.264 49.904
## los andes 21 0.252 50.156 0.252 50.156
## los cambulos 31 0.372 50.528 0.372 50.528
## los cristales 154 1.849 52.377 1.849 52.377
## los cristales club 1 0.012 52.389 0.012 52.389
## los farallones 4 0.048 52.437 0.048 52.437
## los guaduales 26 0.312 52.749 0.312 52.749
## los guayacanes 3 0.036 52.785 0.036 52.785
## los jockeys 1 0.012 52.797 0.012 52.797
## los libertadores 4 0.048 52.845 0.048 52.845
## los parques barranquilla 6 0.072 52.917 0.072 52.917
## los robles 1 0.012 52.929 0.012 52.929
## lourdes 2 0.024 52.953 0.024 52.953
## mamellan 1 0.012 52.965 0.012 52.965
## manzanares 5 0.060 53.025 0.060 53.025
## mariano ramos 1 0.012 53.037 0.012 53.037
## marroquin iii 1 0.012 53.049 0.012 53.049
## mayapan las vegas 46 0.552 53.601 0.552 53.601
## melendez 52 0.624 54.226 0.624 54.226
## melv©ndez 23 0.276 54.502 0.276 54.502
## menga 23 0.276 54.778 0.276 54.778
## metropolitano del norte 21 0.252 55.030 0.252 55.030
## miradol del aguacatal 1 0.012 55.042 0.012 55.042
## miraflores 26 0.312 55.354 0.312 55.354
## morichal de comfandi 3 0.036 55.390 0.036 55.390
## multicentro 27 0.324 55.714 0.324 55.714
## municipal 3 0.036 55.750 0.036 55.750
## napoles 31 0.372 56.122 0.372 56.122
## normandia 163 1.957 58.079 1.957 58.079
## normandia west point 1 0.012 58.091 0.012 58.091
## norte 9 0.108 58.199 0.108 58.199
## norte la flora 1 0.012 58.211 0.012 58.211
## nueva base 1 0.012 58.223 0.012 58.223
## nueva floresta 15 0.180 58.403 0.180 58.403
## nueva tequendama 73 0.876 59.280 0.876 59.280
## oasis de comfandi 6 0.072 59.352 0.072 59.352
## oasis de pasoancho 1 0.012 59.364 0.012 59.364
## occidente 11 0.132 59.496 0.132 59.496
## pacara 23 0.276 59.772 0.276 59.772
## palmas del ingenio 1 0.012 59.784 0.012 59.784
## pampa linda 26 0.312 60.096 0.312 60.096
## pampalinda 12 0.144 60.240 0.144 60.240
## panamericano 9 0.108 60.348 0.108 60.348
## pance 412 4.946 65.294 4.946 65.294
## parcelaciones pance 61 0.732 66.026 0.732 66.026
## parque residencial el 1 0.012 66.038 0.012 66.038
## paseo de los 2 0.024 66.062 0.024 66.062
## paso del comercio 6 0.072 66.134 0.072 66.134
## pasoancho 6 0.072 66.206 0.072 66.206
## poblado campestre 2 0.024 66.230 0.024 66.230
## ponce 1 0.012 66.242 0.012 66.242
## popular 6 0.072 66.315 0.072 66.315
## portada de comfandi 2 0.024 66.339 0.024 66.339
## portales de comfandi 1 0.012 66.351 0.012 66.351
## porvenir 3 0.036 66.387 0.036 66.387
## prados de oriente 6 0.072 66.459 0.072 66.459
## prados del limonar 21 0.252 66.711 0.252 66.711
## prados del norte 127 1.525 68.235 1.525 68.235
## prados del sur 2 0.024 68.259 0.024 68.259
## primavera 2 0.024 68.283 0.024 68.283
## primero de mayo 37 0.444 68.727 0.444 68.727
## primitivo crespo 3 0.036 68.764 0.036 68.764
## puente del comercio 6 0.072 68.836 0.072 68.836
## puente palma 1 0.012 68.848 0.012 68.848
## quintas de don 73 0.876 69.724 0.876 69.724
## quintas de salomia 4 0.048 69.772 0.048 69.772
## rafael uribe uribe 1 0.012 69.784 0.012 69.784
## refugio 2 0.024 69.808 0.024 69.808
## repv<U+222B>blica de israel 1 0.012 69.820 0.012 69.820
## rincon de la 1 0.012 69.832 0.012 69.832
## rincon de salomia 1 0.012 69.844 0.012 69.844
## riveras del valle 1 0.012 69.856 0.012 69.856
## rozo la torre 1 0.012 69.868 0.012 69.868
## saavedra galindo 4 0.048 69.916 0.048 69.916
## salomia 40 0.480 70.396 0.480 70.396
## samanes 1 0.012 70.408 0.012 70.408
## samanes de guadalupe 1 0.012 70.420 0.012 70.420
## sameco 1 0.012 70.432 0.012 70.432
## san antonio 24 0.288 70.720 0.288 70.720
## san bosco 8 0.096 70.816 0.096 70.816
## san carlos 4 0.048 70.864 0.048 70.864
## san cayetano 9 0.108 70.972 0.108 70.972
## san fernando 55 0.660 71.633 0.660 71.633
## san fernando nuevo 10 0.120 71.753 0.120 71.753
## san fernando viejo 18 0.216 71.969 0.216 71.969
## san joaquin 20 0.240 72.209 0.240 72.209
## san juan bosco 7 0.084 72.293 0.084 72.293
## san judas 1 0.012 72.305 0.012 72.305
## san judas tadeo 2 0.024 72.329 0.024 72.329
## san luis 3 0.036 72.365 0.036 72.365
## san nicolas 2 0.024 72.389 0.024 72.389
## san pedro 3 0.036 72.425 0.036 72.425
## san vicente 48 0.576 73.001 0.576 73.001
## santa 1 0.012 73.013 0.012 73.013
## santa anita 50 0.600 73.613 0.600 73.613
## santa anita sur 1 0.012 73.625 0.012 73.625
## santa barbara 3 0.036 73.661 0.036 73.661
## santa elena 10 0.120 73.782 0.120 73.782
## santa fe 8 0.096 73.878 0.096 73.878
## santa helena de 1 0.012 73.890 0.012 73.890
## santa isabel 64 0.768 74.658 0.768 74.658
## santa monica 55 0.660 75.318 0.660 75.318
## santa monica alta 1 0.012 75.330 0.012 75.330
## santa monica norte 2 0.024 75.354 0.024 75.354
## santa monica popular 9 0.108 75.462 0.108 75.462
## santa monica residencial 44 0.528 75.990 0.528 75.990
## santa rita 46 0.552 76.543 0.552 76.543
## santa rosa 1 0.012 76.555 0.012 76.555
## santa teresita 263 3.157 79.712 3.157 79.712
## santafe 1 0.012 79.724 0.012 79.724
## santander 1 0.012 79.736 0.012 79.736
## santo domingo 6 0.072 79.808 0.072 79.808
## sector aguacatal 1 0.012 79.820 0.012 79.820
## sector cañaveralejo guadalupe 2 0.024 79.844 0.024 79.844
## seminario 32 0.384 80.228 0.384 80.228
## sierras de normandia 1 0.012 80.240 0.012 80.240
## siete de agosto 8 0.096 80.336 0.096 80.336
## simon bolivar 1 0.012 80.348 0.012 80.348
## tejares cristales 4 0.048 80.396 0.048 80.396
## tejares de san 14 0.168 80.564 0.168 80.564
## templete 4 0.048 80.612 0.048 80.612
## tequendama 44 0.528 81.140 0.528 81.140
## tequendema 1 0.012 81.152 0.012 81.152
## terron colorado 1 0.012 81.164 0.012 81.164
## torres de comfandi 57 0.684 81.849 0.684 81.849
## unicentro cali 1 0.012 81.861 0.012 81.861
## union de vivienda 3 0.036 81.897 0.036 81.897
## urbanizacion barranquilla 4 0.048 81.945 0.048 81.945
## urbanizacion boyaca 1 0.012 81.957 0.012 81.957
## urbanizacion colseguros 3 0.036 81.993 0.036 81.993
## urbanizacion el saman 1 0.012 82.005 0.012 82.005
## urbanizacion gratamira 1 0.012 82.017 0.012 82.017
## urbanizacion la flora 83 0.996 83.013 0.996 83.013
## urbanizacion la merced 4 0.048 83.061 0.048 83.061
## urbanizacion la nueva 4 0.048 83.109 0.048 83.109
## urbanizacion las cascadas 1 0.012 83.121 0.012 83.121
## urbanizacion lili 2 0.024 83.145 0.024 83.145
## urbanizacion nueva granada 3 0.036 83.181 0.036 83.181
## urbanizacion pacara 1 0.012 83.193 0.012 83.193
## urbanizacion rio lili 5 0.060 83.253 0.060 83.253
## urbanizacion san joaquin 4 0.048 83.301 0.048 83.301
## urbanizacion tequendama 7 0.084 83.385 0.084 83.385
## valle de lili 1 0.012 83.397 0.012 83.397
## valle del lili 1012 12.149 95.546 12.149 95.546
## valle grande 1 0.012 95.558 0.012 95.558
## versalles 71 0.852 96.411 0.852 96.411
## villa colombia 6 0.072 96.483 0.072 96.483
## villa de veracruz 6 0.072 96.555 0.072 96.555
## villa del lago 10 0.120 96.675 0.120 96.675
## villa del parque 1 0.012 96.687 0.012 96.687
## villa del prado 52 0.624 97.311 0.624 97.311
## villa del sol 25 0.300 97.611 0.300 97.611
## villa del sur 5 0.060 97.671 0.060 97.671
## villas de veracruz 9 0.108 97.779 0.108 97.779
## vipasa 32 0.384 98.163 0.384 98.163
## zona centro 1 0.012 98.175 0.012 98.175
## zona norte 32 0.384 98.559 0.384 98.559
## zona norte los 1 0.012 98.571 0.012 98.571
## zona oeste 26 0.312 98.884 0.312 98.884
## zona oriente 18 0.216 99.100 0.216 99.100
## zona residencial 1 0.012 99.112 0.012 99.112
## zona sur 74 0.888 100.000 0.888 100.000
## <NA> 0 0.000 100.000
## Total 8330 100.000 100.000 100.000 100.000
Vamos a darle un vistazo a las estadísticas descriptivas que presentan las variables a continuacion:
summary(datosNA)
## id zona piso estrato
## Min. : 1 Length:8330 Min. : 1.000 Min. :3.000
## 1st Qu.:2083 Class :character 1st Qu.: 2.000 1st Qu.:4.000
## Median :4164 Mode :character Median : 3.772 Median :5.000
## Mean :4164 Mean : 3.772 Mean :4.634
## 3rd Qu.:6245 3rd Qu.: 4.000 3rd Qu.:5.000
## Max. :8319 Max. :12.000 Max. :6.000
## preciom areaconst parquea banios
## Min. : 58.0 Min. : 30 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123 Median : 1.836 Median : 3.000
## Mean : 434.2 Mean : 175 Mean : 1.836 Mean : 3.112
## 3rd Qu.: 540.0 3rd Qu.: 229 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745 Max. :10.000 Max. :10.000
## habitac tipo barrio longitud
## Min. : 0.000 Length:8330 Length:8330 Min. :-76576.00
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76506.00
## Median : 3.000 Mode :character Mode :character Median : -76.54
## Mean : 3.605 Mean :-21845.13
## 3rd Qu.: 4.000 3rd Qu.: -76.52
## Max. :10.000 Max. : -76.46
## latitud
## Min. : 3.333
## 1st Qu.: 3.390
## Median : 3.450
## Mean : 970.370
## 3rd Qu.:3367.000
## Max. :3497.000
mfv(datosNA$piso)
## [1] 3.772368
mfv(datosNA$estrato)
## [1] 5
mfv(datosNA$preciom)
## [1] 350
mfv(datosNA$areaconst)
## [1] 60
mfv(datosNA$parquea)
## [1] 1
mfv(datosNA$banios)
## [1] 2
mfv(datosNA$habitac)
## [1] 3
mfv(datosNA$tipo)
## [1] "apartamento"
mfv(datosNA$barrio)
## [1] "valle del lili"
mfv(datosNA$zona)
## [1] "Zona Sur"
De acuerdo al coeficiente de variacion tenemos como regla empírica para la interpretación del coeficiente de variación el límite del 20% para separar los grupos homogéneos de los heterogéneos, por lo general se utiliza un valor hasta el 20% para determinar que un grupo de datos son homogéneos, de lo contrario se calificará como heterogéneo.
(sd(datosNA$estrato)/abs(mean(datosNA$estrato)))*100
## [1] 22.20695
(sd(datosNA$preciom)/abs(mean(datosNA$preciom)))*100
## [1] 75.75896
(sd(datosNA$areaconst)/abs(mean(datosNA$areaconst)))*100
## [1] 81.6767
(sd(datosNA$habitac)/abs(mean(datosNA$habitac)))*100
## [1] 40.46534
(sd(datosNA$piso)/abs(mean(datosNA$piso)))*100
## [1] 57.2853
(sd(datosNA$banios)/abs(mean(datosNA$banios)))*100
## [1] 45.88906
(sd(datosNA$parquea)/abs(mean(datosNA$parquea)))*100
## [1] 55.05625
Ahora utilizaremos diagramas de cajas para conocer mas a fondo las variables: su concentracion de los datos, existencia de valores atipicos y su sesgo.
par(mfrow = c(1, 2))
hist(datosNA$estrato, prob = TRUE,
col = "white",
main = "Estrato socioeconomico")
par(new=TRUE)
boxplot(datosNA$estrato, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
hist(datosNA$piso, prob = TRUE,
col = "white",
main = "Numero de pisos")
par(new=TRUE)
boxplot(datosNA$piso, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
par(mfrow = c(1, 2))
hist(datosNA$preciom, prob = TRUE,
col = "white",
main = "Precio de la vivienda")
par(new=TRUE)
boxplot(datosNA$preciom, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
hist(datosNA$areaconst, prob = TRUE,
col = "white",
main = "Area construida")
par(new=TRUE)
boxplot(datosNA$areaconst, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
par(mfrow = c(1, 2))
hist(datosNA$parquea, prob = TRUE,
col = "white",
main = "Número de parqueaderos")
par(new=TRUE)
boxplot(datosNA$parquea, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
hist(datosNA$banios, prob = TRUE,
col = "white",
main = "Número de baños")
par(new=TRUE)
boxplot(datosNA$banios, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
hist(datosNA$habitac, prob = TRUE,
col = "white",
main = "Número de habitaciones")
par(new=TRUE)
boxplot(datosNA$habitac, horizontal = TRUE, axes=FALSE, xlab="", col = rgb(0, 0.8, 1, alpha = 0.5))
box()
Ahora vamos a ver las correlaciones que existen en las variables cuantitativas (estadísticamente significativas):
nuevo<-data.frame(datosNA$piso, datosNA$estrato,datosNA$preciom, datosNA$areaconst, datosNA$parquea, datosNA$banios, datosNA$habitac, datosNA$longitud, datosNA$latitud)
correlacion<-round(cor(nuevo), 1)
chart.Correlation(nuevo, histogram = F, pch = 19)
round(cor(nuevo),2)
## datosNA.piso datosNA.estrato datosNA.preciom
## datosNA.piso 1.00 0.11 -0.01
## datosNA.estrato 0.11 1.00 0.61
## datosNA.preciom -0.01 0.61 1.00
## datosNA.areaconst -0.16 0.27 0.69
## datosNA.parquea -0.08 0.35 0.63
## datosNA.banios -0.08 0.42 0.67
## datosNA.habitac -0.18 -0.07 0.26
## datosNA.longitud -0.04 -0.02 -0.07
## datosNA.latitud 0.03 0.02 0.08
## datosNA.areaconst datosNA.parquea datosNA.banios
## datosNA.piso -0.16 -0.08 -0.08
## datosNA.estrato 0.27 0.35 0.42
## datosNA.preciom 0.69 0.63 0.67
## datosNA.areaconst 1.00 0.53 0.65
## datosNA.parquea 0.53 1.00 0.50
## datosNA.banios 0.65 0.50 1.00
## datosNA.habitac 0.52 0.24 0.59
## datosNA.longitud -0.04 -0.04 -0.03
## datosNA.latitud 0.05 0.06 0.03
## datosNA.habitac datosNA.longitud datosNA.latitud
## datosNA.piso -0.18 -0.04 0.03
## datosNA.estrato -0.07 -0.02 0.02
## datosNA.preciom 0.26 -0.07 0.08
## datosNA.areaconst 0.52 -0.04 0.05
## datosNA.parquea 0.24 -0.04 0.06
## datosNA.banios 0.59 -0.03 0.03
## datosNA.habitac 1.00 -0.01 0.01
## datosNA.longitud -0.01 1.00 -0.84
## datosNA.latitud 0.01 -0.84 1.00
Como conclusiones se obtiene lo siguiente: