.text-justify { text-align: justify; }
La ciencia de datos se ha convertido en una necesidad para las empresas, esto debido a que solo se utiliza el 5% de la información que se tiene almacenada para la toma de decisiones y es en este momento que “la ciencia de datos se vuelve indispensable para que las empresas puedan convertir en información y conocimiento ese 95% de datos que no utilizan” [1], lo cual nos abre las puertas a una inclusión mucho más grande de la ciencia de datos en las empresas.
El principal objetivo de este documento es realizar un análisis descriptivo de la data de la empresa B&C para el tema de manejo de Vivienda en la ciudad de Cali, con este se pretende dar a la persona una herramienta que permita identificar las tendencias y patrones en los datos de Viviendas.
Como objetivos secundarios tenemos:
• Generación de graficas de
comportamiento de compra de viviendas en Cali.
• Generación de
graficas que permitan ver la distribución de la población y así poder
identificar el nicho de mercado.
• Generación de tablas con
indicadores de precios de inmuebles
Para la realización de este documento primero debemos entender la base
de datos que se nos fue otorgada y la cual contiene los siguientes
datos:
• id : es un id de llave principal que contiene una
secuencia
• zona : corresponde a la zona tiene los valores
(Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur)
•
piso : este contiene un rango entre 1 y 12, pero este expresa es
la cantidad de pisos que tiene el edificio donde se encuentra el
apartamento o la cantidad de pisos que tiene la casa
•
estrato: la base solo contiene datos de estratos entre el 3 y 6
• presiom : estos son los precios de las inmuebles los
cuales están desde un rango mínimo de 58 Millones y un máximo de 1999
millones
• areaconst: esta es el área construida en metros
cuadrados los cuales están desde un rango mínimo de hasta 30 los 1745
metros cuadrados
• parquea: este es la cantidad de
parqueaderos que posee el inmueble y van desde un rango de 1 hasta 10
• banios: es la cantidad de baños que posee el inmueble y
van desde un rango desde 0 baños hasta 10 baños
• habitac:
es la cantidad de habitaciones que posee el inmueble y van desde un
rango de 0 hasta 10
• tipo: este es el tipo de inmueble y
puede tener los valores Apartamento, APARTAMENTO, apto, casa, Casa, CASA
• Barrio: este es el barrio del inmueble
•
longitud: longitud de la ubicación del inmueble
•
latitud: latitud de la ubicación del inmueble
Luego de
identificar las variables procederemos a un proceso de revisión y
limpieza que veremos a más detalle en la siguiente sección.
Para la realización de estos documentos llevamos una serie de pasos entre los cuales se encuentran, validación y análisis de los datos, limpieza y cambio de datos faltantes:
em primera instancia miraremos que valores faltantes que tiene cada columna de la base de datoscómo podemos observar la base tiene múltiples datos faltantes los cuales deben ser tratados por medio de imputación de valores, ahora miraremos los porcentajes faltantes de cada variable
## # A tibble: 13 × 3
## variable n_miss pct_miss
## <chr> <int> <dbl>
## 1 piso 2641 31.7
## 2 parquea 1606 19.3
## 3 id 3 0.0360
## 4 zona 3 0.0360
## 5 estrato 3 0.0360
## 6 areaconst 3 0.0360
## 7 banios 3 0.0360
## 8 habitac 3 0.0360
## 9 tipo 3 0.0360
## 10 barrio 3 0.0360
## 11 longitud 3 0.0360
## 12 latitud 3 0.0360
## 13 preciom 2 0.0240
luego de realizado el análisis de las variables se encontraron una serie de inconsistencias por lo cual se especificarán los hallazgos y la solución tomada para llevar a cabo los análisis:
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parquea banios habitac tipo
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 NA <NA> NA NA NA NA NA NA NA <NA>
## 2 NA <NA> NA NA NA NA NA NA NA <NA>
## 3 NA <NA> NA NA 330 NA NA NA NA <NA>
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>
Precedemos a eliminar los datos duplicados de la data
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
• tipo: ya que tiene múltiples formas para llamar a un
solo inmueble se determina cambiar todos los registros que digan
Apartamento, APARTAMENTO o apto a “APARTAMENTO” y en caso de ser casa,
Casa O CASA se cambiaran los registros por “CASA”
##
## APARTAMENTO CASA
## 5099 3220
Este es el resultado de los nuevos valores de la tabla para la variable tipo
• Barrio: esta variable tiene caracteres especiales que
deben ser modificados y procederemos a quitar tildes a todos los nombres
de los barrios y los caracteres especiales ,además que hay muchos
barrios escritos de diferentes formas
##
## 20 de julio 3 de julio
## 3 1
## acopi aguablanca
## 158 25
## aguacatal alameda
## 109 16
## alameda del rio alameda del ro
## 1 2
## alamos alborada
## 14 1
## alcazares alferez real
## 2 2
## alfonso lopez alfrez real
## 1 5
## alto jordn altos de guadalupe
## 1 4
## altos de menga altos de santa
## 3 1
## antonio nario aranjuez
## 2 15
## arboleda arboleda campestre candelaria
## 5 1
## arboledas atanasio girardot
## 38 9
## autopista sur bajo aguacatal
## 1 1
## barranquilla barrio 7de agosto
## 6 1
## barrio el recuerdo barrio eucarstico
## 1 1
## barrio obrero barrio tranquilo y
## 1 1
## base area belalcazar
## 2 4
## belisario caicedo bella suiza
## 2 18
## bella suiza alta bellavista
## 4 43
## benjamin herrera berlin
## 8 1
## bloques del limonar bochalema
## 1 33
## bolivariano bosques de alboleda
## 1 1
## bosques del limonar boyac
## 21 1
## bretaa brisas de guadalupe
## 16 1
## brisas de los brisas del guabito
## 82 1
## brisas del limonar bueno madrid
## 1 1
## buenos aires caasgordas
## 7 7
## caaveralejo caaverales
## 12 22
## caldas cali
## 1 37
## calibella calicanto
## 2 10
## calima calimio norte
## 6 5
## calipso cambulos
## 11 3
## camino real campestre
## 36 1
## caney capri
## 93 56
## cascajal cataya real
## 1 1
## ceibas centelsa
## 1 1
## centenario centro
## 16 4
## cerro cristales cerros de guadalupe
## 22 1
## champagnat chapinero
## 14 7
## chiminangos chiminangos 1 etapa
## 18 1
## chiminangos 2 etapa chipichape
## 2 30
## ciudad 2000 ciudad antejardin
## 96 1
## ciudad bochalema ciudad capri
## 48 13
## ciudad cordoba ciudad country
## 20 1
## ciudad crdoba ciudad crdoba reservado
## 15 1
## ciudad del campo ciudad jardin
## 1 540
## ciudad jardin pance ciudad los alamos
## 1 26
## ciudad melendez ciudad modelo
## 3 7
## ciudad pacifica ciudad real
## 3 3
## ciudad talanga ciudad universitaria
## 1 1
## ciudadela comfandi ciudadela del ro
## 17 1
## ciudadela pasoancho colinas de menga
## 22 3
## colinas del bosque colinas del sur
## 1 8
## colon colseguros
## 1 44
## colseguros andes comfenalco
## 5 1
## compartir conjunto gibraltar
## 1 1
## cristales cristobal colon
## 83 16
## cuarto de legua departamental
## 44 29
## ed benjamin herrera el bosque
## 1 50
## el caney el castillo
## 209 6
## el cedro el diamante
## 8 2
## el dorado el gran limonar
## 6 8
## el guabal el guabito
## 19 1
## el ingenio el ingenio i
## 203 19
## el ingenio ii el ingenio iii
## 21 21
## el jardn el jordn
## 15 1
## el lido el limonar
## 59 135
## el nacional el paraso
## 1 3
## el peon el prado
## 60 2
## el refugio el rodeo
## 120 1
## el sena el trbol
## 1 5
## el troncal el vallado
## 19 1
## eucarstico evaristo garca
## 2 2
## farrallones de pance fenalco kennedy
## 1 1
## fepicol flora
## 1 1
## flora industrial floralia
## 16 6
## fonaviemcali francisco eladio ramirez
## 1 1
## fuentes de la gaitan
## 1 1
## gran limonar granada
## 24 15
## guadalupe guadalupe alto
## 21 1
## guaduales guayaquil
## 2 16
## hacienda alferez real ingenio
## 1 1
## ingenio i ingenio ii
## 1 1
## jamundi jamundi alfaguara
## 4 1
## jorge eliecer gaitn jorge isaacs
## 1 1
## jose manuel marroqun juanamb
## 1 53
## juanambu junin
## 2 24
## la alborada la alianza
## 5 5
## la arboleda la base
## 18 15
## la buitrera la campia
## 3 13
## la cascada la ceibas
## 7 1
## la esmeralda la flora
## 1 368
## la floresta la fortaleza
## 18 4
## la gran colombia la hacienda
## 1 166
## la independencia la libertad
## 12 2
## la luisa la merced
## 1 26
## la morada la nueva base
## 1 8
## la playa la portada al
## 1 1
## la primavera la reforma
## 1 1
## la rivera la rivera i
## 11 2
## la rivera ii la riverita
## 2 1
## la riviera la selva
## 1 11
## la villa del laflora
## 1 1
## lares de comfenalco las acacias
## 1 12
## las amricas las camelias
## 3 1
## las ceibas las delicias
## 23 5
## las granjas las quintas de
## 10 1
## las vegas las vegas de
## 1 1
## libertadores los alamos
## 3 1
## los alcazares los alczares
## 17 5
## los andes los cambulos
## 21 25
## los cmbulos los cristales
## 6 154
## los cristales club los farallones
## 1 4
## los guaduales los guayacanes
## 26 3
## los jockeys los libertadores
## 1 4
## los parques barranquilla los robles
## 6 1
## lourdes mamellan
## 2 1
## manzanares mariano ramos
## 5 1
## marroqun iii mayapan las vegas
## 1 46
## melendez melndez
## 52 23
## menga metropolitano del norte
## 23 21
## miradol del aguacatal miraflores
## 1 26
## morichal de comfandi multicentro
## 3 27
## municipal napoles
## 3 2
## normanda normanda west point
## 154 1
## normandia norte
## 5 9
## norte la flora npoles
## 1 29
## nueva base nueva floresta
## 1 15
## nueva tequendama oasis de comfandi
## 73 6
## oasis de pasoancho occidente
## 1 11
## pacar pacara
## 4 19
## palmas del ingenio pampa linda
## 1 26
## pampalinda panamericano
## 12 9
## pance parcelaciones pance
## 412 61
## parque residencial el paseo de los
## 1 2
## paso del comercio pasoancho
## 6 6
## poblado campestre ponce
## 2 1
## popular portada de comfandi
## 6 2
## portales de comfandi porvenir
## 1 3
## prados de oriente prados del limonar
## 6 21
## prados del norte prados del sur
## 127 2
## primavera primero de mayo
## 2 37
## primitivo crespo puente del comercio
## 3 6
## puente palma quintas de don
## 1 73
## quintas de salomia rafael uribe uribe
## 4 1
## refugio repblica de israel
## 2 1
## rincn de salomia rincon de la
## 1 1
## riveras del valle rozo la torre
## 1 1
## saavedra galindo salomia
## 4 40
## samanes samanes de guadalupe
## 1 1
## sameco san antonio
## 1 24
## san bosco san carlos
## 8 4
## san cayetano san fernando
## 9 55
## san fernando nuevo san fernando viejo
## 10 18
## san joaquin san joaqun
## 4 16
## san juan bosco san judas
## 7 1
## san judas tadeo san luis
## 2 3
## san nicolas san pedro
## 2 3
## san vicente santa
## 48 1
## santa anita santa anita sur
## 50 1
## santa brbara santa elena
## 3 10
## santa fe santa helena de
## 8 1
## santa isabel santa mnica
## 64 3
## santa mnica alta santa mnica popular
## 1 7
## santa mnica residencial santa monica
## 39 52
## santa monica norte santa monica popular
## 2 2
## santa monica residencial santa rita
## 5 45
## santa rosa santa teresita
## 1 263
## santafe santander
## 1 1
## santo domingo sector aguacatal
## 6 1
## sector caaveralejo guadalupe seminario
## 2 32
## sierras de normanda siete de agosto
## 1 8
## simn bolivar Sin barrio
## 1 153
## tejares cristales tejares de san
## 4 14
## templete tequendama
## 4 44
## tequendema terrn colorado
## 1 1
## torres de comfandi unicentro cali
## 57 1
## unin de vivienda urbanizacin barranquilla
## 3 4
## urbanizacin boyac urbanizacin colseguros
## 1 3
## urbanizacin la flora urbanizacin la merced
## 83 4
## urbanizacin la nueva urbanizacin las cascadas
## 4 1
## urbanizacin nueva granada urbanizacin pacara
## 3 1
## urbanizacin ro lili urbanizacin san joaquin
## 5 4
## urbanizacin tequendama urbanizacion el saman
## 7 1
## urbanizacion gratamira urbanizacion lili
## 1 2
## valle del lili valle grande
## 1010 1
## versalles villa colombia
## 71 6
## villa de veracruz villa del lago
## 6 10
## villa del parque villa del prado
## 1 52
## villa del sol villa del sur
## 25 5
## villas de veracruz vipasa
## 9 32
cómo podemos observar quedaron limpios los nombres de los barrios
• id : debido a que es un id no se toma ya que no se ve
como variable objetivo para el análisis.
• las variables zona,
estrato, presiom , areaconst , longitud, latitud : luego del proceso
de eliminación de los nulos en el id esta variable queda sin nulos y con
valores bien estructurados , por lo que no se hace ninguna modificación
• parquea: posee una gran cantidad de nulos y como vemos
una relación directa entre estrato y numero de parqueaderos tal y como
se muestra en la siguiente tabla:
## [1] "la moda de parquederos en el estrato 3 para casas es: 1"
## [1] "la moda de parquederos en el estrato 3 para aparamento es: 1"
## [1] "la moda de parquederos en el estrato 4 para casas es: 1"
## [1] "la moda de parquederos en el estrato 4 para aparamento es: 1"
## [1] "la moda de parquederos en el estrato 5 para casas es: 2"
## [1] "la moda de parquederos en el estrato 5 para aparamento es: 1"
## [1] "la moda de parquederos en el estrato 6 para casas es: 2"
## [1] "la moda de parquederos en el estrato 6 para aparamento es: 2"
teniendo en cuenta lo anterior colocaremos la moda para cada estrato
en parqueaderos es decir el que más se repite por estrato
• banios: se valida el número de baños del inmueble que
aparecen sin baños y se determina llevar a cabo dos procesos en el caso
de los registros que poseen cero baños colocaremos el valor que más se
repite por tipo de inmueble y estrato, para este momento tenemos la
siguiente distribución
## estrato
## Banos 3 4 5 6
## 0 15 9 13 8
## 1 359 93 35 9
## 2 623 1187 941 195
## 3 208 444 897 444
## 4 135 232 492 597
## 5 68 100 249 473
## 6 27 40 61 186
## 7 4 9 39 55
## 8 8 11 15 14
## 9 3 2 5 5
## 10 3 2 3 1
## [1] "la moda de baños en el estrato 3 para casas es: 2"
## [1] "la moda de baños en el estrato 3 para aparamento es: 2"
## [1] "la moda de baños en el estrato 4 para casas es: 3"
## [1] "la moda de baños en el estrato 4 para aparamento es: 2"
## [1] "la moda de baños en el estrato 5 para casas es: 4"
## [1] "la moda de baños en el estrato 5 para aparamento es: 2"
## [1] "la moda de baños en el estrato 6 para casas es: 5"
## [1] "la moda de baños en el estrato 6 para aparamento es: 4"
ahora procederemos a reemplazar los datos con los datos existentes
## estratos
## baños 3 4 5 6
## 1 359 93 35 9
## 2 623 1187 941 195
## 3 223 447 903 444
## 4 135 238 492 597
## 5 68 100 256 481
## 6 27 40 61 186
## 7 4 9 39 55
## 8 8 11 15 14
## 9 3 2 5 5
## 10 3 2 3 1
así quedaron la distribución de baños
• habitac: se valida el número de habitaciones del
inmueble que aparecen sin baños y se determina que se colocara el valor
de moda teniendo en cuenta el tipo e inmueble y el estrato
## estratos
## habitaciones 3 4 5 6
## 0 21 22 17 6
## 1 10 7 26 16
## 2 140 389 257 140
## 3 681 1101 1400 915
## 4 183 326 580 640
## 5 111 124 255 189
## 6 92 61 114 51
## 7 76 38 44 15
## 8 72 36 25 5
## 9 49 13 14 7
## 10 18 12 18 3
así se encuentran la distribución de habitaciones en la base, como podemos observar hay valores en ceros
## [1] "la moda de habitaciones en el estrato 3 para casas es: 3"
## [1] "la moda de habitaciones en el estrato 3 para aparamento es: 3"
## [1] "la moda de habitaciones en el estrato 4 para casas es: 4"
## [1] "la moda de habitaciones en el estrato 4 para aparamento es: 3"
## [1] "la moda de habitaciones en el estrato 5 para casas es: 4"
## [1] "la moda de habitaciones en el estrato 5 para aparamento es: 3"
## [1] "la moda de habitaciones en el estrato 6 para casas es: 4"
## [1] "la moda de habitaciones en el estrato 6 para aparamento es: 3"
## estratos
## habitaciones 3 4 5 6
## 1 10 7 26 16
## 2 140 389 257 140
## 3 681 1101 1400 918
## 4 204 333 589 643
## 5 111 139 263 189
## 6 92 61 114 51
## 7 76 38 44 15
## 8 72 36 25 5
## 9 49 13 14 7
## 10 18 12 18 3
de esta manera quedaron los datos que estaban en ceros de la variable habitaciones
• piso: la variable piso es otra variable que tiene bastantes datos faltantes por lo cual generaremos la moda para cada tipo de inmueble y estrato y se lo asignaremos como valor por defecto
## [1] "la moda de pisos en el estrato 3 para casas es: 2"
## [1] "la moda de pisos en el estrato 3 para aparamento es: 5"
## [1] "la moda de pisos en el estrato 4 para casas es: 2"
## [1] "la moda de pisos en el estrato 4 para aparamento es: 5"
## [1] "la moda de pisos en el estrato 5 para casas es: 2"
## [1] "la moda de pisos en el estrato 5 para aparamento es: 3"
## [1] "la moda de pisos en el estrato 6 para casas es: 2"
## [1] "la moda de pisos en el estrato 6 para aparamento es: 3"
después de realizado todo el proceso de eliminación de nulos la base final se ve así
## # A tibble: 13 × 3
## variable n_miss pct_miss
## <chr> <int> <dbl>
## 1 id 0 0
## 2 zona 0 0
## 3 piso 0 0
## 4 estrato 0 0
## 5 preciom 0 0
## 6 areaconst 0 0
## 7 parquea 0 0
## 8 banios 0 0
## 9 habitac 0 0
## 10 tipo 0 0
## 11 barrio 0 0
## 12 longitud 0 0
## 13 latitud 0 0
En Esta parte generaremos las gráficas y tablas necesarias para entender la data que poseemos de la empresa B&C, para lo cual crearemos por medio de Código R, una serie de Tablas y Graficas que permitan entender de manera más fácil el comportamiento del mercado de Viviendas en Cali
la siguiente tabla representa la cantidad de casas por zona y por tipo de inmueble
## Tipo_inmueble
## zona APARTAMENTO CASA
## Zona Centro 24 100
## Zona Norte 1198 722
## Zona Oeste 1029 169
## Zona Oriente 62 289
## Zona Sur 2786 1940
Como pòdemos darnos cuenta en la tabla anterior se evidencia una alta venta de apartamentos ens las zonas Norte, Oeste y Sur, mientras que las casas tiene una tendiencia fuerte hacia la zona Sur y Norte ,pero esta utlima Tiene mas de un 50% de diferenvcia con la zona Sur
la siguiente tabla representa la cantidad de casas por zona y por máxima cantidad de habitaciones
## habitaaciones
## zona 1 2 3 4 5 6 7 8 9 10
## Zona Centro 3 12 28 22 20 11 9 8 7 4
## Zona Norte 17 220 1009 357 159 60 42 29 14 13
## Zona Oeste 16 173 623 277 66 22 6 5 6 4
## Zona Oriente 2 31 89 58 34 42 31 32 26 6
## Zona Sur 21 490 2351 1055 423 183 85 64 30 24
Como podemos ver en la anterior tabla existe una tendencia marcada a los inmebles con 3 o 4 habitaciones, ademas de tenner una tendencia mas marcada hacia 3 habitaciones en caso de las Zona Norte y Sur, cabe resaltar que la zona oriente tiene una dispersion mas amplia en caso de numero de habitaciones
la siguiente tabla representa la cantidad de casas por tipo y por estrato
## estrato
## Tipo_inmueble 3 4 5 6
## APARTAMENTO 639 1403 1766 1291
## CASA 814 726 984 696
Como pudimos observar en la anterior tabla el estrao predominante en casa es el estrato 5 pero con una leve diferencia con el estrato 3, aunque cabe resaltar que la dispersion de los datos no es mucha entre los diferentes estratos para los inmuebles (casas), mientras que los aparatmanetos tienen menos representacion en estratos 3 a difetrencia de los otros estratos
la siguiente tabla representa los precios por intervalos que se maneja en la base para lo cual utilizaremos la rutina de sturges
## [1] "los segmentos para el precio son: 15"
## tipo
## rango_precios APARTAMENTO CASA
## (56.1,187] 1403 250
## (187,317] 1609 633
## (317,446] 860 795
## (446,576] 367 517
## (576,705] 348 304
## (705,834] 113 173
## (834,964] 130 183
## (964,1.09e+03] 55 50
## (1.09e+03,1.22e+03] 75 98
## (1.22e+03,1.35e+03] 58 63
## (1.35e+03,1.48e+03] 30 41
## (1.48e+03,1.61e+03] 23 51
## (1.61e+03,1.74e+03] 5 28
## (1.74e+03,1.87e+03] 20 21
## (1.87e+03,2e+03] 3 13
La anterior tabla muestra los rangos de precios que se manejan para los inmuebles, para los aparatamentos los precios rondan hasta los 317 millones, mientras que las casas llegan hasta precios de 576 millones
la siguiente tabla representa el área del inmueble por intervalos que se maneja en la base para lo cual utilizaremos la rutina de sturges
## [1] "los segmentos para el área Construida son: 15"
## TipoInmueble
## rango_area APARTAMENTO CASA
## (28.3,144] 4074 683
## (144,259] 792 1119
## (259,373] 185 749
## (373,487] 35 382
## (487,602] 10 160
## (602,716] 2 44
## (716,830] 0 36
## (830,945] 1 19
## (945,1.06e+03] 0 14
## (1.06e+03,1.17e+03] 0 3
## (1.17e+03,1.29e+03] 0 4
## (1.29e+03,1.4e+03] 0 1
## (1.4e+03,1.52e+03] 0 3
## (1.52e+03,1.63e+03] 0 2
## (1.63e+03,1.75e+03] 0 1
## estrato
## rango_area 3 4 5 6
## (28.3,144] 932 1559 1680 586
## (144,259] 334 310 545 722
## (259,373] 126 168 284 356
## (373,487] 38 60 144 175
## (487,602] 17 23 59 71
## (602,716] 2 2 13 29
## (716,830] 0 6 13 17
## (830,945] 1 0 8 11
## (945,1.06e+03] 0 1 1 12
## (1.06e+03,1.17e+03] 0 0 0 3
## (1.17e+03,1.29e+03] 0 0 3 1
## (1.29e+03,1.4e+03] 1 0 0 0
## (1.4e+03,1.52e+03] 1 0 0 2
## (1.52e+03,1.63e+03] 0 0 0 2
## (1.63e+03,1.75e+03] 1 0 0 0
Por otro lado queriamos ver en la anteriro tabla la maxima area que se
quiere en terminos de inmuebles y encontramos los siguientes hallazgos:
1. los aparatamentos tienes un area maxima de 144 metros cuadrados
2. las casas tienen un area masima de 373 metros cuadrados pero
existe una fuerte tendencia hacia los 259 metros cuadrados
la siguiente tabla representa el número de parqueaderos por estrato
## estrato
## parqueaderos 3 4 5 6
## 1 1326 1726 1313 154
## 2 93 317 1151 1152
## 3 19 50 136 315
## 4 10 23 100 251
## 5 1 4 27 36
## 6 3 4 13 48
## 7 0 2 5 11
## 8 0 0 3 14
## 9 0 1 1 2
## 10 1 2 1 4
Esto tambien lo quisimos visualizar desde el aspecto de los estratos
encontrando que :
1. los estratos 3,4 y 5 prefieren hasta 144
metros cuadrados
2. mientras que el estrato 6 tiene una pequeña
tendencia hascia los 259 metros cuadrados
la siguiente tabla representa el número de parqueaderos por zona
## estrato
## parqueaderos Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 1 108 1253 259 309 2590
## 2 12 525 689 29 1458
## 3 0 69 166 8 277
## 4 2 46 68 3 265
## 5 0 11 8 1 48
## 6 2 8 6 1 51
## 7 0 5 2 0 11
## 8 0 1 0 0 16
## 9 0 1 0 0 3
## 10 0 1 0 0 7
la anterior tabla nos muestra la distribucion de preferencia de
parqueaderos en los diferentes inmuebles y de la cual podemos deducir lo
siguiente:
1. las Zonas Norte y Sur tienen una tendencia marcada
por uno o dos parquederos
2. la zona oeste tiene la misma
tendencia que la anteriores zonas pero con una fuerte tendencia mas
hacia Dos parquederos
3. mientras que la zona Oriente y Centro la
cantidad de parquederos no es muy representativa a comparacion de las
demas zonas mientras que la zona oriente
lo primero como análisis es dar una gráfica de los tipos de imbeles que
hay en cali:
Como lo pudimos tambien observar en las tablas , se ve en la anterior grafica una fuerte tendencia hacia uno o dos parqueaderos en los diferentes tipos de inmuebles
Ademas que el inmueble favorito por excelencia son los apratamentos con una tendencia muy marcada ante las casas
La anterior grafica nos muestra que hay una una mayor frecuencia de inmubles en los estratos 4,5 y 6, hay una tendencia hacia la derecha
Ademas tenemos que la zona Sur es la que posee la mayor cantidad de inmuebles y por ende es la zona preferida de los usaurios para la adquisision de un inmueble, preferiblemente apartamentos
Todas las anterios Graficas y tablas permiten poder generar los respectivos respultados que veremos el la siguiente seccion de Resultados (seccion 5)
Este documento permite llegar a los siguientes resultados generados
de la información analizada en cada una de las anteriores graficas:
• el primer resultado que podemos encontrar que la
gente prefiere los apartamentos en contra de las casas , esto solo
difiere en la zona oriente y en la zona centro donde las personas
prefieren una casa antes que un apartamento
• el segundo
resultado es que las personas prefieren inmuebles que tengan entre 3
y 4 habitaciones
• el tercer resultado encontrado demuestra
que en los estratos 3 hay una preferencia casi equitativa entre casas y
apartamentos , mientras que en los estratos 4, 5 y 6 hay una tendencia
marcada hacia los aparamentos
• el cuarto resultado
encontrado demuestra que las personas prefieren casas con un valor
máximo de 576 millones y los apartamentos se buscan más precios hasta
317 millones
• el quinto resultado encontrado demuestra que
los usuarios buscan tanto en casas como en apartamentos un máximo de
área construida de 144 metros para los apartamentos y para las casas
hasta 373 metros cuadrados
• el sexto resultado encontrado
demuestra que la mayoría de estratos (estratos 3,4,5) solicitan más
inmuebles con 1 parqueadero, mientras que el estrato 6 tiene una fuerte
tendencia hacia los inmuebles con 2 parquederos y el estrato 5 prefiere
entre 1 y dos parquederos
• el séptimo resultado encontrado
no demuestra que la gran mayoría de inmueble están ubicados en estrato 5
• el octavo resultado encontrado demuestra que la
distribución de los inmuebles se ubica en su mayoría en la zona sur de
la ciudad de cali
• todo lo anterior nos permite tener una
descripción básica de los inmuebles , ubicaciones y mercado de los
inmuebles de la ciudad de cali
Este Documento permite inferir que el nicho de mercado el cual se trabajó para esta base de datos son en su mayoría apartamentos y de preferencia en zonas que no sean la son oriente o centro, con por lo menos 3 o cuatro habitaciones y con un costo máximo de 317 millones y un área construida máxima de 144.
Es claro que el sector de casa es también muy requerido pero se ven más en el estrato 3 con un costo máximo de 576 millones y un área construida de 373 metros.
Es por este motivo que consideramos que el mercado de casa es un mercado por explotación a nivel de la ciudad de Cali.
Es claro que este documento también deja abierta la posibilidad de otros análisis debido a que hay zonas como la oriente y centro que no prefieren casas y sería interesante poder validar las razones económico-sociales que llevan a esta tendencia
cómo nos pudimos dar cuenta a lo largo de las tablas y gráficas, se
puede llegar a las siguientes conclusiones:
• limpieza: el
proceso de limpieza puede llevar hasta un 40% del trabajo realizado
• resultado: el documento permite ver de una manera
descriptiva las variables y en algunos casos poder realizar una
determinación de comportamiento entre dos variables
•
densidad: la mayoría de los inmuebles fueron apartamentos y una
posible zona a tener mayor impacto es la centro y oriente en
apartamentos ya que sus números son bajos, se podría realizar un
análisis más profundo sobre estas zonas
• resultados: se
obtuvieron una serie de resultados que pueden ser visualizados en la
sección 5 de resultados y los cuales permiten ver un corto y breve
análisis descriptivo de la base de inmuebles de la compañía B&C
los docigos usuados para este reporte fueron :
library(paqueteMET)
library(naniar)
data(vivienda_faltantes)
Faltantes = gg_miss_var(vivienda_faltantes, show_pct=TRUE)
Faltantes
#faltantesporcen=n_miss(vivienda_faltantes$id)
faltantesVar = naniar::miss_var_summary(vivienda_faltantes)
faltantesVar
#subset de datos sin data
tr = subset(vivienda_faltantes, is.na(vivienda_faltantes$id))
tr
# filtramos estos datos para dejar una data limpia
BaseLimpia = subset( vivienda_faltantes, !is.na(vivienda_faltantes$id))
library(dplyr)
BaseLimpia = distinct(BaseLimpia)
#creamos el vector de casa
col_modi =c ("tipo")
casa = c("casa", "Casa", "CASA")
#creamos el vector de Aparamento
apartamento= c("Apartamento", "APARTAMENTO", "apto")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% casa, "CASA"))
#modificamos las diferentes variables de apartamento
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% apartamento, "APARTAMENTO"))
tabla= table(BaseLimpia$tipo)
tabla
#quitamos caracteres con tildes
BaseLimpia$barrio=iconv(BaseLimpia$barrio, 'utf-8','ascii', sub = '')
#quitamos caracteres mayusculas
BaseLimpia$barrio=tolower(BaseLimpia$barrio)
#quitamos parecidos
col_modi =c ("barrio")
barrio = c("agua blanca","alfonso lpez","alfonso lpez i")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "aguablanca"))
barrio = c("alfonso lpez","alfonso lpez i")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "alfonso lopez"))
barrio = c("benjamn herrera")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "benjamin herrera"))
barrio = c("caaverales los samanes")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "caaverales"))
barrio = c("cali bella")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "calibella"))
barrio = c("cali canto","calicanto viii")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "calicanto"))
barrio = c("caney especial")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "caney"))
barrio = c("ciudad jardn")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudad jardin"))
barrio = c("ciudad los lamos")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudad los alamos"))
barrio = c("ciudad melndez","ciudadela melendez")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudad melendez"))
barrio = c("ciudadela paso ancho")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudadela pasoancho"))
barrio = c("cristbal coln","cristobal coln")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "cristobal colon"))
barrio = c("el ingenio 3")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "el ingenio iii"))
barrio = c("junn")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "junin"))
barrio = c("valle de lili")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "valle del lili"))
barrio = c("san lus")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "san luis"))
barrio = c("san nicols")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "san nicolas"))
#arreglamos las zonas y las agrupamos en uno sin barrio
barrio = c("zona oriente","zona residencial","zona sur","zona oeste","zona norte los","zona norte","zona centro")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "Sin barrio"))
tabla1= table(BaseLimpia$barrio, exclude = NULL)
tabla1
## este es para el estrato 3
estrato3_casa = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato3_apartamento = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato3_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato3_apartamento$parquea))
modacasa3 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento3 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
# imprimimos la moda
paste("la moda de parquederos en el estrato 3 para casas es:",modacasa3)
paste("la moda de parquederos en el estrato 3 para aparamento es:",modaapartamento3)
## este es para el estrato 4
estrato4_casa = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato4_apartamento = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="APARTAMENTO"& !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato4_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato4_apartamento$parquea))
modacasa4 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento4 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
paste("la moda de parquederos en el estrato 4 para casas es:",modacasa4)
paste("la moda de parquederos en el estrato 4 para aparamento es:",modaapartamento4)
## este es para el estrato 5
estrato5_casa = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato5_apartamento = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="APARTAMENTO"& !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato5_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato5_apartamento$parquea))
modacasa5 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento5 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
paste("la moda de parquederos en el estrato 5 para casas es:",modacasa5)
paste("la moda de parquederos en el estrato 5 para aparamento es:",modaapartamento5)
## este es para el estrato 6
estrato6_casa = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato6_apartamento = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="APARTAMENTO"& !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato6_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato6_apartamento$parquea))
modacasa6 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento6 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
paste("la moda de parquederos en el estrato 6 para casas es:",modacasa6)
paste("la moda de parquederos en el estrato 6 para aparamento es:",modaapartamento6)
#reemplazamos los valores nulos teniendo en cuenta las variables de estrato y tipo de inmueble
#generamos el código de ejecución
col_modi="parquea"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="CASA"), modacasa3))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3))
#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="CASA"), modacasa4))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4))
#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="CASA"), modacasa5))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5))
#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="CASA"), modacasa6))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6))
col_modi="banios"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==3& BaseLimpia$tipo=="CASA"), modacasa3_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3_bano))
#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==4& BaseLimpia$tipo=="CASA"), modacasa4_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4_bano))
#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==5& BaseLimpia$tipo=="CASA"), modacasa5_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5_bano))
#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==6& BaseLimpia$tipo=="CASA"), modacasa6_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6_bano))
tabla1 = table(baños=BaseLimpia$banios, estratos=BaseLimpia$estrato)
tabla1
tabla1 = table(habitaciones=BaseLimpia$habitac, estratos=BaseLimpia$estrato)
tabla1
#calculo para estrato 3
estrato3_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato3_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato3_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato3_apartamento_habita$habitac))
modacasa3_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento3_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 3 para casas es:",modacasa3_habita)
paste("la moda de habitaciones en el estrato 3 para aparamento es:",modaapartamento3_habita)
#calculo para estrato 4
estrato4_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato4_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato4_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato4_apartamento_habita$habitac))
modacasa4_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento4_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 4 para casas es:",modacasa4_habita)
paste("la moda de habitaciones en el estrato 4 para aparamento es:",modaapartamento4_habita)
#calculo para estrato 5
estrato5_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato5_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato5_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato5_apartamento_habita$habitac))
modacasa5_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento5_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 5 para casas es:",modacasa5_habita)
paste("la moda de habitaciones en el estrato 5 para aparamento es:",modaapartamento5_habita)
#calculo para estrato 6
estrato6_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato6_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato6_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato6_apartamento_habita$habitac))
modacasa6_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento6_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 6 para casas es:",modacasa6_habita)
paste("la moda de habitaciones en el estrato 6 para aparamento es:",modaapartamento6_habita)
#cambiamos los valores por los definidos
col_modi="habitac"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==3& BaseLimpia$tipo=="CASA"), modacasa3_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3_habita))
#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==4& BaseLimpia$tipo=="CASA"), modacasa4_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4_habita))
#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==5& BaseLimpia$tipo=="CASA"), modacasa5_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5_habita))
#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==6& BaseLimpia$tipo=="CASA"), modacasa6_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6_habita))
tabla1 = table(habitaciones=BaseLimpia$habitac, estratos=BaseLimpia$estrato)
tabla1
#calculo para estrato 3
estrato3_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato3_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato3_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato3_apartamento_piso$piso))
modacasa3_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento3_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 3 para casas es:",modacasa3_piso)
paste("la moda de pisos en el estrato 3 para aparamento es:",modaapartamento3_piso)
#calculo para estrato 4
estrato4_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato4_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato4_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato4_apartamento_piso$piso))
modacasa4_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento4_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 4 para casas es:",modacasa4_piso)
paste("la moda de pisos en el estrato 4 para aparamento es:",modaapartamento4_piso)
#calculo para estrato 5
estrato5_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato5_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato5_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato5_apartamento_piso$piso))
modacasa5_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento5_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 5 para casas es:",modacasa5_piso)
paste("la moda de pisos en el estrato 5 para aparamento es:",modaapartamento5_piso)
#calculo para estrato 6
estrato6_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato6_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato6_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato6_apartamento_piso$piso))
modacasa6_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento6_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 6 para casas es:",modacasa6_piso)
paste("la moda de pisos en el estrato 6 para aparamento es:",modaapartamento6_piso)
#### quitamos los valores nulos
col_modi="piso"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="CASA"), modacasa3_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3_piso))
#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="CASA"), modacasa4_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4_piso))
#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="CASA"), modacasa5_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5_piso))
#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="CASA"), modacasa6_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6_piso))
faltantesVar = naniar::miss_var_summary(BaseLimpia)
faltantesVar
tabla1= table(zona=BaseLimpia$zona, Tipo_inmueble=BaseLimpia$tipo)
tabla1
tabla1= table(zona= BaseLimpia$zona, habitaaciones=BaseLimpia$habitac)
tabla1
tabla1= table(Tipo_inmueble =BaseLimpia$tipo, estrato=BaseLimpia$estrato)
tabla1
segmentos = nclass.Sturges(BaseLimpia$preciom)
intervalos = cut(BaseLimpia$preciom, breaks=segmentos)
paste("los segmentos para el precio son:", segmentos)
taba=table(rango_precios= intervalos)
barplot(taba)
tabla1 = table(rango_precios= intervalos, BaseLimpia$tipo)
tabla1
segmentos = nclass.Sturges(BaseLimpia$areaconst)
intervalos = cut(BaseLimpia$areaconst, breaks=segmentos)
paste("los segmentos para el área Construida son:", segmentos)
tabla1 = table(rango_area=intervalos, TipoInmueble=BaseLimpia$tipo)
tabla1
tabla1 = table(rango_area=intervalos, estrato=BaseLimpia$estrato)
tabla1
tabla1 = table(parqueaderos= BaseLimpia$parquea, estrato=BaseLimpia$estrato)
tabla1
tabla1 = table(parqueaderos= BaseLimpia$parquea, estrato=BaseLimpia$zona)
tabla1
tabla1=table(BaseLimpia$parquea)
barplot(tabla1, xlab="parqueadero", ylab="frecuencia absoluta", las=1)
tabla1=table(BaseLimpia$tipo)
#barplot(tabla1, xlab="tipo inmueble", ylab="frecuencia absoluta", las=1)
pct = round(tabla1/sum(tabla1)*100)
pie(tabla1)
tabla1= table(BaseLimpia$estrato)
barplot(tabla1, xlab="Estrato Socioeconómico", ylab="frecuencia absoluta", las=1)
tabla1= table(BaseLimpia$zona)
barplot(tabla1, xlab="Zona", ylab="frecuencia absoluta", las=1)
[1] C. Jorge, «Formación para el futuro de los negocios: ciencia de datos, IA e IoT,» Forbes, 22 febrero 2021. [En línea]. Available: https://forbescentroamerica.com/2021/02/22/formacion-para-el-futuro-de-los-negocios-ciencia-de-datos-ia-e-iot.