.text-justify { text-align: justify; }

1. Introducción

La ciencia de datos se ha convertido en una necesidad para las empresas, esto debido a que solo se utiliza el 5% de la información que se tiene almacenada para la toma de decisiones y es en este momento que “la ciencia de datos se vuelve indispensable para que las empresas puedan convertir en información y conocimiento ese 95% de datos que no utilizan” [1], lo cual nos abre las puertas a una inclusión mucho más grande de la ciencia de datos en las empresas.

2. Objetivos

2.1. Objetivo Principal

El principal objetivo de este documento es realizar un análisis descriptivo de la data de la empresa B&C para el tema de manejo de Vivienda en la ciudad de Cali, con este se pretende dar a la persona una herramienta que permita identificar las tendencias y patrones en los datos de Viviendas.

2.1. Objetivos Secundarios

Como objetivos secundarios tenemos:
• Generación de graficas de comportamiento de compra de viviendas en Cali.
• Generación de graficas que permitan ver la distribución de la población y así poder identificar el nicho de mercado.
• Generación de tablas con indicadores de precios de inmuebles

3. Métodos

Para la realización de este documento primero debemos entender la base de datos que se nos fue otorgada y la cual contiene los siguientes datos:
id : es un id de llave principal que contiene una secuencia
zona : corresponde a la zona tiene los valores (Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur)
piso : este contiene un rango entre 1 y 12, pero este expresa es la cantidad de pisos que tiene el edificio donde se encuentra el apartamento o la cantidad de pisos que tiene la casa
estrato: la base solo contiene datos de estratos entre el 3 y 6
presiom : estos son los precios de las inmuebles los cuales están desde un rango mínimo de 58 Millones y un máximo de 1999 millones
areaconst: esta es el área construida en metros cuadrados los cuales están desde un rango mínimo de hasta 30 los 1745 metros cuadrados
parquea: este es la cantidad de parqueaderos que posee el inmueble y van desde un rango de 1 hasta 10
banios: es la cantidad de baños que posee el inmueble y van desde un rango desde 0 baños hasta 10 baños
habitac: es la cantidad de habitaciones que posee el inmueble y van desde un rango de 0 hasta 10
tipo: este es el tipo de inmueble y puede tener los valores Apartamento, APARTAMENTO, apto, casa, Casa, CASA
Barrio: este es el barrio del inmueble
longitud: longitud de la ubicación del inmueble
latitud: latitud de la ubicación del inmueble
Luego de identificar las variables procederemos a un proceso de revisión y limpieza que veremos a más detalle en la siguiente sección.

3.1. Limpieza de la base de datos

Para la realización de estos documentos llevamos una serie de pasos entre los cuales se encuentran, validación y análisis de los datos, limpieza y cambio de datos faltantes:

em primera instancia miraremos que valores faltantes que tiene cada columna de la base de datos

cómo podemos observar la base tiene múltiples datos faltantes los cuales deben ser tratados por medio de imputación de valores, ahora miraremos los porcentajes faltantes de cada variable

## # A tibble: 13 × 3
##    variable  n_miss pct_miss
##    <chr>      <int>    <dbl>
##  1 piso        2641  31.7   
##  2 parquea     1606  19.3   
##  3 id             3   0.0360
##  4 zona           3   0.0360
##  5 estrato        3   0.0360
##  6 areaconst      3   0.0360
##  7 banios         3   0.0360
##  8 habitac        3   0.0360
##  9 tipo           3   0.0360
## 10 barrio         3   0.0360
## 11 longitud       3   0.0360
## 12 latitud        3   0.0360
## 13 preciom        2   0.0240

luego de realizado el análisis de las variables se encontraron una serie de inconsistencias por lo cual se especificarán los hallazgos y la solución tomada para llevar a cabo los análisis:

  1. llevando a cabo el análisis se determina que hay tres registros los cuales poseen en su mayoría faltantes, por lo cual se decide eliminar estos registros ya que no poseen la consistencia necesaria en los datos para ser relevantes en los análisis descriptivos
## # A tibble: 3 × 13
##      id zona   piso estrato preciom areaconst parquea banios habitac tipo 
##   <dbl> <chr> <dbl>   <dbl>   <dbl>     <dbl>   <dbl>  <dbl>   <dbl> <chr>
## 1    NA <NA>     NA      NA      NA        NA      NA     NA      NA <NA> 
## 2    NA <NA>     NA      NA      NA        NA      NA     NA      NA <NA> 
## 3    NA <NA>     NA      NA     330        NA      NA     NA      NA <NA> 
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>

Precedemos a eliminar los datos duplicados de la data

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Tratamiento de Variables:


tipo: ya que tiene múltiples formas para llamar a un solo inmueble se determina cambiar todos los registros que digan Apartamento, APARTAMENTO o apto a “APARTAMENTO” y en caso de ser casa, Casa O CASA se cambiaran los registros por “CASA”

## 
## APARTAMENTO        CASA 
##        5099        3220

Este es el resultado de los nuevos valores de la tabla para la variable tipo


Barrio: esta variable tiene caracteres especiales que deben ser modificados y procederemos a quitar tildes a todos los nombres de los barrios y los caracteres especiales ,además que hay muchos barrios escritos de diferentes formas

## 
##                   20 de julio                    3 de julio 
##                             3                             1 
##                         acopi                    aguablanca 
##                           158                            25 
##                     aguacatal                       alameda 
##                           109                            16 
##               alameda del rio                alameda del ro 
##                             1                             2 
##                        alamos                      alborada 
##                            14                             1 
##                     alcazares                  alferez real 
##                             2                             2 
##                 alfonso lopez                   alfrez real 
##                             1                             5 
##                    alto jordn            altos de guadalupe 
##                             1                             4 
##                altos de menga                altos de santa 
##                             3                             1 
##                 antonio nario                      aranjuez 
##                             2                            15 
##                      arboleda arboleda campestre candelaria 
##                             5                             1 
##                     arboledas             atanasio girardot 
##                            38                             9 
##                 autopista sur                bajo aguacatal 
##                             1                             1 
##                  barranquilla             barrio 7de agosto 
##                             6                             1 
##            barrio el recuerdo             barrio eucarstico 
##                             1                             1 
##                 barrio obrero            barrio tranquilo y 
##                             1                             1 
##                     base area                    belalcazar 
##                             2                             4 
##             belisario caicedo                   bella suiza 
##                             2                            18 
##              bella suiza alta                    bellavista 
##                             4                            43 
##              benjamin herrera                        berlin 
##                             8                             1 
##           bloques del limonar                     bochalema 
##                             1                            33 
##                   bolivariano           bosques de alboleda 
##                             1                             1 
##           bosques del limonar                         boyac 
##                            21                             1 
##                        bretaa           brisas de guadalupe 
##                            16                             1 
##                 brisas de los            brisas del guabito 
##                            82                             1 
##            brisas del limonar                  bueno madrid 
##                             1                             1 
##                  buenos aires                    caasgordas 
##                             7                             7 
##                   caaveralejo                    caaverales 
##                            12                            22 
##                        caldas                          cali 
##                             1                            37 
##                     calibella                     calicanto 
##                             2                            10 
##                        calima                 calimio norte 
##                             6                             5 
##                       calipso                      cambulos 
##                            11                             3 
##                   camino real                     campestre 
##                            36                             1 
##                         caney                         capri 
##                            93                            56 
##                      cascajal                   cataya real 
##                             1                             1 
##                        ceibas                      centelsa 
##                             1                             1 
##                    centenario                        centro 
##                            16                             4 
##               cerro cristales           cerros de guadalupe 
##                            22                             1 
##                    champagnat                     chapinero 
##                            14                             7 
##                   chiminangos           chiminangos 1 etapa 
##                            18                             1 
##           chiminangos 2 etapa                    chipichape 
##                             2                            30 
##                   ciudad 2000             ciudad antejardin 
##                            96                             1 
##              ciudad bochalema                  ciudad capri 
##                            48                            13 
##                ciudad cordoba                ciudad country 
##                            20                             1 
##                 ciudad crdoba       ciudad crdoba reservado 
##                            15                             1 
##              ciudad del campo                 ciudad jardin 
##                             1                           540 
##           ciudad jardin pance             ciudad los alamos 
##                             1                            26 
##               ciudad melendez                 ciudad modelo 
##                             3                             7 
##               ciudad pacifica                   ciudad real 
##                             3                             3 
##                ciudad talanga          ciudad universitaria 
##                             1                             1 
##            ciudadela comfandi              ciudadela del ro 
##                            17                             1 
##           ciudadela pasoancho              colinas de menga 
##                            22                             3 
##            colinas del bosque               colinas del sur 
##                             1                             8 
##                         colon                    colseguros 
##                             1                            44 
##              colseguros andes                    comfenalco 
##                             5                             1 
##                     compartir            conjunto gibraltar 
##                             1                             1 
##                     cristales               cristobal colon 
##                            83                            16 
##               cuarto de legua                 departamental 
##                            44                            29 
##           ed benjamin herrera                     el bosque 
##                             1                            50 
##                      el caney                   el castillo 
##                           209                             6 
##                      el cedro                   el diamante 
##                             8                             2 
##                     el dorado               el gran limonar 
##                             6                             8 
##                     el guabal                    el guabito 
##                            19                             1 
##                    el ingenio                  el ingenio i 
##                           203                            19 
##                 el ingenio ii                el ingenio iii 
##                            21                            21 
##                      el jardn                      el jordn 
##                            15                             1 
##                       el lido                    el limonar 
##                            59                           135 
##                   el nacional                     el paraso 
##                             1                             3 
##                       el peon                      el prado 
##                            60                             2 
##                    el refugio                      el rodeo 
##                           120                             1 
##                       el sena                      el trbol 
##                             1                             5 
##                    el troncal                    el vallado 
##                            19                             1 
##                    eucarstico                evaristo garca 
##                             2                             2 
##          farrallones de pance               fenalco kennedy 
##                             1                             1 
##                       fepicol                         flora 
##                             1                             1 
##              flora industrial                      floralia 
##                            16                             6 
##                  fonaviemcali      francisco eladio ramirez 
##                             1                             1 
##                 fuentes de la                        gaitan 
##                             1                             1 
##                  gran limonar                       granada 
##                            24                            15 
##                     guadalupe                guadalupe alto 
##                            21                             1 
##                     guaduales                     guayaquil 
##                             2                            16 
##         hacienda alferez real                       ingenio 
##                             1                             1 
##                     ingenio i                    ingenio ii 
##                             1                             1 
##                       jamundi             jamundi alfaguara 
##                             4                             1 
##           jorge eliecer gaitn                  jorge isaacs 
##                             1                             1 
##          jose manuel marroqun                       juanamb 
##                             1                            53 
##                      juanambu                         junin 
##                             2                            24 
##                   la alborada                    la alianza 
##                             5                             5 
##                   la arboleda                       la base 
##                            18                            15 
##                   la buitrera                     la campia 
##                             3                            13 
##                    la cascada                     la ceibas 
##                             7                             1 
##                  la esmeralda                      la flora 
##                             1                           368 
##                   la floresta                  la fortaleza 
##                            18                             4 
##              la gran colombia                   la hacienda 
##                             1                           166 
##              la independencia                   la libertad 
##                            12                             2 
##                      la luisa                     la merced 
##                             1                            26 
##                     la morada                 la nueva base 
##                             1                             8 
##                      la playa                 la portada al 
##                             1                             1 
##                  la primavera                    la reforma 
##                             1                             1 
##                     la rivera                   la rivera i 
##                            11                             2 
##                  la rivera ii                   la riverita 
##                             2                             1 
##                    la riviera                      la selva 
##                             1                            11 
##                  la villa del                       laflora 
##                             1                             1 
##           lares de comfenalco                   las acacias 
##                             1                            12 
##                   las amricas                  las camelias 
##                             3                             1 
##                    las ceibas                  las delicias 
##                            23                             5 
##                   las granjas                las quintas de 
##                            10                             1 
##                     las vegas                  las vegas de 
##                             1                             1 
##                  libertadores                    los alamos 
##                             3                             1 
##                 los alcazares                  los alczares 
##                            17                             5 
##                     los andes                  los cambulos 
##                            21                            25 
##                   los cmbulos                 los cristales 
##                             6                           154 
##            los cristales club                los farallones 
##                             1                             4 
##                 los guaduales                los guayacanes 
##                            26                             3 
##                   los jockeys              los libertadores 
##                             1                             4 
##      los parques barranquilla                    los robles 
##                             6                             1 
##                       lourdes                      mamellan 
##                             2                             1 
##                    manzanares                 mariano ramos 
##                             5                             1 
##                  marroqun iii             mayapan las vegas 
##                             1                            46 
##                      melendez                       melndez 
##                            52                            23 
##                         menga       metropolitano del norte 
##                            23                            21 
##         miradol del aguacatal                    miraflores 
##                             1                            26 
##          morichal de comfandi                   multicentro 
##                             3                            27 
##                     municipal                       napoles 
##                             3                             2 
##                      normanda           normanda west point 
##                           154                             1 
##                     normandia                         norte 
##                             5                             9 
##                norte la flora                        npoles 
##                             1                            29 
##                    nueva base                nueva floresta 
##                             1                            15 
##              nueva tequendama             oasis de comfandi 
##                            73                             6 
##            oasis de pasoancho                     occidente 
##                             1                            11 
##                         pacar                        pacara 
##                             4                            19 
##            palmas del ingenio                   pampa linda 
##                             1                            26 
##                    pampalinda                  panamericano 
##                            12                             9 
##                         pance           parcelaciones pance 
##                           412                            61 
##         parque residencial el                  paseo de los 
##                             1                             2 
##             paso del comercio                     pasoancho 
##                             6                             6 
##             poblado campestre                         ponce 
##                             2                             1 
##                       popular           portada de comfandi 
##                             6                             2 
##          portales de comfandi                      porvenir 
##                             1                             3 
##             prados de oriente            prados del limonar 
##                             6                            21 
##              prados del norte                prados del sur 
##                           127                             2 
##                     primavera               primero de mayo 
##                             2                            37 
##              primitivo crespo           puente del comercio 
##                             3                             6 
##                  puente palma                quintas de don 
##                             1                            73 
##            quintas de salomia            rafael uribe uribe 
##                             4                             1 
##                       refugio            repblica de israel 
##                             2                             1 
##              rincn de salomia                  rincon de la 
##                             1                             1 
##             riveras del valle                 rozo la torre 
##                             1                             1 
##              saavedra galindo                       salomia 
##                             4                            40 
##                       samanes          samanes de guadalupe 
##                             1                             1 
##                        sameco                   san antonio 
##                             1                            24 
##                     san bosco                    san carlos 
##                             8                             4 
##                  san cayetano                  san fernando 
##                             9                            55 
##            san fernando nuevo            san fernando viejo 
##                            10                            18 
##                   san joaquin                    san joaqun 
##                             4                            16 
##                san juan bosco                     san judas 
##                             7                             1 
##               san judas tadeo                      san luis 
##                             2                             3 
##                   san nicolas                     san pedro 
##                             2                             3 
##                   san vicente                         santa 
##                            48                             1 
##                   santa anita               santa anita sur 
##                            50                             1 
##                  santa brbara                   santa elena 
##                             3                            10 
##                      santa fe               santa helena de 
##                             8                             1 
##                  santa isabel                   santa mnica 
##                            64                             3 
##              santa mnica alta           santa mnica popular 
##                             1                             7 
##       santa mnica residencial                  santa monica 
##                            39                            52 
##            santa monica norte          santa monica popular 
##                             2                             2 
##      santa monica residencial                    santa rita 
##                             5                            45 
##                    santa rosa                santa teresita 
##                             1                           263 
##                       santafe                     santander 
##                             1                             1 
##                 santo domingo              sector aguacatal 
##                             6                             1 
##  sector caaveralejo guadalupe                     seminario 
##                             2                            32 
##           sierras de normanda               siete de agosto 
##                             1                             8 
##                  simn bolivar                    Sin barrio 
##                             1                           153 
##             tejares cristales                tejares de san 
##                             4                            14 
##                      templete                    tequendama 
##                             4                            44 
##                    tequendema                terrn colorado 
##                             1                             1 
##            torres de comfandi                unicentro cali 
##                            57                             1 
##              unin de vivienda      urbanizacin barranquilla 
##                             3                             4 
##             urbanizacin boyac        urbanizacin colseguros 
##                             1                             3 
##          urbanizacin la flora         urbanizacin la merced 
##                            83                             4 
##          urbanizacin la nueva      urbanizacin las cascadas 
##                             4                             1 
##     urbanizacin nueva granada            urbanizacin pacara 
##                             3                             1 
##           urbanizacin ro lili       urbanizacin san joaquin 
##                             5                             4 
##        urbanizacin tequendama         urbanizacion el saman 
##                             7                             1 
##        urbanizacion gratamira             urbanizacion lili 
##                             1                             2 
##                valle del lili                  valle grande 
##                          1010                             1 
##                     versalles                villa colombia 
##                            71                             6 
##             villa de veracruz                villa del lago 
##                             6                            10 
##              villa del parque               villa del prado 
##                             1                            52 
##                 villa del sol                 villa del sur 
##                            25                             5 
##            villas de veracruz                        vipasa 
##                             9                            32

cómo podemos observar quedaron limpios los nombres de los barrios
id : debido a que es un id no se toma ya que no se ve como variable objetivo para el análisis.
las variables zona, estrato, presiom , areaconst , longitud, latitud : luego del proceso de eliminación de los nulos en el id esta variable queda sin nulos y con valores bien estructurados , por lo que no se hace ninguna modificación
parquea: posee una gran cantidad de nulos y como vemos una relación directa entre estrato y numero de parqueaderos tal y como se muestra en la siguiente tabla:

## [1] "la moda de parquederos en el estrato 3 para casas es: 1"
## [1] "la moda de parquederos en el estrato 3 para aparamento es: 1"
## [1] "la moda de parquederos en el estrato 4 para casas es: 1"
## [1] "la moda de parquederos en el estrato 4 para aparamento es: 1"
## [1] "la moda de parquederos en el estrato 5 para casas es: 2"
## [1] "la moda de parquederos en el estrato 5 para aparamento es: 1"
## [1] "la moda de parquederos en el estrato 6 para casas es: 2"
## [1] "la moda de parquederos en el estrato 6 para aparamento es: 2"

teniendo en cuenta lo anterior colocaremos la moda para cada estrato en parqueaderos es decir el que más se repite por estrato


banios: se valida el número de baños del inmueble que aparecen sin baños y se determina llevar a cabo dos procesos en el caso de los registros que poseen cero baños colocaremos el valor que más se repite por tipo de inmueble y estrato, para este momento tenemos la siguiente distribución

##      estrato
## Banos    3    4    5    6
##    0    15    9   13    8
##    1   359   93   35    9
##    2   623 1187  941  195
##    3   208  444  897  444
##    4   135  232  492  597
##    5    68  100  249  473
##    6    27   40   61  186
##    7     4    9   39   55
##    8     8   11   15   14
##    9     3    2    5    5
##    10    3    2    3    1
## [1] "la moda de baños en el estrato 3 para casas es: 2"
## [1] "la moda de baños en el estrato 3 para aparamento es: 2"
## [1] "la moda de baños en el estrato 4 para casas es: 3"
## [1] "la moda de baños en el estrato 4 para aparamento es: 2"
## [1] "la moda de baños en el estrato 5 para casas es: 4"
## [1] "la moda de baños en el estrato 5 para aparamento es: 2"
## [1] "la moda de baños en el estrato 6 para casas es: 5"
## [1] "la moda de baños en el estrato 6 para aparamento es: 4"

ahora procederemos a reemplazar los datos con los datos existentes

##      estratos
## baños    3    4    5    6
##    1   359   93   35    9
##    2   623 1187  941  195
##    3   223  447  903  444
##    4   135  238  492  597
##    5    68  100  256  481
##    6    27   40   61  186
##    7     4    9   39   55
##    8     8   11   15   14
##    9     3    2    5    5
##    10    3    2    3    1

así quedaron la distribución de baños


habitac: se valida el número de habitaciones del inmueble que aparecen sin baños y se determina que se colocara el valor de moda teniendo en cuenta el tipo e inmueble y el estrato

##             estratos
## habitaciones    3    4    5    6
##           0    21   22   17    6
##           1    10    7   26   16
##           2   140  389  257  140
##           3   681 1101 1400  915
##           4   183  326  580  640
##           5   111  124  255  189
##           6    92   61  114   51
##           7    76   38   44   15
##           8    72   36   25    5
##           9    49   13   14    7
##           10   18   12   18    3

así se encuentran la distribución de habitaciones en la base, como podemos observar hay valores en ceros


## [1] "la moda de habitaciones en el estrato 3 para casas es: 3"
## [1] "la moda de habitaciones en el estrato 3 para aparamento es: 3"
## [1] "la moda de habitaciones en el estrato 4 para casas es: 4"
## [1] "la moda de habitaciones en el estrato 4 para aparamento es: 3"
## [1] "la moda de habitaciones en el estrato 5 para casas es: 4"
## [1] "la moda de habitaciones en el estrato 5 para aparamento es: 3"
## [1] "la moda de habitaciones en el estrato 6 para casas es: 4"
## [1] "la moda de habitaciones en el estrato 6 para aparamento es: 3"
##             estratos
## habitaciones    3    4    5    6
##           1    10    7   26   16
##           2   140  389  257  140
##           3   681 1101 1400  918
##           4   204  333  589  643
##           5   111  139  263  189
##           6    92   61  114   51
##           7    76   38   44   15
##           8    72   36   25    5
##           9    49   13   14    7
##           10   18   12   18    3

de esta manera quedaron los datos que estaban en ceros de la variable habitaciones


piso: la variable piso es otra variable que tiene bastantes datos faltantes por lo cual generaremos la moda para cada tipo de inmueble y estrato y se lo asignaremos como valor por defecto

## [1] "la moda de pisos en el estrato 3 para casas es: 2"
## [1] "la moda de pisos en el estrato 3 para aparamento es: 5"
## [1] "la moda de pisos en el estrato 4 para casas es: 2"
## [1] "la moda de pisos en el estrato 4 para aparamento es: 5"
## [1] "la moda de pisos en el estrato 5 para casas es: 2"
## [1] "la moda de pisos en el estrato 5 para aparamento es: 3"
## [1] "la moda de pisos en el estrato 6 para casas es: 2"
## [1] "la moda de pisos en el estrato 6 para aparamento es: 3"


después de realizado todo el proceso de eliminación de nulos la base final se ve así

## # A tibble: 13 × 3
##    variable  n_miss pct_miss
##    <chr>      <int>    <dbl>
##  1 id             0        0
##  2 zona           0        0
##  3 piso           0        0
##  4 estrato        0        0
##  5 preciom        0        0
##  6 areaconst      0        0
##  7 parquea        0        0
##  8 banios         0        0
##  9 habitac        0        0
## 10 tipo           0        0
## 11 barrio         0        0
## 12 longitud       0        0
## 13 latitud        0        0

4. Graficas y Analasis

En Esta parte generaremos las gráficas y tablas necesarias para entender la data que poseemos de la empresa B&C, para lo cual crearemos por medio de Código R, una serie de Tablas y Graficas que permitan entender de manera más fácil el comportamiento del mercado de Viviendas en Cali

4.1. Generación de Tablas y Analisis de Tablas

la siguiente tabla representa la cantidad de casas por zona y por tipo de inmueble

##               Tipo_inmueble
## zona           APARTAMENTO CASA
##   Zona Centro           24  100
##   Zona Norte          1198  722
##   Zona Oeste          1029  169
##   Zona Oriente          62  289
##   Zona Sur            2786 1940

Como pòdemos darnos cuenta en la tabla anterior se evidencia una alta venta de apartamentos ens las zonas Norte, Oeste y Sur, mientras que las casas tiene una tendiencia fuerte hacia la zona Sur y Norte ,pero esta utlima Tiene mas de un 50% de diferenvcia con la zona Sur

la siguiente tabla representa la cantidad de casas por zona y por máxima cantidad de habitaciones

##               habitaaciones
## zona              1    2    3    4    5    6    7    8    9   10
##   Zona Centro     3   12   28   22   20   11    9    8    7    4
##   Zona Norte     17  220 1009  357  159   60   42   29   14   13
##   Zona Oeste     16  173  623  277   66   22    6    5    6    4
##   Zona Oriente    2   31   89   58   34   42   31   32   26    6
##   Zona Sur       21  490 2351 1055  423  183   85   64   30   24

Como podemos ver en la anterior tabla existe una tendencia marcada a los inmebles con 3 o 4 habitaciones, ademas de tenner una tendencia mas marcada hacia 3 habitaciones en caso de las Zona Norte y Sur, cabe resaltar que la zona oriente tiene una dispersion mas amplia en caso de numero de habitaciones

la siguiente tabla representa la cantidad de casas por tipo y por estrato

##              estrato
## Tipo_inmueble    3    4    5    6
##   APARTAMENTO  639 1403 1766 1291
##   CASA         814  726  984  696

Como pudimos observar en la anterior tabla el estrao predominante en casa es el estrato 5 pero con una leve diferencia con el estrato 3, aunque cabe resaltar que la dispersion de los datos no es mucha entre los diferentes estratos para los inmuebles (casas), mientras que los aparatmanetos tienen menos representacion en estratos 3 a difetrencia de los otros estratos

la siguiente tabla representa los precios por intervalos que se maneja en la base para lo cual utilizaremos la rutina de sturges

## [1] "los segmentos para el precio son: 15"
##                      tipo
## rango_precios         APARTAMENTO CASA
##   (56.1,187]                 1403  250
##   (187,317]                  1609  633
##   (317,446]                   860  795
##   (446,576]                   367  517
##   (576,705]                   348  304
##   (705,834]                   113  173
##   (834,964]                   130  183
##   (964,1.09e+03]               55   50
##   (1.09e+03,1.22e+03]          75   98
##   (1.22e+03,1.35e+03]          58   63
##   (1.35e+03,1.48e+03]          30   41
##   (1.48e+03,1.61e+03]          23   51
##   (1.61e+03,1.74e+03]           5   28
##   (1.74e+03,1.87e+03]          20   21
##   (1.87e+03,2e+03]              3   13

La anterior tabla muestra los rangos de precios que se manejan para los inmuebles, para los aparatamentos los precios rondan hasta los 317 millones, mientras que las casas llegan hasta precios de 576 millones

la siguiente tabla representa el área del inmueble por intervalos que se maneja en la base para lo cual utilizaremos la rutina de sturges

## [1] "los segmentos para el área Construida son: 15"
##                      TipoInmueble
## rango_area            APARTAMENTO CASA
##   (28.3,144]                 4074  683
##   (144,259]                   792 1119
##   (259,373]                   185  749
##   (373,487]                    35  382
##   (487,602]                    10  160
##   (602,716]                     2   44
##   (716,830]                     0   36
##   (830,945]                     1   19
##   (945,1.06e+03]                0   14
##   (1.06e+03,1.17e+03]           0    3
##   (1.17e+03,1.29e+03]           0    4
##   (1.29e+03,1.4e+03]            0    1
##   (1.4e+03,1.52e+03]            0    3
##   (1.52e+03,1.63e+03]           0    2
##   (1.63e+03,1.75e+03]           0    1
##                      estrato
## rango_area               3    4    5    6
##   (28.3,144]           932 1559 1680  586
##   (144,259]            334  310  545  722
##   (259,373]            126  168  284  356
##   (373,487]             38   60  144  175
##   (487,602]             17   23   59   71
##   (602,716]              2    2   13   29
##   (716,830]              0    6   13   17
##   (830,945]              1    0    8   11
##   (945,1.06e+03]         0    1    1   12
##   (1.06e+03,1.17e+03]    0    0    0    3
##   (1.17e+03,1.29e+03]    0    0    3    1
##   (1.29e+03,1.4e+03]     1    0    0    0
##   (1.4e+03,1.52e+03]     1    0    0    2
##   (1.52e+03,1.63e+03]    0    0    0    2
##   (1.63e+03,1.75e+03]    1    0    0    0

Por otro lado queriamos ver en la anteriro tabla la maxima area que se quiere en terminos de inmuebles y encontramos los siguientes hallazgos:
1. los aparatamentos tienes un area maxima de 144 metros cuadrados
2. las casas tienen un area masima de 373 metros cuadrados pero existe una fuerte tendencia hacia los 259 metros cuadrados

la siguiente tabla representa el número de parqueaderos por estrato

##             estrato
## parqueaderos    3    4    5    6
##           1  1326 1726 1313  154
##           2    93  317 1151 1152
##           3    19   50  136  315
##           4    10   23  100  251
##           5     1    4   27   36
##           6     3    4   13   48
##           7     0    2    5   11
##           8     0    0    3   14
##           9     0    1    1    2
##           10    1    2    1    4

Esto tambien lo quisimos visualizar desde el aspecto de los estratos encontrando que :
1. los estratos 3,4 y 5 prefieren hasta 144 metros cuadrados
2. mientras que el estrato 6 tiene una pequeña tendencia hascia los 259 metros cuadrados

la siguiente tabla representa el número de parqueaderos por zona

##             estrato
## parqueaderos Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
##           1          108       1253        259          309     2590
##           2           12        525        689           29     1458
##           3            0         69        166            8      277
##           4            2         46         68            3      265
##           5            0         11          8            1       48
##           6            2          8          6            1       51
##           7            0          5          2            0       11
##           8            0          1          0            0       16
##           9            0          1          0            0        3
##           10           0          1          0            0        7

la anterior tabla nos muestra la distribucion de preferencia de parqueaderos en los diferentes inmuebles y de la cual podemos deducir lo siguiente:
1. las Zonas Norte y Sur tienen una tendencia marcada por uno o dos parquederos
2. la zona oeste tiene la misma tendencia que la anteriores zonas pero con una fuerte tendencia mas hacia Dos parquederos
3. mientras que la zona Oriente y Centro la cantidad de parquederos no es muy representativa a comparacion de las demas zonas mientras que la zona oriente

4.2. Generación de Graficas y Analisis

lo primero como análisis es dar una gráfica de los tipos de imbeles que hay en cali:

Como lo pudimos tambien observar en las tablas , se ve en la anterior grafica una fuerte tendencia hacia uno o dos parqueaderos en los diferentes tipos de inmuebles

Ademas que el inmueble favorito por excelencia son los apratamentos con una tendencia muy marcada ante las casas

La anterior grafica nos muestra que hay una una mayor frecuencia de inmubles en los estratos 4,5 y 6, hay una tendencia hacia la derecha

Ademas tenemos que la zona Sur es la que posee la mayor cantidad de inmuebles y por ende es la zona preferida de los usaurios para la adquisision de un inmueble, preferiblemente apartamentos

Todas las anterios Graficas y tablas permiten poder generar los respectivos respultados que veremos el la siguiente seccion de Resultados (seccion 5)

5. Resultados

Este documento permite llegar a los siguientes resultados generados de la información analizada en cada una de las anteriores graficas:

el primer resultado que podemos encontrar que la gente prefiere los apartamentos en contra de las casas , esto solo difiere en la zona oriente y en la zona centro donde las personas prefieren una casa antes que un apartamento
el segundo resultado es que las personas prefieren inmuebles que tengan entre 3 y 4 habitaciones
el tercer resultado encontrado demuestra que en los estratos 3 hay una preferencia casi equitativa entre casas y apartamentos , mientras que en los estratos 4, 5 y 6 hay una tendencia marcada hacia los aparamentos
el cuarto resultado encontrado demuestra que las personas prefieren casas con un valor máximo de 576 millones y los apartamentos se buscan más precios hasta 317 millones
el quinto resultado encontrado demuestra que los usuarios buscan tanto en casas como en apartamentos un máximo de área construida de 144 metros para los apartamentos y para las casas hasta 373 metros cuadrados
el sexto resultado encontrado demuestra que la mayoría de estratos (estratos 3,4,5) solicitan más inmuebles con 1 parqueadero, mientras que el estrato 6 tiene una fuerte tendencia hacia los inmuebles con 2 parquederos y el estrato 5 prefiere entre 1 y dos parquederos
el séptimo resultado encontrado no demuestra que la gran mayoría de inmueble están ubicados en estrato 5
el octavo resultado encontrado demuestra que la distribución de los inmuebles se ubica en su mayoría en la zona sur de la ciudad de cali
• todo lo anterior nos permite tener una descripción básica de los inmuebles , ubicaciones y mercado de los inmuebles de la ciudad de cali

6. Discusión

Este Documento permite inferir que el nicho de mercado el cual se trabajó para esta base de datos son en su mayoría apartamentos y de preferencia en zonas que no sean la son oriente o centro, con por lo menos 3 o cuatro habitaciones y con un costo máximo de 317 millones y un área construida máxima de 144.

Es claro que el sector de casa es también muy requerido pero se ven más en el estrato 3 con un costo máximo de 576 millones y un área construida de 373 metros.

Es por este motivo que consideramos que el mercado de casa es un mercado por explotación a nivel de la ciudad de Cali.

Es claro que este documento también deja abierta la posibilidad de otros análisis debido a que hay zonas como la oriente y centro que no prefieren casas y sería interesante poder validar las razones económico-sociales que llevan a esta tendencia

7. Conclusiones

cómo nos pudimos dar cuenta a lo largo de las tablas y gráficas, se puede llegar a las siguientes conclusiones:
limpieza: el proceso de limpieza puede llevar hasta un 40% del trabajo realizado
resultado: el documento permite ver de una manera descriptiva las variables y en algunos casos poder realizar una determinación de comportamiento entre dos variables
densidad: la mayoría de los inmuebles fueron apartamentos y una posible zona a tener mayor impacto es la centro y oriente en apartamentos ya que sus números son bajos, se podría realizar un análisis más profundo sobre estas zonas
resultados: se obtuvieron una serie de resultados que pueden ser visualizados en la sección 5 de resultados y los cuales permiten ver un corto y breve análisis descriptivo de la base de inmuebles de la compañía B&C

8. Anexos

los docigos usuados para este reporte fueron :

library(paqueteMET)
library(naniar)

data(vivienda_faltantes)
Faltantes = gg_miss_var(vivienda_faltantes, show_pct=TRUE)
Faltantes 
#faltantesporcen=n_miss(vivienda_faltantes$id)
faltantesVar = naniar::miss_var_summary(vivienda_faltantes)
faltantesVar
#subset de datos sin data
tr = subset(vivienda_faltantes,  is.na(vivienda_faltantes$id))
tr
# filtramos estos datos para dejar una data limpia
BaseLimpia = subset( vivienda_faltantes, !is.na(vivienda_faltantes$id))
library(dplyr)
BaseLimpia = distinct(BaseLimpia)
#creamos el vector de casa
col_modi =c ("tipo")
casa = c("casa", "Casa", "CASA")
#creamos el vector de Aparamento
apartamento= c("Apartamento", "APARTAMENTO", "apto")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% casa, "CASA"))
#modificamos las diferentes variables de apartamento
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% apartamento, "APARTAMENTO"))
tabla= table(BaseLimpia$tipo)
tabla
#quitamos caracteres con tildes
BaseLimpia$barrio=iconv(BaseLimpia$barrio, 'utf-8','ascii', sub = '')
#quitamos caracteres mayusculas
BaseLimpia$barrio=tolower(BaseLimpia$barrio)
#quitamos parecidos
col_modi =c ("barrio")
barrio = c("agua blanca","alfonso lpez","alfonso lpez i")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "aguablanca"))

barrio = c("alfonso lpez","alfonso lpez i")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "alfonso lopez"))

barrio = c("benjamn herrera")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "benjamin herrera"))

barrio = c("caaverales los samanes")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "caaverales"))

barrio = c("cali bella")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "calibella"))

barrio = c("cali canto","calicanto viii")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "calicanto"))

barrio = c("caney especial")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "caney"))

barrio = c("ciudad jardn")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudad jardin"))

barrio = c("ciudad los lamos")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudad los alamos"))

barrio = c("ciudad melndez","ciudadela melendez")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudad melendez"))

barrio = c("ciudadela paso ancho")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "ciudadela pasoancho"))

barrio = c("cristbal coln","cristobal coln")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "cristobal colon"))

barrio = c("el ingenio 3")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "el ingenio iii"))

barrio = c("junn")
#modificamos las diferentes variables de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "junin"))

barrio = c("valle de lili")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "valle del lili"))

barrio = c("san lus")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "san luis"))

barrio = c("san nicols")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "san nicolas"))

#arreglamos las zonas y las agrupamos en uno sin barrio
barrio = c("zona oriente","zona residencial","zona sur","zona oeste","zona norte los","zona norte","zona centro")
#modificamos las diferentes variabbles de casa
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x,x %in% barrio, "Sin barrio"))

tabla1= table(BaseLimpia$barrio, exclude = NULL)
tabla1
## este es para el estrato 3
estrato3_casa = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato3_apartamento = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato3_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato3_apartamento$parquea))
modacasa3 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento3 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
# imprimimos la moda
paste("la moda de parquederos en el estrato 3 para casas es:",modacasa3)
paste("la moda de parquederos en el estrato 3 para aparamento es:",modaapartamento3)
## este es para el estrato 4
estrato4_casa = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato4_apartamento = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="APARTAMENTO"& !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato4_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato4_apartamento$parquea))
modacasa4 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento4 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
paste("la moda de parquederos en el estrato 4 para casas es:",modacasa4)
paste("la moda de parquederos en el estrato 4 para aparamento es:",modaapartamento4)
## este es para el estrato 5
estrato5_casa = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato5_apartamento = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="APARTAMENTO"& !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato5_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato5_apartamento$parquea))
modacasa5 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento5 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
paste("la moda de parquederos en el estrato 5 para casas es:",modacasa5)
paste("la moda de parquederos en el estrato 5 para aparamento es:",modaapartamento5)
## este es para el estrato 6
estrato6_casa = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$parquea))
estrato6_apartamento = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="APARTAMENTO"& !is.na(BaseLimpia$parquea))
frecuencia_casa = data.frame(table(estrato6_casa$parquea))
frecuencia_apartamento = data.frame(table(estrato6_apartamento$parquea))
modacasa6 = frecuencia_casa[which.max(frecuencia_casa$Freq),1]
modaapartamento6 = frecuencia_apartamento[which.max(frecuencia_apartamento$Freq),1]
paste("la moda de parquederos en el estrato 6 para casas es:",modacasa6)
paste("la moda de parquederos en el estrato 6 para aparamento es:",modaapartamento6)
#reemplazamos los valores nulos teniendo en cuenta las variables de estrato y tipo de inmueble
#generamos el código de ejecución

col_modi="parquea"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="CASA"), modacasa3))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3))

#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="CASA"), modacasa4))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4))

#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="CASA"), modacasa5))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5))

#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="CASA"), modacasa6))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$parquea)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6))
col_modi="banios"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==3& BaseLimpia$tipo=="CASA"), modacasa3_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3_bano))

#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==4& BaseLimpia$tipo=="CASA"), modacasa4_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4_bano))

#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==5& BaseLimpia$tipo=="CASA"), modacasa5_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5_bano))

#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==6& BaseLimpia$tipo=="CASA"), modacasa6_bano))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$banios==0 & BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6_bano))

tabla1 = table(baños=BaseLimpia$banios, estratos=BaseLimpia$estrato)
tabla1
tabla1 = table(habitaciones=BaseLimpia$habitac, estratos=BaseLimpia$estrato)
tabla1
#calculo para estrato 3
estrato3_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato3_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato3_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato3_apartamento_habita$habitac))
modacasa3_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento3_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 3 para casas es:",modacasa3_habita)
paste("la moda de habitaciones en el estrato 3 para aparamento es:",modaapartamento3_habita)

#calculo para estrato 4
estrato4_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato4_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato4_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato4_apartamento_habita$habitac))
modacasa4_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento4_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 4 para casas es:",modacasa4_habita)
paste("la moda de habitaciones en el estrato 4 para aparamento es:",modaapartamento4_habita)

#calculo para estrato 5
estrato5_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato5_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato5_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato5_apartamento_habita$habitac))
modacasa5_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento5_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 5 para casas es:",modacasa5_habita)
paste("la moda de habitaciones en el estrato 5 para aparamento es:",modaapartamento5_habita)

#calculo para estrato 6
estrato6_casa_habita = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$habitac))
estrato6_apartamento_habita = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$habitac))
frecuencia_casa_habita = data.frame(table(estrato6_casa_habita$habitac))
frecuencia_apartamento_habita = data.frame(table(estrato6_apartamento_habita$habitac))
modacasa6_habita = frecuencia_casa_habita[which.max(frecuencia_casa_habita$Freq),1]
modaapartamento6_habita = frecuencia_apartamento_habita[which.max(frecuencia_apartamento_habita$Freq),1]
# imprimimos la moda
paste("la moda de habitaciones en el estrato 6 para casas es:",modacasa6_habita)
paste("la moda de habitaciones en el estrato 6 para aparamento es:",modaapartamento6_habita)

#cambiamos los valores por los definidos
col_modi="habitac"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==3& BaseLimpia$tipo=="CASA"), modacasa3_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3_habita))

#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==4& BaseLimpia$tipo=="CASA"), modacasa4_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4_habita))

#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==5& BaseLimpia$tipo=="CASA"), modacasa5_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5_habita))

#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==6& BaseLimpia$tipo=="CASA"), modacasa6_habita))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (BaseLimpia$habitac==0 & BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6_habita))

tabla1 = table(habitaciones=BaseLimpia$habitac, estratos=BaseLimpia$estrato)
tabla1
  #calculo para estrato 3
estrato3_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato3_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==3&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato3_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato3_apartamento_piso$piso))
modacasa3_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento3_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 3 para casas es:",modacasa3_piso)
paste("la moda de pisos en el estrato 3 para aparamento es:",modaapartamento3_piso)

#calculo para estrato 4
estrato4_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato4_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==4&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato4_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato4_apartamento_piso$piso))
modacasa4_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento4_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 4 para casas es:",modacasa4_piso)
paste("la moda de pisos en el estrato 4 para aparamento es:",modaapartamento4_piso)

#calculo para estrato 5
estrato5_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato5_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==5&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato5_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato5_apartamento_piso$piso))
modacasa5_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento5_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 5 para casas es:",modacasa5_piso)
paste("la moda de pisos en el estrato 5 para aparamento es:",modaapartamento5_piso)

#calculo para estrato 6
estrato6_casa_piso = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="CASA"& !is.na(BaseLimpia$piso))
estrato6_apartamento_piso = subset(BaseLimpia, BaseLimpia$estrato==6&BaseLimpia$tipo=="APARTAMENTO" & !is.na(BaseLimpia$piso))
frecuencia_casa_piso = data.frame(table(estrato6_casa_piso$piso))
frecuencia_apartamento_piso = data.frame(table(estrato6_apartamento_piso$piso))
modacasa6_piso = frecuencia_casa_piso[which.max(frecuencia_casa_piso$Freq),1]
modaapartamento6_piso = frecuencia_apartamento_piso[which.max(frecuencia_apartamento_piso$Freq),1]
# imprimimos la moda
paste("la moda de pisos en el estrato 6 para casas es:",modacasa6_piso)
paste("la moda de pisos en el estrato 6 para aparamento es:",modaapartamento6_piso)

#### quitamos los valores nulos
col_modi="piso"
#Estrato 3
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="CASA"), modacasa3_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==3 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento3_piso))

#estrato4
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="CASA"), modacasa4_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==4 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento4_piso))

#estrato5
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="CASA"), modacasa5_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==5 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento5_piso))

#estrato6
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="CASA"), modacasa6_piso))
BaseLimpia[col_modi] = sapply(BaseLimpia[col_modi], function(x) replace(x, (is.na(BaseLimpia$piso)& BaseLimpia$estrato==6 & BaseLimpia$tipo=="APARTAMENTO"), modaapartamento6_piso))
faltantesVar = naniar::miss_var_summary(BaseLimpia)
faltantesVar
   tabla1= table(zona=BaseLimpia$zona, Tipo_inmueble=BaseLimpia$tipo)
   tabla1
   tabla1= table(zona= BaseLimpia$zona, habitaaciones=BaseLimpia$habitac)
   tabla1
   tabla1= table(Tipo_inmueble =BaseLimpia$tipo, estrato=BaseLimpia$estrato)
   tabla1
   segmentos = nclass.Sturges(BaseLimpia$preciom)
   intervalos = cut(BaseLimpia$preciom, breaks=segmentos)
   paste("los segmentos para el precio son:", segmentos)
   taba=table(rango_precios= intervalos)
   barplot(taba)
   tabla1 = table(rango_precios= intervalos, BaseLimpia$tipo)
   tabla1
   segmentos = nclass.Sturges(BaseLimpia$areaconst)
   intervalos = cut(BaseLimpia$areaconst, breaks=segmentos)
   paste("los segmentos para el área Construida son:", segmentos)
   tabla1 = table(rango_area=intervalos, TipoInmueble=BaseLimpia$tipo)
   tabla1
   tabla1 = table(rango_area=intervalos, estrato=BaseLimpia$estrato)
   tabla1
   tabla1 = table(parqueaderos= BaseLimpia$parquea, estrato=BaseLimpia$estrato)
   tabla1
   tabla1 = table(parqueaderos= BaseLimpia$parquea, estrato=BaseLimpia$zona)
   tabla1
tabla1=table(BaseLimpia$parquea)
barplot(tabla1, xlab="parqueadero", ylab="frecuencia absoluta", las=1)

tabla1=table(BaseLimpia$tipo)
#barplot(tabla1, xlab="tipo inmueble", ylab="frecuencia absoluta", las=1)
pct = round(tabla1/sum(tabla1)*100)
pie(tabla1)

tabla1= table(BaseLimpia$estrato)
barplot(tabla1, xlab="Estrato Socioeconómico", ylab="frecuencia absoluta", las=1)

tabla1= table(BaseLimpia$zona)
barplot(tabla1, xlab="Zona", ylab="frecuencia absoluta", las=1)

[1] C. Jorge, «Formación para el futuro de los negocios: ciencia de datos, IA e IoT,» Forbes, 22 febrero 2021. [En línea]. Available: https://forbescentroamerica.com/2021/02/22/formacion-para-el-futuro-de-los-negocios-ciencia-de-datos-ia-e-iot.