1. Introducción:

La estadística es una rama de las matemáticas que permite recopilar, organizar y analizar datos según la necesidad se presente. Actualmente aplicar estadística es de gran importancia para las compañías ya que permite generar valor al tener un mejor entendimiento, conocimiento y aprovechamiento de los datos, todo esto con el fin de extraer conocimiento, optimizar procesos, generar estrategias y tomar decisiones. Una de las formas más comunes de utilizar la estadística de las empresas es a través de la recolección de datos, fórmulas, algoritmos y otros procesos de datos que se realizan sobre variables y dan lugar a informaciones, las cuales al ser analizadas arrojan resultados, dichos resultados son presentados a través de un documento llamado informe estadístico. Para este trabajo, se presentará un informe estadístico de la empresa B&C (agencia de bienes raíces) con el fin de analizar información sobre el precio, la ubicación, las características y la venta de viviendas en Cali para que la empresa tome decisiones como la definición de su nicho de mercado y precios de venta, generación de estrategias de marketing y oferta de servicios personalizados a sus clientes. Es importante aclarar que el mercado de bienes raíces en la ciudad de Cali, Colombia ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios.

2.Objetivos:

• Presentar un informe estadístico de la empresa B&C para analizar información importante de las viviendas en Cali para la toma de decisiones y mejora de procesos. • Realizar un análisis descriptivo de los datos, para identificar las tendencias y patrones en los datos. • Entregar el informe en la plataforma RPulse, en la cuál se presentarán los elementos solicitados por la dirección de la empresa B&C.

3.Métodos:

Para iniciar el proceso de análisis de los datos, se presentará un reporte con el porcentaje de datos perdidos para cada una de las variables de la base de datos, así como un gráfico de agregación dónde se evidenciará la cantidad de valores que faltan en cada columna y la frecuencia en la que hacen falta varias variables simultáneamente.

## Skipping install of 'paqueteMET' from a github remote, the SHA1 (624823ee) has not changed since last install.
##   Use `force = TRUE` to force installation

3.1 Datos perdidos:

Reporte datos perdidos en porcentaje:

colMeans(is.na(vivienda_faltantes))#datos perdidos
##           id         zona         piso      estrato      preciom    areaconst 
## 0.0003601441 0.0003601441 0.3170468187 0.0003601441 0.0002400960 0.0003601441 
##      parquea       banios      habitac         tipo       barrio     longitud 
## 0.1927971188 0.0003601441 0.0003601441 0.0003601441 0.0003601441 0.0003601441 
##      latitud 
## 0.0003601441
## Loading required package: colorspace
## Loading required package: grid
## The legacy packages maptools, rgdal, and rgeos, underpinning the sp package,
## which was just loaded, will retire in October 2023.
## Please refer to R-spatial evolution reports for details, especially
## https://r-spatial.org/r/2023/05/15/evolution4.html.
## It may be desirable to make the sf package available;
## package maintainers should consider adding sf to Suggests:.
## The sp package is now running under evolution status 2
##      (status 2 uses the sf package in place of rgdal)
## VIM is ready to use.
## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues
## 
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
## 
##     sleep

Gráfico de agregación:

aggr(vivienda_faltantes)

3.1.1 Resultados:

• Se puede evidenciar que la mayoria de datos perdidos de las viviendas se encuentran en las variables piso y parqueaderos con un 31% y 19% respectivamente.

• Se puede inferir de estas estadisticas que el 31% de las viviendas que no cuentan con información de piso es debido a que no son viviendas de tipo apartamento, más adelante en este informe se dará la información referente a esta variable.

• El 19% de las viviendas que no cuentan con información de parqueaderos, se puede inferir que corresponden a las viviendas que no cuentan con ningun parqueadero, cabe aclarar que los nuevos proyectos de vivienda, más que todo de tipo VIS cuentan con parqueaderos comunales y no están en la obligación de brindar parqueadero individual a cada vivienda.

• En este caso, los análisis de todas las variables se realizarán con los datos que se encuentren vacios o que se consideren perdidos, ya que se evidencia que los dos campos con mayor cantidad (piso y parqueaderos), estan justificados en los items anteriores.

3.2 Variables cualitativas:

Para las variables cualitativas como zona dónde se encuentra la vivienda, tipo de vivienda y barrio de ubicación se generará una representación gráfica que permitirá analizar su comportamiento.

➜Zona de la vivienda:

Resumen de frecuencia

str(vivienda_faltantes$zona)
##  chr [1:8330] "Zona Oeste" "Zona Oeste" "Zona Oeste" "Zona Sur" ...
variable<-as.factor(vivienda_faltantes$zona)
zona <- table(variable); zona
## variable
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##          124         1922         1204          351         4726
zonas<-as.data.frame(zona); zonas
##       variable Freq
## 1  Zona Centro  124
## 2   Zona Norte 1922
## 3   Zona Oeste 1204
## 4 Zona Oriente  351
## 5     Zona Sur 4726
porcentajes <- prop.table(zona)
porcentaje <- as.data.frame(porcentajes); porcentaje
##       variable       Freq
## 1  Zona Centro 0.01489132
## 2   Zona Norte 0.23081542
## 3   Zona Oeste 0.14458989
## 4 Zona Oriente 0.04215204
## 5     Zona Sur 0.56755134
Tabla1 <- data.frame(zona, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Zona", "Frecuencia", "Porcentaje (%)")
Tabla1
##           Zona Frecuencia Porcentaje (%)
## 1  Zona Centro        124           1.49
## 2   Zona Norte       1922          23.08
## 3   Zona Oeste       1204          14.46
## 4 Zona Oriente        351           4.22
## 5     Zona Sur       4726          56.76
barplot(table(vivienda_faltantes$zona),
        main="Información de vivienda por zona",
        xlab="Zona",
        ylab="Cantidad de viviendas",
        border="blue",
        col="blue")

➜Tipo de vivienda:

v<- c(5109, 3212)  
labels<-c ("Apartamentos", "Casas")
pie(v,labels, main="Tipo de vivienda",border="yellow", col=rainbow(length(v)))

Cantidad de casas:

nrow(vivienda_faltantes[vivienda_faltantes$tipo == "CASA" | vivienda_faltantes$tipo == "casa" | vivienda_faltantes$tipo == "Casa",])
## [1] 3224
x<-3212
y<-8330
p<-100
z = x/y*p
print(paste("Los apartamentos equivalen al",z," %","del total de las viviendas"))
## [1] "Los apartamentos equivalen al 38.5594237695078  % del total de las viviendas"

Cantidad de apartamentos:

nrow(vivienda_faltantes[vivienda_faltantes$tipo == "Apartamento" | vivienda_faltantes$tipo == "APARTAMENTO" | vivienda_faltantes$tipo == "apto", ])
## [1] 5109
x<-5109
y<-8330
p<-100
z=x/y*p
print(paste("Los apartamentos equivalen al",z," %", "del total de las viviendas"))
## [1] "Los apartamentos equivalen al 61.3325330132053  % del total de las viviendas"
x<-5109
y<-8330
p<-100
z=x/y*p
print(paste("Los apartamentos equivalen al",z," %", "del total de las viviendas"))
## [1] "Los apartamentos equivalen al 61.3325330132053  % del total de las viviendas"

➜Barrio:

Top 10 barrios:

Por medio de este código se obtuvieron los 10 barrios con más cantidad de viviendas:

barplot(table(vivienda_faltantes$barrio), main="Barrio",
        xlab="Barrio",
        ylab="Cantidad de viviendas",
        border="blue",
        col="blue",
        density=10)

3.2.1 Resultados:

• Se puede evidenciar que las viviendas más vendidas se encuentran en la Zona Sur con un 56.76% de participación en el mercado, mientras que la Zona Centro es aquella en dónde menos se venden viviendas, ya que las viviendas ubicadas allí, solo equivalen a un 1.49%.

•El tipo de vivienda que más se vende en la ciudad de Cali son los apartamentos, puesto que equivalen a un 61.33% del total de las viviendas vendidas, mientras que las casas ocupan un 38.55%, esta cifra se relaciona con la variable piso en donde se evidenció que más de un 30% no presenta información. Con esto se puede inferir que menos del 1% de tipos de vivienda corresponden a otros tipos como lo pueden ser cuevas, puentes, carpas, vagones de tren, entre otros.

•Los barrios en dónde se encuentran la mayor cantidad de viviendas son Valle de Lili, Ciudad Jardin y Pance, los cuales ocupan un 12.11%, 6.20% y 4.91% rrspectivamente, por lo tanto se puede inferir que son los barrios con mayor crecimiento y oferta de Cali.

3.3 Variables cuantitativas:

Para las variables cuantitativas como piso dónde se encuentra la vivienda, estrato, precio en millones,area construida, número de parqueaderos, número de baños y número de habitaciones se calcularán la cantidad de valores nulos,los indicadores de centro (media y mediana) y los indicadores de dispersión (rango, varianza, desviación estándar y coeficiente de variación) y se mostrarán graficamente las variables con respecto al número de viviendas. Además se generán dos gráficas adicionales que mostrarán la relación entre las variables precio, estrato, habitaciones y baños.

➜Piso:

hist(vivienda_faltantes$piso,
     main="Piso",
     xlab="Piso",
     ylab="Cantidad de viviendas",
     border="blue",
     col="yellow",
     density=10)

Tabla de frecuencia:
str(vivienda_faltantes$piso)
##  num [1:8330] 4 1 NA 2 NA NA 2 NA NA 2 ...
variable<-as.factor(vivienda_faltantes$piso)
piso<-table(variable); piso
## variable
##    1    2    3    4    5    6    7    8    9   10   11   12 
##  861 1450 1097  607  568  245  207  211  146  130   84   83
pisos<-as.data.frame(piso); pisos
##    variable Freq
## 1         1  861
## 2         2 1450
## 3         3 1097
## 4         4  607
## 5         5  568
## 6         6  245
## 7         7  207
## 8         8  211
## 9         9  146
## 10       10  130
## 11       11   84
## 12       12   83
porcentajes <- prop.table(piso)
porcentaje <- as.data.frame(porcentajes); porcentaje
##    variable       Freq
## 1         1 0.15134470
## 2         2 0.25487783
## 3         3 0.19282827
## 4         4 0.10669713
## 5         5 0.09984180
## 6         6 0.04306557
## 7         7 0.03638601
## 8         8 0.03708912
## 9         9 0.02566356
## 10       10 0.02285112
## 11       11 0.01476534
## 12       12 0.01458956
Tabla1 <- data.frame(piso, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Piso", "Frecuencia", "Porcentaje (%)")
Tabla1
##    Piso Frecuencia Porcentaje (%)
## 1     1        861          15.13
## 2     2       1450          25.49
## 3     3       1097          19.28
## 4     4        607          10.67
## 5     5        568           9.98
## 6     6        245           4.31
## 7     7        207           3.64
## 8     8        211           3.71
## 9     9        146           2.57
## 10   10        130           2.29
## 11   11         84           1.48
## 12   12         83           1.46
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$piso))#cantidad datos nulos
## [1] 2641
Resumen de indicadores:

Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$piso)
##    vars    n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 5689 3.77 2.62      3    3.37 1.48   1  12    11 1.28     1.05 0.03
Varianza:
var(as.numeric(vivienda_faltantes$piso),na.rm=TRUE) #varianza
## [1] 6.838294
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$piso),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$piso),na.rm=TRUE)*100 #coeficiente de variación
## [1] 69.32021

➜Estrato:

pie(table(vivienda_faltantes$estrato),main="Estrato")

Tabla de frecuencia:  
str(vivienda_faltantes$estrato)
##  num [1:8330] 6 6 5 3 5 5 6 5 5 5 ...
variable<-as.factor(vivienda_faltantes$estrato)
estrato<-table(variable); estrato
## variable
##    3    4    5    6 
## 1453 2131 2751 1992
estratos<-as.data.frame(estrato); estratos
##   variable Freq
## 1        3 1453
## 2        4 2131
## 3        5 2751
## 4        6 1992
porcentajes <- prop.table(estrato)
porcentaje <- as.data.frame(porcentajes); porcentaje
##   variable      Freq
## 1        3 0.1744926
## 2        4 0.2559145
## 3        5 0.3303711
## 4        6 0.2392218
Tabla1 <- data.frame(estrato, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Estrato", "Frecuencia", "Porcentaje (%)")
Tabla1
##   Estrato Frecuencia Porcentaje (%)
## 1       3       1453          17.45
## 2       4       2131          25.59
## 3       5       2751          33.04
## 4       6       1992          23.92
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$estrato))#cantidad datos nulos
## [1] 3

Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$estrato)
##    vars    n mean   sd median trimmed  mad min max range  skew kurtosis   se
## X1    1 8327 4.63 1.03      5    4.67 1.48   3   6     3 -0.18    -1.11 0.01
Varianza:
var(as.numeric(vivienda_faltantes$estrato),na.rm=TRUE) #varianza
## [1] 1.059514
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$estrato),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$estrato),na.rm=TRUE)*100 #coeficiente de variación
## [1] 22.21095

➜Precio en millones:

hist(vivienda_faltantes$preciom,
     main="Precio en millones",
     xlab="Precio",
     ylab="Cantidad de viviendas",
     border="yellow",
     col="blue")

Cantidad datos nulos:
sum(is.na(vivienda_faltantes$preciom))#cantidad datos nulos
## [1] 2

Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$preciom)
##    vars    n   mean     sd median trimmed    mad min  max range skew kurtosis
## X1    1 8328 434.24 329.02    330  374.72 209.05  58 1999  1941 1.85     3.66
##      se
## X1 3.61
Varianza:
var(as.numeric(vivienda_faltantes$preciom),na.rm=TRUE) #varianza
## [1] 108251.3
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$preciom),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$preciom),na.rm=TRUE)*100 #coeficiente de variación
## [1] 75.76806
Relación precio vs Estrato:
plot(vivienda_faltantes$preciom,vivienda_faltantes$estrato, main="Relación precio vs Estrato",
     xlab="Precio",
     ylab="Estrato",
     col="red")

➜Área construida:

barplot(table(vivienda_faltantes$areaconst),
     main="Área construida",
     xlab="Área construida",
     ylab="Cantidad de viviendas",
     border="blue",
     density=10)

Cantidad datos nulos:
sum(is.na(vivienda_faltantes$areaconst))#cantidad datos nulos
## [1] 3

Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$areaconst)
##    vars    n   mean     sd median trimmed   mad min  max range skew kurtosis
## X1    1 8327 174.99 142.95    123  149.22 84.51  30 1745  1715 2.69     12.9
##      se
## X1 1.57
Varianza:
var(as.numeric(vivienda_faltantes$areaconst),na.rm=TRUE) #varianza
## [1] 20434.66
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$areaconst),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$areaconst),na.rm=TRUE)*100 #coeficiente de variación
## [1] 81.69142

➜Parqueaderos:

table(vivienda_faltantes$parquea)
## 
##    1    2    3    4    5    6    7    8    9   10 
## 3156 2478  521  386   68   68   18   17    4    8
barplot(table(vivienda_faltantes$parquea),
     main="Número de parqueaderos",
     xlab="Parqueaderos",
     ylab="Cantidad de viviendas",
     border="blue",
     col="yellow")

Tabla de frecuencia:  
str(vivienda_faltantes$parquea)
##  num [1:8330] 2 1 4 1 2 8 2 4 1 2 ...
variable<-as.factor(vivienda_faltantes$parquea)
parquea<-table(variable); parquea
## variable
##    1    2    3    4    5    6    7    8    9   10 
## 3156 2478  521  386   68   68   18   17    4    8
parqueas<-as.data.frame(parquea); parqueas
##    variable Freq
## 1         1 3156
## 2         2 2478
## 3         3  521
## 4         4  386
## 5         5   68
## 6         6   68
## 7         7   18
## 8         8   17
## 9         9    4
## 10       10    8
porcentajes <- prop.table(parquea)
porcentaje <- as.data.frame(porcentajes); porcentaje
##    variable        Freq
## 1         1 0.469363474
## 2         2 0.368530637
## 3         3 0.077483641
## 4         4 0.057406306
## 5         5 0.010113028
## 6         6 0.010113028
## 7         7 0.002676978
## 8         8 0.002528257
## 9         9 0.000594884
## 10       10 0.001189768
Tabla1 <- data.frame(parquea, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Parqueaderos", "Frecuencia", "Porcentaje (%)")
Tabla1
##    Parqueaderos Frecuencia Porcentaje (%)
## 1             1       3156          46.94
## 2             2       2478          36.85
## 3             3        521           7.75
## 4             4        386           5.74
## 5             5         68           1.01
## 6             6         68           1.01
## 7             7         18           0.27
## 8             8         17           0.25
## 9             9          4           0.06
## 10           10          8           0.12
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$parquea))#cantidad datos nulos
## [1] 1606

Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$parquea)
##    vars    n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 6724 1.84 1.13      2    1.62 1.48   1  10     9 2.32     8.29 0.01
Varianza:
var(as.numeric(vivienda_faltantes$parquea),na.rm=TRUE) #varianza
## [1] 1.265814
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$parquea),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$parquea),na.rm=TRUE)*100 #coeficiente de variación
## [1] 61.28039

➜Baños:

table(vivienda_faltantes$banios)
## 
##    0    1    2    3    4    5    6    7    8    9   10 
##   45  497 2946 1994 1460  891  315  107   48   15    9
hist(vivienda_faltantes$banios, main="Número de baños",
     xlab="Baños",
     ylab="Cantidad de viviendas",
     border="yellow",
     col="blue",
     density=50)

Tabla de frecuencia:  
str(vivienda_faltantes$banios)
##  num [1:8330] 4 4 7 2 4 10 3 4 2 4 ...
variable<-as.factor(vivienda_faltantes$banios)
banios<-table(variable); banios
## variable
##    0    1    2    3    4    5    6    7    8    9   10 
##   45  497 2946 1994 1460  891  315  107   48   15    9
banioss<-as.data.frame(banios); banioss
##    variable Freq
## 1         0   45
## 2         1  497
## 3         2 2946
## 4         3 1994
## 5         4 1460
## 6         5  891
## 7         6  315
## 8         7  107
## 9         8   48
## 10        9   15
## 11       10    9
porcentajes <- prop.table(banios)
porcentaje <- as.data.frame(porcentajes); porcentaje
##    variable        Freq
## 1         0 0.005404107
## 2         1 0.059685361
## 3         2 0.353788880
## 4         3 0.239461991
## 5         4 0.175333253
## 6         5 0.107001321
## 7         6 0.037828750
## 8         7 0.012849766
## 9         8 0.005764381
## 10        9 0.001801369
## 11       10 0.001080821
Tabla1 <- data.frame(banios, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Baños", "Frecuencia", "Porcentaje (%)")
Tabla1
##    Baños Frecuencia Porcentaje (%)
## 1      0         45           0.54
## 2      1        497           5.97
## 3      2       2946          35.38
## 4      3       1994          23.95
## 5      4       1460          17.53
## 6      5        891          10.70
## 7      6        315           3.78
## 8      7        107           1.28
## 9      8         48           0.58
## 10     9         15           0.18
## 11    10          9           0.11
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$banios))#cantidad datos nulos
## [1] 3

Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$banios)
##    vars    n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 8327 3.11 1.43      3    2.99 1.48   0  10    10 0.92     1.12 0.02
Varianza:
var(as.numeric(vivienda_faltantes$banios),na.rm=TRUE) #varianza
## [1] 2.040171
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$banios),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$banios),na.rm=TRUE)*100 #coeficiente de variación
## [1] 45.89732

➜Número de habitaciones:

Tabla de frecuencia:  
str(vivienda_faltantes$habitac)
##  num [1:8330] 2 4 5 4 3 10 3 4 3 3 ...
variable<-as.factor(vivienda_faltantes$habitac)
habitac<-table(variable); habitac
## variable
##    0    1    2    3    4    5    6    7    8    9   10 
##   66   59  927 4101 1731  680  318  173  138   83   51
habitacs<-as.data.frame(habitac); habitacs
##    variable Freq
## 1         0   66
## 2         1   59
## 3         2  927
## 4         3 4101
## 5         4 1731
## 6         5  680
## 7         6  318
## 8         7  173
## 9         8  138
## 10        9   83
## 11       10   51
porcentajes <- prop.table(habitac)
porcentaje <- as.data.frame(porcentajes); porcentaje
##    variable        Freq
## 1         0 0.007926024
## 2         1 0.007085385
## 3         2 0.111324607
## 4         3 0.492494296
## 5         4 0.207877987
## 6         5 0.081662063
## 7         6 0.038189024
## 8         7 0.020775790
## 9         8 0.016572595
## 10        9 0.009967575
## 11       10 0.006124655
Tabla1 <- data.frame(habitac, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Habitaciones", "Frecuencia", "Porcentaje (%)")
Tabla1
##    Habitaciones Frecuencia Porcentaje (%)
## 1             0         66           0.79
## 2             1         59           0.71
## 3             2        927          11.13
## 4             3       4101          49.25
## 5             4       1731          20.79
## 6             5        680           8.17
## 7             6        318           3.82
## 8             7        173           2.08
## 9             8        138           1.66
## 10            9         83           1.00
## 11           10         51           0.61
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$habitac))#cantidad datos nulos
## [1] 3

Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)

psych::describe(vivienda_faltantes$habitac)
##    vars    n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 8327 3.61 1.46      3    3.41 1.48   0  10    10 1.64     3.99 0.02
Varianza:
var(as.numeric(vivienda_faltantes$habitac),na.rm=TRUE) #varianza
## [1] 2.128957
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$habitac),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$habitac),na.rm=TRUE)*100 #coeficiente de variación
## [1] 40.47262
Relación Habitación y baños:
plot(table(vivienda_faltantes$habitac,vivienda_faltantes$banios), main="Relación Baños y Habitaciones de las Viviendas",
     xlab="Habitaciones",
     ylab="Baños",col=rainbow(4))

3.3.1 Resultados:

•Para la variable piso, es de gran importancia conocer acerca del contexto de estos datos, ya que no es claro si hace referencia al piso en donde se encuentra ubicada la vivienda (apartamentos), o la cantidad de pisos que tienen las viviendas (casas). Sin embargo en los resultados del análisis se evidencia que casi un 50% de la muestra esta ubicada en el piso 3 o tienen 3 pisos, de igual forma, el 70% del total de los datos arroja que las viviendas están o se encuentran ubicadas en los primeros cuatro pisos. El 30 % restante se distribuye entre el quinto y doceavo piso.

•Para la variable estrato, se evidencia que el minimo estrato que se tiene en cuenta es el no. 3 y el máximo es el no. 6, es decir, no se tomaron estratos 1 y 2. Las viviendas que más se vendieron se encuentran en los estratos 4,5 y 6, lo que permite inferir que las viviendas de estos estratos se encuentran en la zona sur y zona norte de la ciudad.

•Para la variable de precio, se evidencia que el promedio de precio de las viviendas vendidas en Cali es de 434 millones de pesos, además se observa que es una de las variables que mayor coeficiente de variación presenta (75.76), ya que el precio minimo se encuentra en 59 millones mientras que el maximo es de 1999 millones. Por otro lado, al hacer la relación de precio y estrato se evidencia que la mayoría de viviendas de los estratos 3 y 4 llegan a los 500 millones de pesos. Mientras que las viviendas de los estratos 5 y 6 osicilan entre los 100 y 1000 millones de pesos.

•El promedio de área construida de las viviendas es de 174.99 m, al igual que el precio, ésta es una variable que presenta un coeficiente de variación bastante alto (81.69), ya que puede variar entre 30 m y 1475 m. Adicional, el diagrama de barras permite evidenciar que más de 300 viviendas tienen un área de 60 m.

•Se puede observar, que aproximadamente el 46% de las viviendas vendidas en la ciudad de Cali tienen un solo parqueadero, sin embargo, un 36% tienen dos parqueaderos, lo que equivale a un 84% de la muestra total. Cabe aclarar, que el 16% restante corresponden a las viviendas que tienen más de dos parqueaderos y aquellas que no tienen parqueaderos.

•Se logra determinar que un 35% de las viviendas vendidas tienen 2 baños en sus instalaciones, sin embargo, un 23.93% tiene 3 baños, un 17.53% tiene 4 baños y un 10.70% tiene 5 baños, lo que corresponde al 87% de la muestra total. Sin embargo, se evidencia que 45 viviendas que equivale al 0.54% no tienen ningún baño, por lo que se puede suponer que éstas hacen parte del tipo de viviendas que se mencionaron inicialmente (“Un 1% de tipos de vivienda corresponden a otros tipos como lo pueden ser cuevas, puentes, carpas, vagones de tren, entre otros”).

•Con respecto a las habitaciones, se observa que la cantidad de habitaciones oscila entre 0 y 10, no obstante, casi un 50% de las viviendas vendidas tienen 3 habitaciones, aproximadamente un 30% de las viviendas, se distribuye entre 2 y 4 habitaciones (11.13% y 20.79% respectivamente). Al igual que los baños se evidencia que 66 viviendas que equivale al 0.79% no tienen ninguna habitación, por lo que se puede suponer que éstas hacen parte del tipo de viviendas que se mencionaron inicialmente (“Un 1% de tipos de vivienda corresponden a otros tipos como lo pueden ser cuevas, puentes, carpas, vagones de tren, entre otros”).

•Finalmente se realizó una relación entre número de habitaciones y baños, y se puede inferir que la mayoría de las viviendas tienen un baño social y un baño en una de sus habitaciones, más no en cada una de ellas.

4. Conslusiones:

Este informe estadistico le presenta a la empresa B&C de bienes raíces un análisis descriptivo por medio de la generación de indicadores y gráficas visuales,con el fin de mostrar el comportamiento de los datos y las variables que corresponden a las viviendas vendidas en la ciudad de Cali, Colombia. Con este informe, se pretende que la gerencia de la compañía tome decisiones respecto a las tendencias y patrones analizados.