El mercado inmobiliario, hablando particularmente de nuestro país Colombia, y en este caso la ciudad de Cali, ha venido presentando un crecimiento en aumento, y que se espera continue de esa forma a lo largo del tiempo, es por esta razón, que es muy importante poder entregar a ustedes, como empresa B&C (Bienes y Casas) un informe contentivo de un análisis estadístico detallado, y muy relevante para el nicho de mercado con el cual están trabajando - y su expansión -, es así que este análisis muestra información puntual para la toma de decisiones respecto a mercadeo, precios de venta, expansión del mercado, servicios personalizados a diferentes clientes, entre otras situaciones particulares que son conducentes y consecuencialmente traerán a ustedes como empresa un crecimiento en temas de utilidad, mitigar riesgos de pérdida, un goodwill y a su vez la satisfacción del cliente.
En el presente informe se tienen los siguientes objetivos:
Para la realización del análisis descriptivo se hace necesario realizar lo siguiente:
La base de datos es “vivienda_faltantes”, cuenta con 8.330 registros y 13 columnas que son:
Con la data mencionada precedentemente se procede a realizar:
Al realizar la revisión detallada se determina que los últimos tres datos con carencia de datos no son relevantes para el estudio, por lo que se procede a eliminar los registros que presentan una amplia inconsistencia en su información por fila.
Tambien se revisan los valores con diferente definición de tipo vivienda.
Por lo que se procede a estandarizar el tipo de vivienda, dejandolas etiquetas en minúscula, quedando así:
Sacando las medidas de tendencia central y dispersión, respecto al precio de las propiedades:
| preciom | |
|---|---|
| Mean | 309.69 |
| Std.Dev | 162.15 |
| Min | 100.00 |
| Q1 | 187.50 |
| Median | 297.00 |
| Q3 | 362.50 |
| Max | 1100.00 |
| MAD | 126.02 |
| IQR | 172.50 |
| CV | 0.52 |
| Skewness | 1.94 |
| SE.Skewness | 0.22 |
| Kurtosis | 5.92 |
| N.Valid | 124.00 |
| Pct.Valid | 100.00 |
tambien lo referente al área de cosntrucción:
| areaconst | |
|---|---|
| Mean | 194.04 |
| Std.Dev | 109.78 |
| Min | 52.00 |
| Q1 | 122.50 |
| Median | 160.00 |
| Q3 | 247.50 |
| Max | 750.00 |
| MAD | 94.15 |
| IQR | 122.50 |
| CV | 0.57 |
| Skewness | 1.75 |
| SE.Skewness | 0.22 |
| Kurtosis | 5.07 |
| N.Valid | 124.00 |
| Pct.Valid | 100.00 |
A continuación se muestra una tabla de frecuencias por zona
| Freq | % Valid | % Total | |
|---|---|---|---|
| Zona Centro | 124 | 1.489 | 1.489 |
| Zona Norte | 1922 | 23.082 | 23.073 |
| Zona Oeste | 1204 | 14.459 | 14.454 |
| Zona Oriente | 351 | 4.215 | 4.214 |
| Zona Sur | 4726 | 56.755 | 56.735 |
| 3 | 0.036 | ||
| Total | 8330 | 100.000 | 100.000 |
También es relevante mostrar la tabla de frecuencia correspondiente al tipo de vivienda.
| Freq | % Valid | % Total | |
|---|---|---|---|
| apartamento | 5106 | 61.319 | 61.297 |
| casa | 3221 | 38.681 | 38.667 |
| 3 | 0.036 | ||
| Total | 8330 | 100.000 | 100.000 |
Me permito adjuntar el código trabajado para el presente informe. (Puede ser contemplada en el archivo .Rmd).
names(vivienda_faltantes) #Observar el número de columnas definido en la base de datos.
table(vivienda_faltantes$zona)
table(vivienda_faltantes$piso)
table(vivienda_faltantes$estrato)
table(vivienda_faltantes$parquea)
table(vivienda_faltantes$banios)
table(vivienda_faltantes$habitac)
table(vivienda_faltantes$tipo)
table(vivienda_faltantes$barrio)
sum(is.na(vivienda_faltantes$zona))
sum(is.na(vivienda_faltantes$piso)) #para mirar el número de N/A o nulos de la columna pisos.
sum(is.na(vivienda_faltantes$estrato)) # para mirar el número de N/A o nulos de la columna estrato
sum(is.na(vivienda_faltantes$preciom))
sum(is.na(vivienda_faltantes$areaconst))
sum(is.na(vivienda_faltantes$parquea))
sum(is.na(vivienda_faltantes$banios))
sum(is.na(vivienda_faltantes$habitac))
sum(is.na(vivienda_faltantes$tipo))
sum(is.na(vivienda_faltantes$barrio))
na.omit(vivienda_faltantes)
distinct(select(vivienda_faltantes, zona)) # Saber que valores distintos están en la columna zona.
VF_ZonaCentro = subset(vivienda_faltantes, vivienda_faltantes$zona == 'Zona Centro')
VF_ZonaSur = subset(vivienda_faltantes, vivienda_faltantes$zona == 'Zona Sur')
VF_ZonaOeste = subset(vivienda_faltantes, vivienda_faltantes$zona == 'Zona Oeste')
VF_ZonaNorte = subset(vivienda_faltantes, vivienda_faltantes$zona == 'Zona Norte')
VF_ZonaOriente = subset(vivienda_faltantes, vivienda_faltantes$zona == 'Zona Oriente')
distinct(select(vivienda_faltantes, piso)) # Saber que valores distintos están en la columna piso.
distinct(select(vivienda_faltantes, estrato)) # Saber que valores distintos están en la columna estrato.
distinct(select(vivienda_faltantes, parquea)) # Saber que valores distintos están en la columna parquea.
distinct(select(vivienda_faltantes, banios)) # Saber que valores distintos están en la columna banios.
distinct(select(vivienda_faltantes, habitac)) # Saber que valores distintos están en la columna Habitac.
distinct(select(vivienda_faltantes, tipo)) # Saber que valores distintos están en la columna tipo - es necesario estandarizar los valores.
vivienda_faltantes$tipo=str_to_lower(vivienda_faltantes$tipo) # Se procede a realiza arreglo de la data dejandola uniforme para la columna tipo
vivienda_faltantes$tipo[vivienda_faltantes$tipo=='apto']='apartamento'
vf_zonaCentro_estrato3 = subset(VF_ZonaCentro, VF_ZonaCentro$estrato == 3)
vf_zonaCentro_estrato4 = subset(VF_ZonaCentro, VF_ZonaCentro$estrato == 4)
vf_zonaCentro_estrato5 = subset(VF_ZonaCentro, VF_ZonaCentro$estrato == 5)
vf_zonaCentro_estrato6 = subset(VF_ZonaCentro, VF_ZonaCentro$estrato == 6)
vf_zonaNorte_estrato3 = subset(VF_ZonaNorte, VF_ZonaNorte$estrato == 3)
vf_zonaNorte_estrato4 = subset(VF_ZonaNorte, VF_ZonaNorte$estrato == 4)
vf_zonaNorte_estrato5 = subset(VF_ZonaNorte, VF_ZonaNorte$estrato == 5)
vf_zonaNorte_estrato6 = subset(VF_ZonaNorte, VF_ZonaNorte$estrato == 6)
vf_zonaSur_estrato3 = subset(VF_ZonaSur, VF_ZonaSur$estrato == 3)
vf_zonaSur_estrato4 = subset(VF_ZonaSur, VF_ZonaSur$estrato == 4)
vf_zonaSur_estrato5 = subset(VF_ZonaSur, VF_ZonaSur$estrato == 5)
vf_zonaSur_estrato6 = subset(VF_ZonaSur, VF_ZonaSur$estrato == 6)
vf_zonaOeste_estrato3 = subset(VF_ZonaOeste, VF_ZonaOeste$estrato == 3)
vf_zonaOeste_estrato4 = subset(VF_ZonaOeste, VF_ZonaOeste$estrato == 4)
vf_zonaOeste_estrato5 = subset(VF_ZonaOeste, VF_ZonaOeste$estrato == 5)
vf_zonaOeste_estrato6 = subset(VF_ZonaOeste, VF_ZonaOeste$estrato == 6)
vf_zonaOriente_estrato3 = subset(VF_ZonaOriente, VF_ZonaOriente$estrato == 3)
vf_zonaOriente_estrato4 = subset(VF_ZonaOriente, VF_ZonaOriente$estrato == 4)
vf_zonaOriente_estrato5 = subset(VF_ZonaOriente, VF_ZonaOriente$estrato == 5)
vf_zonaOriente_estrato6 = subset(VF_ZonaOriente, VF_ZonaOriente$estrato == 6)
summarytools::descr(VF_ZonaCentro$preciom)
summarytools::freq(vivienda_faltantes$zona, cumul = F)
t1 = table(vivienda_faltantes$zona)
pie(t1, vivienda_faltantes$zona)
t2=table(vivienda_faltantes$zona, vivienda_faltantes$estrato)
barplot(t2,last=1)