1 Introducción

La industria inmobiliaria es un sector dinámico que requiere constantes análisis y estrategias para mantenerse competitivo en el mercado. En este contexto, contar con una base de datos sólida y confiable es fundamental para tomar decisiones informadas y efectivas. En el presente trabajo, se llevará a cabo un análisis descriptivo de la base de datos de viviendas proporcionada por la empresa inmobiliaria B&C. Este análisis tiene como objetivo principal optimizar la toma de decisiones en el negocio, permitiendo a la empresa definir su nicho de mercado, desarrollar estrategias de marketing, establecer precios de ventas precisos y ofrecer servicios personalizados a sus clientes.

2 Objetivo

El objetivo de este trabajo es realizar un análisis descriptivo detallado de la base de datos de viviendas suministrada por la empresa inmobiliaria B&C. A través de este análisis, se busca identificar patrones, tendencias y características relevantes de las propiedades inmobiliarias presentes en la base de datos. Además, se pretende utilizar los hallazgos obtenidos para optimizar la toma de decisiones estratégicas en el negocio, tales como la definición del nicho de mercado, el diseño de estrategias de marketing efectivas, la fijación de precios de ventas competitivos y la personalización de servicios para los clientes.

3 Metodología

Para poder analizar los datos, primero se realiza una estandarización de las variables de tipo texto para evitar problemas debido a diferencias en mayúsculas y minúsculas.

Posteriormente, dado que la base de datos suministrada por la empresa tiene una gran cantidad de datos faltantes marcados como “NA”, se procede a realizar la imputación de estos valores faltantes. En el presente documento se explicarán los métodos utilizados para esta imputación. En la siguiente tabla se podrá observar el estado inicial de las variables y sus correspondientes valores nulos.

3.1 Imputación de datos

Como primera medida, se eliminan los valores que tienen un ID igual a “NA”, ya que realmente no contienen información en casi la totalidad de sus columnas.

Posteriormente, se procede a realizar el primer cálculo de imputación. En este paso, se busca la moda del número de parqueaderos para las viviendas en cada barrio, tipo y estrato. Luego, se filtran los datos de la base completa para seleccionar aquellas viviendas que tengan ese número de parqueaderos, que pertenezcan al mismo barrio, que tengan el mismo estrato y que sean del mismo tipo de vivienda. El objetivo de este proceso es encontrar las viviendas que tengan características similares.

Una vez identificadas, se calcula un precio a superar para las viviendas que no tienen número de parqueaderos. Este precio puede diferir entre la moda y la media, dependiendo de si el coeficiente de variación supera el 20% o no. Si el valor de la vivienda por metro cuadrado supera este valor, se le asigna el número de parqueaderos estimado anteriormente.

Cuando no lo es, se asume que una vivienda con las mismas características y un valor menor no puede tener el mismo número de parqueaderos. Se realiza una resta de uno a la moda y se procede a realizar el cálculo con las viviendas que tienen las nuevas características (el número de parqueaderos debe ser igual a la moda menos 1).

Una vez realizado el proceso anterior, se pueden observar un gran número de datos faltantes para los parqueaderos. Por ello, es necesario llevar a cabo el mismo proceso, pero esta vez no realizando una segregación por barrio, sino por zona.

Finalmente, las viviendas faltantes no cumplen con las características mínimas de precio para tener por lo menos un parqueadero, ni en su zona ni en su barrio. Por esto, se realiza una imputación con 0 parqueaderos, obteniendo el siguiente resultado:

En este punto, los datos nulos para parqueaderos han sido eliminados en su totalidad. Sin embargo, aún existen datos nulos para la variable piso. Para esta variable, se utiliza un enfoque similar en el que se buscan viviendas con las mismas características de latitud, longitud, tipo y estrato. Se realizan comparaciones del precio por metro cuadrado de la vivienda con los valores faltantes más el resultado de la media o la moda del grupo de viviendas que cumplen sus características.

Cuando el precio de la vivienda sea mayor, se asumirá que debe estar en un piso superior, dado que las viviendas aumentan su costo conforme los pisos aumentan debido a valores agregados como la poca contaminación auditiva y la vista desde la vivienda.

Una vez realizado este proceso, se observa que la presencia de viviendas con pisos faltantes sigue siendo alta. Por esto, se realiza la misma estimación, pero en lugar de utilizar latitud y longitud para la definición de las categorías, se utiliza la variable “barrio”.

Para finalizar, si las viviendas nunca superaron los precios en ninguna de las categorías planteadas anteriormente, se les asigna el primer piso.

4 RESULTADOS

4.1 ANÁLISIS DESCRIPTIVO

Una vez realizada la imputación de los datos, se procede a realizar un análisis descriptivo de las viviendas contenidas en la base de datos. Como primer parámetro, se analiza el porcentaje de viviendas presentado por cada sector de la ciudad, el cual se observa en el gráfico siguiente.

Como se puede observar, la zona con mayor presencia de viviendas es la zona sur, la cual contiene un 56.76% de las viviendas, mientras que la zona norte, que es la que le sigue en cantidad, tiene un 23.08% de las viviendas contenidas en la base de datos.

Ahora es importante verificar el tipo de vivienda que se desea ofrecer a los clientes. Es por esto que se calculan los porcentajes por tipo de vivienda, como se muestra en la siguiente gráfica.

Como se puede observar, actualmente en la ciudad de Cali se puede encontrar un mayor porcentaje de apartamentos que de casas. Por lo tanto, será más fácil para un cliente que busca un apartamento encontrar las características deseadas en este tipo de vivienda.

Ahora se convierte en prioridad distinguir los precios por metro cuadrado para las diferentes zonas, como se muestra en el diagrama de cajas.

En el primer gráfico se puede observar cómo las viviendas más económicas se encuentran en la zona oriente, la cual también presenta una de las menores variabilidades en los precios. En la zona norte, se observa un rango de precios mayor, con la mayoría de ellos concentrados en precios más altos. Mientras tanto, las zonas oeste y sur presentan precios altos en general, pero en sus rangos de precios hay una menor cantidad de viviendas en los precios más bajos.

En la segunda gráfica se pueden observar los diagramas de cajas correspondientes a las zonas de la ciudad, específicamente para el tipo de vivienda “casa”.

En la tercera gráfica se pueden observar los diagramas de cajas correspondientes a las zonas de la ciudad, específicamente para el tipo de vivienda “apartamento”.

De la segunda y tercera gráfica se puede observar cómo los precios de las casas en general son menores que los de los apartamentos. Además, se observa que tanto para las casas como para los apartamentos, los precios en rangos más bajos están en las zonas Oriente y Centro, mientras que se encuentran más altos en las zonas Oeste y Sur.

Ahora bien para continuar con el analisis se verifican los barrios con mayor precencia de viviendas en la base de datos y sus aportes porcentuales a la informacion registrada.

Barrio Freq Porce
valle del lili 1009 12.12%
ciudad jardin 540 6.48%
pance 412 4.95%
la flora 369 4.43%
santa teresita 263 3.16%
el caney 209 2.51%
el ingenio 203 2.44%
la hacienda 166 1.99%
normandia 163 1.96%
acopi 158 1.9%
los cristales 154 1.85%
el limonar 135 1.62%
prados del norte 127 1.53%
el refugio 120 1.44%
aguacatal 110 1.32%
ciudad 2000 96 1.15%
caney 88 1.06%
cristales 83 1%
urbanizacion la flora 83 1%
brisas de los 82 0.98%
Otros 3757 45.12%

Esta información puede ser relevante para los clientes que desean vivir en sectores muy específicos de la ciudad.

A continuación, se muestran también los gráficos de barras correspondientes al estrato por cada zona de la ciudad. Esta información es relevante para poder identificar a los clientes la zona adecuada en la que pueden buscar viviendas dependiendo de sus requerimientos personales.

Ahora se presentarán gráficos de barras que representan el número de parqueaderos, habitaciones y cantidad de baños, segregados por los factores que hemos estudiado anteriormente.

La información mostrada en las anteriores gráficas también permite una categorización más específica de las viviendas, lo que ayuda a instruir a los clientes en el tipo de vivienda que se puede ajustar a sus necesidades. Se entienden las viviendas con un gran número de parqueaderos, habitaciones y baños como inmuebles que se prestan para servicios de hospedaje o cuidado del adulto mayor.

Finalmente, se presentan las gráficas de densidad de las diferentes variables, como el precio por metro cuadrado, el área construida y el precio de la vivienda. Teniendo en cuenta la aparición de algunos valores atípicos, se puede observar cómo en las diferentes métricas es más útil utilizar la mediana como indicador de centro que la media.

Con las graficas mostradas anteriormente se hace importante la presentacion de las medidas mas importantes de cada una de las variables mencionadas por lo que se presentan en las siguientes tablas.

Estadísticas del Área Construida:
tipo Media Mediana Desviacion_Estandar Coeficiente_Variacion
apartamento 112.9424 90 69.56812 61.59611
casa 273.3430 240 171.41792 62.71165
Estadísticas del Precio:
tipo Media Mediana Desviacion_Estandar Coeficiente_Variacion
apartamento 367.6236 280 290.1314 78.92079
casa 539.8758 430 358.1683 66.34272
Estadísticas del Precio por Metro Cuadrado:
tipo Media Mediana Desviacion_Estandar Coeficiente_Variacion
apartamento 3.101116 3.00000 0.9848314 31.75732
casa 2.123485 1.92053 0.9527362 44.86662

5 Discusión del Proyecto:

Durante el análisis de la base de datos “vivienda_faltantes”, se han identificado varias tendencias significativas que arrojan luz sobre el mercado de viviendas en la ciudad de Cali.

En primer lugar, se observó que las zonas más económicas para vivir son las zonas al oriente y el centro de la ciudad, mientras que las zonas más costosas están concentradas en el sector oeste y sur.

Sin embargo, es importante destacar que la calidad y fiabilidad de los datos pueden influir en la precisión de estas conclusiones. Se observó una falta de estandarización en el proceso de recolección de información, lo que puede haber resultado en la inclusión de valores erróneos o inconsistentes en la base de datos. Por lo tanto, se recomienda encarecidamente la estandarización de este proceso para garantizar la integridad y coherencia de los datos recopilados en futuros estudios.

6 Conclusiones:

6.1 Importancia de la ubicación en el mercado de viviendas:

Los resultados del análisis resaltan la influencia significativa de la ubicación geográfica en los precios de la vivienda. Las zonas orientales y centro de la ciudad se identificaron como las más económicas, mientras que las zonas occidentales y del sur son las más costosas. Estos hallazgos subrayan la importancia de considerar la ubicación al tomar decisiones relacionadas con la vivienda, ya que puede afectar tanto los precios como la accesibilidad a servicios y comodidades.

6.2 Necesidad de estandarización en la recolección de datos:

Se observó una falta de estandarización en el proceso de recolección de información, lo que podría haber resultado en la inclusión de valores erróneos o inconsistentes en la base de datos. Como resultado, se recomienda la estandarización de este proceso para garantizar la integridad y coherencia de los datos recopilados. Esta estandarización no solo mejoraría la calidad de los datos, también facilitaría el análisis más preciso para lograr una mejor segregación de los datos.

..