La empresa B&C (Bines y Casas) es una agencia de bienes raíces que opera en la ciudad de Cali, Colombia. La empresa fue fundada por Sandra Milena hace 10 años y actualmente cuenta con ocho agentes de bienes raíces.
El mercado de bienes raíces en Cali ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios. En 2021, las ventas del sector en Cali llegaron a $6700 millones y en 2022 a $6100 mil millones. Se espera que este sector continue creciendo durante los próximos años, permitiendo un desarrollo dinámico en la economía regional.
La empresa B&C ha recogido información sobre viviendas que incluye información sobre el precio, la ubicación, las características y la venta de viviendas en Cali. Esta base de datos puede ser utilizada para realizar un informe estadístico que sería de gran interés para la empresa.
La empresa solicita un análisis descriptivo de los datos, para identificar las tendencias y patrones en los datos.
La validación de datos es un paso crucial antes de procesar o analizar un conjunto de datos. A continuación, se detallaran algunas comprobaciones y validaciones comunes que se pueden realizar para asegurarse de que los datos estén listos para el análisis. En este paso se va a realizar el proceso de cargue de la infromación, actualización de los nombres de los campos, identificación de los tipos de variables, eliminacion de registro duplicados y los missing data.
Una vez realizado el proceso de cargue, se evidencio 8330 registros y 13 variables o campos.
La actulización de los nombres de las variables es una práctica común y útil en la manipulación y análisis de datos. Facilita la legibilidad, la consistencia, la preparación para el análisis, y puede mejorar la estética de los informes y gráficos generados.
## El nombre de Columna id fue actualizado por: Id
## El nombre de Columna zona fue actualizado por: Zona
## El nombre de Columna piso fue actualizado por: Piso
## El nombre de Columna estrato fue actualizado por: Estrato
## El nombre de Columna preciom fue actualizado por: PrecioVivienda
## El nombre de Columna areaconst fue actualizado por: AreaConstruccion
## El nombre de Columna parquea fue actualizado por: NumeroParqueaderos
## El nombre de Columna banios fue actualizado por: CantidadBanos
## El nombre de Columna habitac fue actualizado por: CantidadHabitaciones
## El nombre de Columna tipo fue actualizado por: TipoVivienda
## El nombre de Columna barrio fue actualizado por: Barrio
## El nombre de Columna longitud fue actualizado por: Longitud
## El nombre de Columna latitud fue actualizado por: Latitud
Identificar los tipos de variables es una práctica fundamental que facilita el manejo adecuado de los datos y contribuye a un análisis más efectivo y libre de errores.
Tabla de variables con sus tipos de datos | |
|---|---|
Columna | Tipo |
Id | numeric |
Zona | character |
Piso | numeric |
Estrato | numeric |
PrecioVivienda | numeric |
AreaConstruccion | numeric |
NumeroParqueaderos | numeric |
CantidadBanos | numeric |
CantidadHabitaciones | numeric |
TipoVivienda | character |
Barrio | character |
Longitud | numeric |
Latitud | numeric |
Cantidad de variables por tipo de datos | |
|---|---|
Tipo de Datos | Cantidad de tipos de datos |
character | 3 |
numeric | 10 |
Identificar campos duplicados y/o nulos es esencial para la mejora de la calidad de los datos, prevencion de los sesgos, optimizacion del rendimiento, cumplimientos de requisitos unicos y preparacion de los datos para realizacion de analisis.
## [1] "Registros eliminados:"
## Id Zona Piso Estrato PrecioVivienda AreaConstruccion NumeroParqueaderos
## 8320 NA <NA> NA NA NA NA NA
## 8321 NA <NA> NA NA NA NA NA
## 8322 NA <NA> NA NA 330 NA NA
## CantidadBanos CantidadHabitaciones TipoVivienda Barrio Longitud Latitud
## 8320 NA NA <NA> <NA> NA NA
## 8321 NA NA <NA> <NA> NA NA
## 8322 NA NA <NA> <NA> NA NA
Se tomo como base que los registros que tuviesen mas 30% de sus campos vacios y/o nulos fuesen eliminados de la base de datos. Una vez se ejecuto el proceso se evidencio tres(3) registros que cumplian con el criterio de eliminacion. Al inicio cuando se realizo el carque de la informacion se tenia 8330 registros y 13 variables y al finalizar, la base de datos quedo con 8327 registros y 13 variables.
Identificar campos nulos o vacíos es una parte esencial del análisis y limpieza de datos. Los valores faltantes pueden influir significativamente en los resultados de los análisis estadísticos y en la eficacia de los modelos predictivos. A continuación, se detallará el cantidad de registros nulos o vacios agrupados por las variables de la base de datos entregada:
Tabla de Nro. de registros que al menos tiene un campo Vacio o Null | |
|---|---|
Variable | Nro. de Registros |
Id | 0 |
Zona | 0 |
Piso | 2,638 |
Estrato | 0 |
PrecioVivienda | 0 |
AreaConstruccion | 0 |
NumeroParqueaderos | 1,603 |
CantidadBanos | 0 |
CantidadHabitaciones | 0 |
TipoVivienda | 0 |
Barrio | 0 |
Longitud | 0 |
Latitud | 0 |
Se evidenció registros que por lo menos tiene un campo nulo o vacio: 3515
En resumen, la validación de datos es un paso fundamental que aumenta la calidad y confiabilidad de los análisis, previene errores, y facilita el trabajo con los datos. La omisión de esta etapa puede llevar a resultados incorrectos, pérdida de tiempo y recursos, y posiblemente problemas legales o de conformidad en ciertos contextos. Por tanto, dedicar tiempo y esfuerzo a la validación de datos es una inversión sabia en cualquier proyecto de análisis de datos.
Se evidencio que la base de datos el campo Tipo de vivienda tenia los siguientes valores:
## El Número total de registros modificados en Tipo de Vivienda fue: 100
Se ejecuto un proceso para unificar los datos quedando de la siguiente manera:
Realizar un análisis descriptivo implica un proceso metodológico que incluye varios pasos. A continuación, se describen los principales componentes de esta metodología:
TipoVivienda | total_inmuebles | porcentaje_tipo |
|---|---|---|
Apartamento | 5,106 | 61.32 |
Casa | 3,221 | 38.68 |
Interpretacion:
1. Ventas totales:
2. Preferencia de Vivienda:
3. Posibles Factores Contribuyentes:
A continuacion, se detalla las ventas de apartamentos y casas teniendo en cuenta las diferentes zonas de la ciudad:
Zona | TipoVivienda | total_inmuebles | porcentaje_zona_tipo |
|---|---|---|---|
Zona Centro | Apartamento | 24 | 0.29% |
Zona Centro | Casa | 100 | 1.20% |
Zona Norte | Apartamento | 1,199 | 14.40% |
Zona Norte | Casa | 723 | 8.68% |
Zona Oeste | Apartamento | 1,035 | 12.43% |
Zona Oeste | Casa | 169 | 2.03% |
Zona Oriente | Apartamento | 62 | 0.74% |
Zona Oriente | Casa | 289 | 3.47% |
Zona Sur | Apartamento | 2,786 | 33.46% |
Zona Sur | Casa | 1,940 | 23.30% |
Interpretacion:
1. Zona Sur: La Zona Sur destaca como la región con la mayor cantidad de ventas tanto para apartamentos como para casas. Esto puede sugerir que esta área es particularmente atractiva para los compradores, posiblemente debido a factores como la ubicación, precio, o disponibilidad de servicios.
2. Preferencia por Tipos de Vivienda: En casi todas las zonas, excepto la Zona Centro y la Zona Oeste, los apartamentos se venden en mayor cantidad que las casas. Esto podría reflejar una preferencia general por los apartamentos en la ciudad, aunque las razones podrían variar según la zona.
3. Zonas con Menos Ventas: La Zona Centro y la Zona Oriente muestran un volumen significativamente menor de ventas en comparación con las otras zonas. Esto podría indicar una menor demanda en estas áreas, o posiblemente una menor disponibilidad de propiedades.
Interpretacion:
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 3.772368 3 2 1 12 2 3 5 3
## [1] "Análisis Filtrado"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 3.382975 3 2 1 9 2 3 5 3
Interpretacion de la variable Piso:
La variable “piso” representa los niveles de un edificio en la base de datos analizada.
Antes de Aplicar el Rango Intercuartílico de 1.5:
Después de Aplicar el Rango Intercuartílico de 1.5:
Interpretación Final:
La variable “piso” tiene una distribución con una tendencia central alrededor del segundo y tercer piso. La presencia inicial de outliers sugiere que había algunos edificios inusualmente altos o bajos que podrían haber sido el resultado de errores en los datos o representar casos inusuales, como rascacielos o edificios de un solo piso.
La aplicación de un rango intercuartílico de 1.5 ayudó a refinar la distribución, eliminando estos casos extremos y proporcionando una imagen más clara y representativa de la mayoría de los edificios en tu conjunto de datos.
Este análisis podría ser útil para entender la tipología de los edificios en una región particular, ayudando en la planificación urbana, análisis inmobiliario, o cualquier contexto en el que los niveles de piso sean una característica relevante.
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 4.634322 5 5 3 6 4 5 5 1
Interpretacion de la variable Estrato:
El estrato de una vivienda indica en qué nivel socioeconómico se encuentra la zona en la que está ubicada, lo cual puede influir en el costo de los servicios públicos y en el acceso a ciertos beneficios o subsidios.
En este analisis de la variable Estrato no se aplico el rango intertcuatilico porque no presento outliers.
El análisis de la variable “Estrato” en la base de datos analizada revela que hay una concentración significativa de viviendas en los estratos 4, 5 y 6, con un énfasis particular en el estrato 5. La ausencia de viviendas en los estratos más bajos y la falta de outliers sugieren que los datos representan una población que vive en áreas de estrato medio-alto. Esto podría tener varias implicancias, dependiendo del contexto en el que se esté trabajando, como políticas de vivienda, planificación urbana, o la distribución de recursos y servicios.
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 434.2532 330 350 58 1999 220 330 540 320
## [1] "Análisis Filtrado"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 367.3798 315 350 58 1015 220 315 540 320
Interpretacion de la variable Precio de la vivienda:
Centralidad
1. Media: Se redujo de 434.2532 a 367.3798 tras aplicar el RIQ. Esto indica que los outliers estaban influyendo en la media, haciéndola más alta antes de aplicar el RIQ.
2. Mediana: Se mantuvo cercana, de 330 a 315, demostrando que la mayoría de los datos están concentrados en este rango, y que los outliers no estaban afectando significativamente la mediana.
3. Moda: Se mantuvo constante en 350, reforzando la idea de una fuerte concentración de precios en esta área.
Dispersión
Outliers
Interpretación final:
El análisis contrastado revela la influencia de los outliers en la media y en la dispersión total de los precios de las viviendas. La aplicación del RIQ ayudó a minimizar esta influencia, llevando a una disminución en la media y en el valor máximo, y brindando una representación más robusta de los datos centrales. Sin embargo, la persistencia de algunos outliers y la constancia en otros parámetros, como la mediana, la moda, y el RIQ, sugieren que el conjunto de datos aún refleja una diversidad inherente en los precios. Puede ser útil examinar estos outliers restantes y entender sus causas, ya que podrían revelar información valiosa sobre segmentos específicos del mercado inmobiliario, como áreas geográficas particulares o tipos de viviendas.
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 174.9876 123 60 30 1745 80 123 229 149
## [1] "Análisis Filtrado"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 153.5333 118 60 30 452 80 118 229 149
Interpretacion de la variable Area de construcion:
En esta interpretacion se contrasta los resultados de la variable “Área de construcción” antes y después de aplicar el rango intercuartílico (RIQ) de 1.5.
Centralidad
outliers
Dispersión
Outliers
Interpretación final:
El área promedio de construcción antes de aplicar el RIQ es de aproximadamente 174.99 metros cuadrados, mientras que después de aplicar el RIQ, se reduce a 153.53 metros cuadrados. Esto podría sugerir que las viviendas de tamaño medio son comunes en el mercado.
La mediana de 123 metros cuadrados (o 118 después del ajuste) indica que al menos la mitad de las viviendas tienen un área de construcción de menos de 123 metros cuadrados, lo que podría ser un tamaño deseable para muchos compradores.
La moda de 60 metros cuadrados sugiere que este tamaño específico podría ser especialmente popular, tal vez reflejando un tipo particular de vivienda, como apartamentos de un dormitorio.
Basándonos en la información proporcionada sobre el área de construcción, se puede inferir que las viviendas más vendidas podrían estar en el rango de tamaño mediano, con un énfasis particular en las viviendas de alrededor de 60 metros cuadrados. La variedad de tamaños y la presencia de outliers podrían reflejar una diversidad en las opciones de vivienda, atendiendo tanto al mercado de lujo como al mercado más asequible.
Sin embargo, es importante tener en cuenta que este análisis se basa en una única variable.
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 1.835961 2 1 1 10 1 2 2 1
## [1] "Análisis Filtrado"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 1.571893 1 1 1 3 1 1 2 1
Interpretacion de la variable Número de parqueaderos:
Centralidad
Dispersión
Outliers
Interpretación final:
El análisis contrastado revela cómo la aplicación del RIQ ha llevado a una comprensión más realista de la oferta de parqueaderos en las viviendas. Mientras que el análisis original podría haber sido influenciado por algunas propiedades con un número inusualmente alto de parqueaderos, el análisis filtrado presenta una visión más concentrada y probablemente más representativa de la situación típica.
En términos prácticos, esto sugiere que la mayoría de las viviendas ofrecen solo uno o dos espacios de estacionamiento, y las inmobiliarias y compradores deben considerar esto al evaluar las necesidades de estacionamiento en su búsqueda de vivienda. Los valores atípicos eliminados podrían haber representado viviendas de lujo o propiedades especiales que no son representativas de la oferta general del mercado.
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 3.112045 3 2 0 10 2 3 4 2
## [1] "Análisis Filtrado"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 3.065415 3 2 0 7 2 3 4 2
Interpretacion de la variable Cantidad de banos
Centralidad
Dispersión
Outliers
Interpretación final:
El análisis revela que la aplicación del rango intercuartílico de 1.5 tuvo un efecto modesto en los datos. Aunque los cambios en las medidas de centralidad fueron menores, la disminución en el rango refleja una reducción en la dispersión. La eliminación de outliers llevó a una representación posiblemente más realista del número de parqueaderos, minimizando el efecto de los valores extremos. Sin embargo, es esencial considerar el contexto y la naturaleza de los datos para determinar si este tratamiento es apropiado en cada caso particular.
## [1] "Análisis Original"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 3.60514 3 3 0 10 3 3 4 1
## [1] "Análisis Filtrado"
## Media Mediana Moda Minimo Maximo Q1 Q2 Q3 RIQ
## 25% 3.290899 3 3 2 5 3 3 4 1
Interpretacion de la variable Cantidad de Habitaciones
Centralidad
Dispersión
Outliers
Interpretación final:
El tratamiento de los valores atípicos a través del RIQ llevó a una disminución en la media y el rango, lo cual sugiere que los datos originales contenían algunos valores extremos que podían haber distorsionado la interpretación. La mediana y la moda no se vieron afectadas, lo que refuerza la idea de que la mayoría de las viviendas se agrupan alrededor del valor de 3 habitaciones.
Otras interpretacione de las variables fueron expuestas en el respectivo analisis de las mismas.
A continuación, se presenta la posible relación de comportamiento entre el valor del metro cuadro de los inmuebles por estrato de cada zona:
Comportamientovalor del metro cuadro de inmuebles por estrato de cada zona | ||||||||
|---|---|---|---|---|---|---|---|---|
Zona | Estrato | Media_precio_m2 | Mediana_precio_m2 | Min_precio_m2 | Max_precio_m2 | Desviacion_estandar | Precio_sugerido_superior | Precio_sugerido_riesgoso |
Zona Centro | 3 | $1.63 | $1.50 | $0.89 | $4.21 | 0.53 | $2.16 | $2.69 |
Zona Centro | 4 | $2.16 | $2.03 | $0.81 | $5.07 | 1.15 | $3.31 | $4.46 |
Zona Centro | 5 | $3.21 | $2.98 | $1.84 | $5.04 | 1.44 | $4.65 | $6.09 |
Zona Centro | 6 | $2.50 | $2.50 | $2.50 | $2.50 | |||
Zona Norte | 3 | $1.88 | $1.89 | $0.26 | $7.00 | 0.62 | $2.50 | $3.12 |
Zona Norte | 4 | $2.31 | $2.26 | $0.84 | $4.62 | 0.74 | $3.05 | $3.79 |
Zona Norte | 5 | $2.76 | $2.79 | $0.55 | $9.47 | 1.04 | $3.80 | $4.84 |
Zona Norte | 6 | $3.27 | $3.32 | $1.08 | $6.12 | 1.16 | $4.43 | $5.59 |
Zona Oeste | 3 | $2.19 | $2.08 | $0.77 | $6.18 | 0.89 | $3.08 | $3.97 |
Zona Oeste | 4 | $2.57 | $2.62 | $0.84 | $7.74 | 1.08 | $3.65 | $4.73 |
Zona Oeste | 5 | $3.25 | $3.33 | $0.95 | $7.39 | 1.03 | $4.28 | $5.31 |
Zona Oeste | 6 | $4.01 | $4.00 | $1.08 | $8.30 | 1.15 | $5.16 | $6.31 |
Zona Oriente | 3 | $1.41 | $1.31 | $0.15 | $4.86 | 0.61 | $2.02 | $2.63 |
Zona Oriente | 4 | $2.03 | $1.91 | $0.90 | $3.17 | 0.84 | $2.87 | $3.71 |
Zona Oriente | 5 | $1.37 | $1.37 | $0.99 | $1.75 | 0.54 | $1.91 | $2.45 |
Zona Oriente | 6 | $6.37 | $6.37 | $6.37 | $6.37 | |||
Zona Sur | 3 | $1.88 | $1.83 | $0.56 | $5.49 | 0.67 | $2.55 | $3.22 |
Zona Sur | 4 | $2.49 | $2.56 | $0.38 | $6.38 | 0.67 | $3.16 | $3.83 |
Zona Sur | 5 | $2.72 | $2.77 | $0.28 | $5.87 | 0.79 | $3.51 | $4.30 |
Zona Sur | 6 | $3.40 | $3.40 | $0.85 | $8.05 | 1.06 | $4.46 | $5.52 |
El analisis visualidado en la tabla anterior nos muestra unos valores estimados por metro cuadrado, por zona y por estrato. De igual forma nos muestra la desvicacion estandar la cual nos indica cuán dispersos están los valores en relación con la media en el conjunto de datos. En este caso, podemos utilizar la media y la desviación estándar para determinar un rango razonable de valores para el precio por metro cuadrado. Una forma común de hacerlo es utilizar la media más una o dos veces la desviación estándar para determinar un rango superior. Esto se basa en la regla empírica, que establece que aproximadamente el 68% de los datos se encuentran dentro de una desviación estándar de la media, y aproximadamente el 95% de los datos están dentro de dos desviaciones estándar de la media.
El valor por metro cuadrado sugerido que un comprador no debería superar dependerá de su tolerancia al riesgo y su evaluación del mercado. Si desea ser más conservador, puede considerar el valor con una desviación estándar por encima de la media (2.16) como el límite superior. Si está dispuesto a aceptar más riesgo y variabilidad, podría considerar el valor con dos desviaciones estándar por encima de la media (2.69) como el límite superior.
En la tabla anterior se evidencia los valores estimados teniendo en cuenta una (1) o (2) desviaciones estándar para el precio por metro cuadrado de cada estrato. Los nombres de las columnas son: Precio_sugerido_superior y Precio_sugerido_riesgoso.
Estos valores sugeridos podrían ser útiles como una guía para compradores que buscan entender el rango de precios en diferentes zonas y estratos, tomando en cuenta la variabilidad en los precios. El uso de la desviación estándar en este contexto puede ofrecer una idea de la dispersión de los precios y ayudar a establecer un rango de compra realista.
Basándonos en análisis del mercado inmobiliario en Cali, nuestra recomendación se centra en la implementación de una estrategia de personalización dirigida a los posibles compradores. Esta estrategia debería tener en cuenta el perfil individual, el poder adquisitivo, y las necesidades específicas de cada cliente.
Cali presenta una gran variedad de inmuebles con diferentes características, tales como área construida, número de habitaciones, baños y otros elementos distintivos. Esto ofrece una oportunidad única para alinear las ofertas de vivienda con las demandas y expectativas de los compradores.
La variabilidad observada en los datos sugiere que hay espacio para ofrecer soluciones personalizadas que puedan satisfacer una amplia gama de requerimientos. Los clientes que buscan viviendas en diferentes estratos y zonas tienen diferentes expectativas y restricciones presupuestarias, lo que hace que la personalización sea no solo deseable sino también esencial.
En conclusión, el mercado inmobiliario en Cali ofrece una rica variedad de oportunidades. Al adoptar una estrategia centrada en el cliente, que valore y responda a sus necesidades y preferencias individuales, los vendedores pueden esperar no solo cumplir sino superar las expectativas de sus clientes, creando así una experiencia de compra más gratificante y exitosa.
El presente informe no contiene anexos.