El sector inmobiliario en Cali atraviesa un periodo de incertidumbre debido a la desaceleración en las ventas de viviendas, un fenómeno que ha sido influenciado por factores económicos, sociales y políticos. A pesar de esta contracción en la demanda, las entidades bancarias han mantenido un flujo de financiamiento constante para la construcción de proyectos residenciales y comerciales, generando expectativas de reactivación en el mediano plazo. En este contexto, la capacidad de prever tendencias y ofrecer recomendaciones basadas en análisis cuantitativos rigurosos se convierte en un elemento clave para la toma de decisiones estratégicas en el sector.
María, una experimentada agente inmobiliaria y fundadora de la empresa C&A (Casas y Apartamentos), enfrenta un reto significativo: responder de manera precisa y fundamentada a la solicitud de una compañía internacional que busca adquirir dos viviendas en Cali para alojar a sus empleados. La empresa ha especificado requisitos detallados sobre las características de las propiedades, incluyendo el tipo de vivienda, la ubicación, el tamaño, el número de habitaciones, el estrato y el monto máximo aprobado para la compra. Para ofrecer una respuesta óptima, se requiere un enfoque basado en técnicas avanzadas de modelado y análisis de datos, permitiendo evaluar las opciones disponibles y sugerir ofertas alineadas con las expectativas del cliente.
A partir de una base de datos con información de los últimos tres meses del mercado inmobiliario en Cali, se llevará a cabo un proceso de análisis estructurado en varias etapas. Inicialmente, se filtrarán los datos para seleccionar únicamente las ofertas que cumplen con los criterios específicos, asegurando que la información utilizada sea relevante para el análisis. Posteriormente, se realizará un estudio exploratorio que incluirá técnicas de visualización interactiva con Plotly, enfocándose en identificar relaciones significativas entre el precio de la vivienda y variables clave como el área construida, el estrato socioeconómico, el número de baños, el número de habitaciones y la ubicación geográfica.
Para respaldar la toma de decisiones con bases científicas, se construirá un modelo de regresión lineal múltiple, el cual permitirá estimar el impacto de cada una de las variables explicativas sobre el precio de las viviendas. Se analizará la significancia estadística de los coeficientes y el ajuste del modelo mediante el coeficiente de determinación R², evaluando su capacidad predictiva y discutiendo posibles estrategias para optimizar su desempeño. Asimismo, se llevará a cabo un análisis de validación de supuestos, identificando posibles problemas en el modelo y sugiriendo ajustes metodológicos que podrían mejorar su fiabilidad.
Con base en los resultados obtenidos, se procederá a la predicción del precio de la vivienda que se ajusta a los requisitos de la primera solicitud, permitiendo a María ofrecer una estimación objetiva respaldada por un modelo cuantitativo. Además, se realizará una selección de al menos cinco propiedades dentro del presupuesto disponible de 350 millones de pesos, asegurando que las recomendaciones sean viables y alineadas con las necesidades del cliente. Estas opciones serán presentadas en un mapa interactivo, facilitando su interpretación visual y permitiendo una evaluación comparativa de las ofertas más atractivas dentro del mercado.
Este informe busca no solo proporcionar a María un análisis detallado y preciso para responder a la solicitud actual, sino también establecer un modelo replicable y escalable que pueda ser utilizado en futuras negociaciones dentro del sector inmobiliario. La combinación de técnicas de análisis de datos, modelado predictivo y visualización interactiva permitirá optimizar la toma de decisiones y fortalecer la competitividad de C&A en un mercado en constante evolución.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 02 | 6 | 750 | 445 | NA | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
El proceso de filtrado de datos se centró en seleccionar únicamente las casas ubicadas en la zona norte de Cali. Para ello, se aplicó una condición en la base de datos que permitió extraer solo las viviendas clasificadas como “Casa” dentro de dicha zona. Este procedimiento asegura que el análisis se enfoque en las propiedades relevantes para la solicitud específica.
Tras aplicar el filtro, se visualizaron los primeros tres registros de la base de datos resultante. En esta muestra, se observan casas con diferentes características en cuanto a estrato, área construida, número de parqueaderos, cantidad de baños y habitaciones. Por ejemplo, la primera vivienda tiene un área de 150 metros cuadrados, dos parqueaderos, dos baños y seis habitaciones, con un precio de 320 millones de pesos. La segunda casa, con un área más amplia de 380 metros cuadrados y sin información sobre el número de parqueaderos, alcanza un precio de 780 millones de pesos. Finalmente, la tercera vivienda, con 445 metros cuadrados y siete habitaciones, no cuenta con datos disponibles sobre el número de baños.
Además de las características físicas, los datos incluyen las coordenadas de longitud y latitud, lo que permite georreferenciar las viviendas en mapas interactivos y verificar su ubicación exacta dentro de la zona norte. Esto facilita el análisis espacial y ayuda a identificar patrones en la distribución de precios y características de las casas en el área de interés.
| Variable | Media | Mediana | Desv_Est | Min | Max | Asimetria | Curtosis | IQR | Outliers | NA_Values | Miss |
|---|---|---|---|---|---|---|---|---|---|---|---|
| preciom | 445.9058 | 390 | 268.3646 | 89 | 1940 | 1.7624 | 4.6537 | 288.75 | 31 | 3 | 0 |
| areaconst | 264.8505 | 240 | 167.1668 | 30 | 1440 | 1.8471 | 6.2357 | 196.75 | 26 | 3 | 0 |
| estrato | 4.2022 | 4 | 0.9828 | 3 | 6 | 0.0693 | -1.2552 | 2.00 | 0 | 3 | 0 |
| parqueaderos | 2.1816 | 2 | 1.4049 | 1 | 10 | 1.8599 | 4.6157 | 2.00 | 8 | 290 | 0 |
| banios | 3.5554 | 3 | 1.5239 | 0 | 10 | 0.6723 | 0.9980 | 2.00 | 14 | 3 | 0 |
| habitaciones | 4.5069 | 4 | 1.8277 | 0 | 10 | 0.6368 | 1.1845 | 2.00 | 27 | 3 | 0 |
Los datos estadísticos de las casas en la Zona Norte muestran información relevante sobre diversas variables. El precio promedio de las viviendas es de aproximadamente 445 millones de pesos, con una mediana de 390 millones. Existe una alta dispersión en los valores, con un mínimo de 89 millones y un máximo de 1940 millones.
El área construida presenta una media de 264 metros cuadrados, con una mediana de 240 y un rango que va desde los 30 hasta los 1440 metros cuadrados. En cuanto al estrato socioeconómico, la media es de 4.2, con una mediana de 4 y valores que oscilan entre 3 y 6.
El número de parqueaderos muestra una alta variabilidad, con un promedio de 2.18 y una mediana de 2, pero algunos registros llegan hasta 10 parqueaderos. En términos de baños, la media es de 3.5, con una mediana de 3 y un máximo de 10. Finalmente, el número de habitaciones tiene un promedio de 4.5 y una mediana de 4, con un máximo también de 10.
El análisis de asimetría y curtosis indica que variables como el número de parqueaderos presentan una distribución sesgada, lo que sugiere que la mayoría de los datos están concentrados en valores bajos, mientras que algunos registros tienen valores extremadamente altos. Además, se identificaron valores atípicos en variables como precio, área construida y número de parqueaderos, lo que puede indicar la presencia de propiedades con características muy distintas al resto.
| Variable | Frecuencia_Modal | Frecuencia_Absoluta | Frecuencia_Relativa | Entropía | Simpson |
|---|---|---|---|---|---|
| zona | Zona Norte | 722 | 100 | 0 | 0 |
| tipo | Casa | 722 | 100 | 0 | 0 |
| barrio | la flora | 99 | 13.71 | 3.6269 | 0.9521 |
| estrato | 5 | 271 | 37.53 | 1.2639 | 0.6976 |
| piso | 02 | 194 | 55.43 | 1.0687 | 0.6004 |
El análisis de las variables categóricas para las casas en la Zona Norte revela varias tendencias. Todas las viviendas de la muestra pertenecen a esta zona, lo que explica que la frecuencia absoluta y relativa sean del cien por ciento. De igual manera, todas las propiedades analizadas corresponden al tipo de vivienda casa.
En cuanto a los barrios, el más representativo es La Flora, que concentra el trece punto setenta y un por ciento de las viviendas. La distribución del estrato muestra que la categoría más frecuente es el cinco, con una representación del treinta y siete punto cincuenta y tres por ciento. En términos de pisos, la opción más común es de dos niveles, con una representación del cincuenta y cinco punto cuarenta y tres por ciento.
El índice de entropía y la diversidad de Simpson indican que la distribución de algunas variables es poco equitativa, como en el caso del tipo de vivienda y la zona, donde no existe variabilidad. Sin embargo, variables como el barrio y el estrato presentan mayor diversidad, lo que refleja la existencia de distintas opciones dentro del mercado de casas en esta zona.
El análisis de la distribución geográfica de las viviendas refleja una concentración de propiedades en diversas zonas de la ciudad, debería identificar solo la zona norte. Sin embargo, se han identificado inconsistencias en la representación de algunos puntos, lo que puede afectar la interpretación de los resultados. Estos errores han sido detectados y se tomarán las medidas necesarias para su corrección. En el Informe de Gerencia se presentará la versión ajustada de los resultados, asegurando que la visualización refleje con precisión la distribución real de las viviendas analizadas.
Se realizará un análisis detallado de estos registros en la sección Informe de Gerencia para evaluar su impacto en la toma de decisiones estratégicas.
| Variable | Media | Mediana | Desv | Min | Max | Asimetria | Curtosis | IQR | Outliers | NA | Miss |
|---|---|---|---|---|---|---|---|---|---|---|---|
| preciom | 433.8919 | 330 | 328.6472 | 58 | 1999 | 1.8493 | 3.6723 | 320 | 552 | 0 | 2 |
| areaconst | 174.9349 | 123 | 142.9641 | 30 | 1745 | 2.6934 | 12.9138 | 149 | 382 | 0 | 3 |
| estrato | 4.6336 | 5 | 1.0292 | 3 | 6 | -0.1843 | -1.1074 | 1 | 0 | 0 | 3 |
| parqueaderos | 1.8352 | 2 | 1.1249 | 1 | 10 | 2.3267 | 8.3115 | 1 | 567 | 0 | 1605 |
| banios | 3.1113 | 3 | 1.4282 | 0 | 10 | 0.9252 | 1.1271 | 2 | 72 | 0 | 3 |
| habitaciones | 3.6054 | 3 | 1.4595 | 0 | 10 | 1.6348 | 3.9840 | 1 | 888 | 0 | 3 |
El análisis de las variables numéricas de las viviendas revela una amplia variabilidad en los precios, con un promedio cercano a los cuatrocientos treinta y cuatro millones de pesos y una mediana de trescientos treinta millones. Esta diferencia sugiere la presencia de valores extremos que podrían estar influyendo en la distribución general. Asimismo, el área construida varía significativamente, con viviendas desde treinta hasta mil setecientos cuarenta y cinco metros cuadrados, lo que indica una oferta diversa en términos de tamaño y uso del espacio.
El estrato muestra una tendencia hacia niveles medios, con un promedio ligeramente superior a cuatro. Sin embargo, el número de parqueaderos evidencia una mayor dispersión, con propiedades que cuentan con hasta diez espacios disponibles. Además, la alta cantidad de valores atípicos en esta variable sugiere que algunas viviendas poseen características poco comunes en comparación con la mayoría. En contraste, el número de baños y habitaciones presenta una distribución más estable, con una mediana de tres en ambos casos, lo que indica cierta uniformidad en estas características dentro del conjunto de datos.
Un aspecto relevante es la cantidad de valores atípicos detectados en la mayoría de las variables, lo que podría distorsionar los análisis posteriores si no se tratan adecuadamente. También se identificó una baja proporción de datos ausentes en la mayoría de las variables, excepto en la cantidad de parqueaderos, donde más de mil seiscientos registros carecen de información. Esto plantea la necesidad de evaluar estrategias para manejar estos datos faltantes y evitar posibles sesgos en los modelos de análisis.
| Variable | Moda | Frecuencia Absoluta | Frecuencia Relativa (%) | Entropía | Simpson |
|---|---|---|---|---|---|
| zona | Zona Sur | 4726 | 56.81 | 1.1350 | 0.6013 |
| tipo | Apartamento | 5100 | 61.31 | 0.6674 | 0.4744 |
| barrio | valle del lili | 1008 | 12.12 | 4.5181 | 0.9703 |
| estrato | 5 | 2750 | 33.06 | 1.3615 | 0.7377 |
| piso | 02 | 1450 | 25.51 | 2.1022 | 0.8473 |
En la tabla presentada, se analizan cuatro variables categóricas clave: Zona, Tipo de Vivienda, Barrio y Estrato. A continuación, se explica el significado de las estadísticas obtenidas para cada una de estas variables:
Frecuencia La columna de frecuencia muestra las categorías más comunes en cada variable. Por ejemplo, la Zona Sur es la ubicación más frecuente, con 4726 registros que representan el 56.81% del total. En cuanto al Tipo de Vivienda, los apartamentos son los más comunes, con 5100 registros, lo que constituye el 61.31% de las viviendas en la base de datos. El barrio más frecuente es Valle del Lili, aunque solo representa el 12.12% de los registros, indicando que hay una mayor diversidad de barrios. Finalmente, el estrato 5 es el más común, con 2750 registros, es decir, el 33.06% del total.
Entropía La entropía mide la diversidad o dispersión dentro de una variable. En este caso, el barrio tiene la mayor entropía (4.5181), lo que significa que existe una gran diversidad de barrios, sin una categoría que predomine demasiado. En cambio, el tipo de vivienda tiene una entropía baja (0.6674), lo que indica que la mayoría de las viviendas son apartamentos, mostrando poca diversidad en este aspecto. El estrato también muestra algo de diversidad, con una entropía de 1.3615, lo que refleja que si bien algunos estratos dominan, hay cierta variedad.
Índice de Simpson Este índice mide la probabilidad de que dos registros seleccionados al azar pertenezcan a la misma categoría. Un valor cercano a 1 indica que una categoría predomina, mientras que un valor cercano a 0 refleja una distribución más equitativa entre las categorías. En este caso, el barrio tiene el índice más alto (0.9703), lo que confirma que, aunque hay varios barrios, uno de ellos (Valle del Lili) es muy dominante. Por otro lado, el tipo de vivienda tiene el índice más bajo (0.4744), lo que sugiere que hay un buen equilibrio entre apartamentos y casas, sin que uno de ellos sobresalga demasiado.
El proceso de limpieza de datos no solo garantiza la calidad y coherencia de la información, sino que también prepara la base de datos para su análisis segmentado. Inicialmente, se eliminan las filas que contienen valores nulos en la variable de identificación, asegurando que todas las observaciones sean completas. Luego, se elimina la columna de identificación, ya que no es relevante para el análisis.
Una vez depurada la base de datos, se lleva a cabo la estandarización de algunas variables. En el caso del número de pisos, se eliminan caracteres innecesarios y se convierte en valores numéricos. Posteriormente, se revisan y tratan los valores nulos en esta variable, eligiendo entre la media o la mediana como medida de tendencia central más adecuada según la dispersión de los datos.
Para la variable de parqueaderos, se asigna un valor de cero en caso de ausencia de información, ya que es un escenario válido. En cuanto a las variables que indican la cantidad de baños y habitaciones, se aplica el mismo criterio de selección entre media y mediana para determinar el valor de reemplazo.
Tras la limpieza y estandarización, se procede a segmentar la base de datos en dos conjuntos diferenciados. Se separan los registros correspondientes a apartamentos y casas, lo que permite un análisis específico para cada tipo de vivienda. Esta segmentación es clave para evaluar las características de cada grupo de manera independiente y optimizar el análisis posterior.
Finalmente, se realiza una imputación general en todas las variables restantes. Se reemplazan los valores faltantes y aquellos que presentan ceros en contextos donde no deberían estar, utilizando la medida de tendencia central más adecuada. Con estos procedimientos, se obtiene un conjunto de datos limpio, segmentado y listo para su análisis detallado.
| Variable | Media | Mediana | Desv | Min | Max | Asimetria | Curtosis | IQR | Outliers | NA | Missing |
|---|---|---|---|---|---|---|---|---|---|---|---|
| piso | 4.462157 | 4 | 2.4174829 | 1 | 12 | 1.1178065 | 4.191207 | 2 | 441 | 0 | 0 |
| estrato | 4.727255 | 5 | 0.9774484 | 3 | 6 | -0.2384650 | 2.036701 | 2 | 0 | 0 | 0 |
| preciom | 366.943529 | 279 | 289.2193820 | 58 | 1950 | 2.1604582 | 8.436717 | 255 | 409 | 0 | 0 |
| areaconst | 112.781933 | 90 | 69.3588274 | 35 | 932 | 2.6095900 | 14.178252 | 62 | 395 | 0 | 0 |
| parqueaderos | 1.300588 | 1 | 0.8971636 | 0 | 10 | 0.9363598 | 7.234193 | 1 | 97 | 0 | 0 |
| banios | 2.622549 | 2 | 1.0602933 | 1 | 8 | 0.9514474 | 3.713286 | 1 | 349 | 0 | 0 |
| habitaciones | 2.983725 | 3 | 0.6483871 | 1 | 9 | 0.4084699 | 6.213526 | 0 | 1695 | 0 | 0 |
El análisis descriptivo de los apartamentos permite identificar tendencias y variabilidad en las principales características de las viviendas. En términos de pisos, la media indica que los apartamentos suelen ubicarse en niveles intermedios dentro de los edificios, con un rango que varía desde el primer piso hasta el doceavo. La variable de estrato muestra una distribución homogénea, con una mediana de cinco, lo que sugiere que la mayoría de los apartamentos pertenecen a un nivel socioeconómico medio-alto.
El precio de los apartamentos presenta una dispersión significativa, con valores que oscilan entre los cincuenta y ocho millones y los mil novecientos cincuenta millones de pesos. La asimetría positiva en esta variable indica que existen algunos apartamentos con precios considerablemente altos en comparación con el resto. De manera similar, el área construida muestra una amplia variabilidad, con un promedio de ciento doce metros cuadrados, aunque en algunos casos puede superar los novecientos metros cuadrados.
En cuanto a las características internas, el número de parqueaderos es generalmente bajo, con una mediana de uno, lo que sugiere que la mayoría de los apartamentos cuentan con un solo espacio de estacionamiento. El número de baños y habitaciones también refleja una tendencia similar, con valores centrales de dos y tres, respectivamente. Sin embargo, hay apartamentos con hasta nueve habitaciones, lo que sugiere la presencia de inmuebles de gran tamaño dentro de la muestra.
Los indicadores de asimetría y curtosis en varias variables reflejan una distribución moderadamente sesgada y con presencia de valores extremos, en particular en el precio y el área construida. Además, la presencia de valores atípicos en la mayoría de las variables sugiere que existen apartamentos con características que se alejan de la tendencia general, lo que puede influir en el análisis predictivo.
| Variable | Frecuencia_Modal | Frecuencia_Absoluta | Frecuencia_Relativa | Entropía | Simpson |
|---|---|---|---|---|---|
| zona | Zona Sur | 2787 | 54.65 | 1.0723 | 0.6053 |
| barrio | valle del lili | 840 | 16.47 | 4.1277 | 0.9571 |
| estrato | 5 | 1766 | 34.63 | 1.3304 | 0.7245 |
| piso | 03 | 573 | 15.41 | 2.2898 | 0.8854 |
El análisis de las variables categóricas en los apartamentos revela patrones en la distribución de las viviendas. La mayoría de los apartamentos se encuentran en la zona sur, representando más de la mitad de la muestra, lo que indica una alta concentración de la oferta en esta área. En cuanto a los barrios, Valle del Lili es el más predominante, con un dieciséis por ciento de los registros, lo que sugiere que es un sector de referencia para este tipo de vivienda.
En términos de estrato, la mayor frecuencia se encuentra en el nivel cinco, lo que refleja que la mayoría de los apartamentos pertenecen a un segmento socioeconómico medio-alto. Además, el análisis de los pisos muestra que el tercero es el más común, con una frecuencia relativa del quince por ciento, lo que puede estar relacionado con preferencias de los compradores o la oferta disponible en los edificios residenciales.
Los indicadores de entropía y el índice de Simpson reflejan la diversidad dentro de cada categoría. La entropía muestra qué tan distribuida está la variable en sus diferentes categorías, donde valores más altos indican una mayor diversidad y valores cercanos a cero reflejan que una categoría domina sobre las demás. El índice de Simpson, por su parte, mide la probabilidad de que dos elementos seleccionados al azar pertenezcan a la misma categoría, donde valores más altos indican una menor diversidad. En este caso, el barrio presenta la mayor diversidad en la muestra, seguido del piso, lo que sugiere una mayor variabilidad en la ubicación y altura de los apartamentos.
| Variable | Media | Mediana | Desv | Min | Max | Asimetria | Curtosis | IQR | Outliers | NA | Missing |
|---|---|---|---|---|---|---|---|---|---|---|---|
| piso | 2.084188 | 2 | 0.6749963 | 1 | 10 | 1.9714443 | 18.977635 | 0 | 1027 | 0 | 0 |
| estrato | 4.485244 | 5 | 1.0901059 | 3 | 6 | -0.0471645 | 1.702595 | 2 | 0 | 0 | 0 |
| preciom | 539.993476 | 430 | 358.2027824 | 77 | 1999 | 1.5660663 | 5.284527 | 370 | 217 | 0 | 0 |
| areaconst | 273.406614 | 240 | 171.4243137 | 30 | 1745 | 2.2099840 | 12.302304 | 196 | 101 | 0 | 0 |
| parqueaderos | 1.768872 | 2 | 1.6077463 | 0 | 10 | 1.3398426 | 5.601217 | 1 | 470 | 0 | 0 |
| banios | 3.932898 | 4 | 1.5214957 | 1 | 10 | 0.6046781 | 3.676940 | 2 | 24 | 0 | 0 |
| habitaciones | 4.665735 | 4 | 1.6855259 | 1 | 10 | 1.1105243 | 4.015751 | 1 | 520 | 0 | 0 |
El análisis estadístico de las variables numéricas en las casas permite identificar patrones y características relevantes en la oferta de viviendas. Se observa que la distribución de los pisos está mayormente concentrada en propiedades de uno o dos niveles, con una mediana de dos, aunque algunas alcanzan hasta diez pisos. Esto indica que la mayoría de las casas tienen una altura moderada, mientras que las de múltiples niveles representan casos menos frecuentes.
En cuanto al estrato socioeconómico, la mediana es cinco, lo que sugiere que estas viviendas están principalmente ubicadas en zonas de nivel medio-alto. La baja dispersión de esta variable indica que la mayoría de las casas comparten una clasificación similar en términos de nivel socioeconómico.
El precio de las viviendas presenta una gran variabilidad, con valores que van desde setenta y siete hasta mil novecientos noventa y nueve millones de pesos. La media de quinientos treinta y nueve millones de pesos es superior a la mediana de cuatrocientos treinta millones, lo que sugiere la presencia de valores elevados que aumentan el promedio general. De manera similar, el área construida muestra un amplio rango, con valores entre treinta y mil setecientos cuarenta y cinco metros cuadrados, reflejando una oferta diversa en cuanto a tamaño y distribución del espacio habitable.
El análisis de los parqueaderos indica que la mayoría de las viviendas cuentan con al menos dos espacios de estacionamiento, aunque algunas no disponen de este recurso, mientras que otras pueden llegar hasta diez. En términos de distribución interna, el número de baños y habitaciones presenta una mediana de cuatro, lo que sugiere que estas viviendas están diseñadas para ofrecer un alto nivel de comodidad.
Las métricas de asimetría y curtosis muestran que variables como el precio y el área construida tienen distribuciones sesgadas hacia valores altos, lo que implica la existencia de propiedades significativamente más grandes y costosas en la muestra. Por otro lado, la detección de valores atípicos señala que el precio y el área construida tienen un número considerable de outliers, lo que confirma la presencia de viviendas con características fuera del rango habitual en el conjunto de datos.
| Variable | Frecuencia_Modal | Frecuencia_Absoluta | Frecuencia_Relativa | Entropía | Simpson |
|---|---|---|---|---|---|
| zona | Zona Sur | 1939 | 60.24 | 1.1196 | 0.5751 |
| barrio | ciudad jardín | 295 | 9.16 | 4.6911 | 0.9776 |
| estrato | 5 | 984 | 30.57 | 1.3768 | 0.7451 |
| piso | 02 | 938 | 47.74 | 1.1836 | 0.6521 |
El análisis de las variables categóricas en las casas revela tendencias significativas en la ubicación y características de las viviendas. Se observa que la mayoría de las casas están situadas en la zona sur, donde se concentra más del sesenta por ciento de la oferta. Esto sugiere que esta área es el principal sector de desarrollo de este tipo de propiedades. En cuanto a los barrios, el más representativo es Ciudad Jardín, que agrupa poco más del nueve por ciento de la muestra, indicando que la distribución de las viviendas está ampliamente diversificada en distintos sectores de la ciudad.
En términos de estrato socioeconómico, la categoría predominante es cinco, con aproximadamente el treinta por ciento de las casas dentro de este nivel. Este resultado es consistente con la tendencia observada en la oferta inmobiliaria, donde la mayoría de las casas se encuentran en sectores de ingresos medios y altos. En cuanto a los pisos, cerca del cuarenta y ocho por ciento de las viviendas cuentan con dos niveles, lo que indica que esta configuración es la más común entre las propiedades en la muestra.
Los indicadores de entropía y el índice de Simpson permiten analizar la diversidad dentro de cada variable. La entropía refleja el grado de dispersión de las categorías, donde valores más altos indican una distribución más equitativa entre las opciones disponibles. En este caso, la entropía del barrio es la más elevada, lo que sugiere que las viviendas están repartidas en múltiples sectores sin una dominancia clara de una única ubicación. Por otro lado, el índice de Simpson, que mide la probabilidad de que dos unidades seleccionadas al azar pertenezcan a la misma categoría, muestra valores más bajos en la variable de zona, lo que confirma que la mayoría de las casas se concentran en un área específica.
El análisis de correlación de las variables en los apartamentos antes de
la eliminación de valores atípicos revela relaciones significativas
entre diferentes características de las viviendas. La matriz de
correlación muestra que el precio de los apartamentos presenta una
fuerte asociación con el área construida, con un coeficiente de
correlación de 0.83. Esto indica que a mayor tamaño del apartamento,
mayor es su valor, lo cual es consistente con el comportamiento esperado
del mercado inmobiliario.
Asimismo, se observa que el número de baños y parqueaderos también están altamente correlacionados con el precio, con coeficientes de 0.75 y 0.69, respectivamente. Esto sugiere que las propiedades con más comodidades tienden a tener un valor más elevado. Por otro lado, el estrato socioeconómico muestra una correlación moderada con el precio, alcanzando un valor de 0.67. Esto implica que las viviendas en sectores de mayor estrato generalmente tienen precios más altos, aunque la relación no es tan fuerte como la observada con el tamaño del apartamento.
En cuanto a las relaciones entre las variables explicativas, el área construida y el número de baños presentan una correlación de 0.74, lo que indica que los apartamentos más grandes suelen tener más baños. De manera similar, los parqueaderos y el número de baños también están fuertemente correlacionados con un valor de 0.62, lo que sugiere que los apartamentos con más espacios de estacionamiento suelen incluir un mayor número de baños.
Finalmente, el número de habitaciones muestra una correlación moderada con la mayoría de las variables, aunque su relación con el precio es la más baja entre todas las variables analizadas, con un coeficiente de 0.31. Esto indica que el número de habitaciones no es un determinante tan fuerte del valor del apartamento como lo es el área construida o la cantidad de parqueaderos y baños. En conjunto, estos resultados permiten comprender mejor la estructura del mercado y la interdependencia de las características de los apartamentos.
El análisis de correlación entre las variables de las casas antes de la eliminación de valores atípicos revela tendencias clave en la relación entre características estructurales y su impacto en el precio. Se observa que el precio de las casas tiene una relación positiva con el área construida, con un coeficiente de 0.65, lo que indica que a mayor tamaño de la vivienda, mayor es su precio. Esta relación es consistente con la lógica del mercado inmobiliario, donde el espacio es un factor determinante en el valor de una propiedad.
Asimismo, el estrato socioeconómico muestra una correlación de 0.67 con el precio, lo que sugiere que las casas ubicadas en sectores de mayor estrato suelen tener un valor más alto. También se evidencia una relación moderada entre el número de parqueaderos y el precio, con un coeficiente de 0.59, indicando que las viviendas con más espacios de estacionamiento tienden a ser más costosas.
En cuanto a las relaciones entre las variables explicativas, se destaca que el número de baños tiene una correlación de 0.58 con el precio, lo que significa que las casas con más baños suelen ser más costosas. De manera similar, los parqueaderos presentan una relación de 0.52 con el estrato, lo que sugiere que en sectores de mayor estrato es más común encontrar viviendas con mayor número de parqueaderos.
Por otro lado, el número de habitaciones muestra una correlación baja con el precio, con un coeficiente de 0.31. Este resultado indica que la cantidad de habitaciones no es un factor determinante en la valorización de una casa, a diferencia del área construida o el estrato. Además, se observa una relación negativa entre el estrato y el número de habitaciones, con un coeficiente de -0.14, lo que sugiere que en algunos casos, las casas de estratos más altos pueden no priorizar la cantidad de habitaciones, sino otros aspectos de confort y exclusividad.
En general, estos resultados proporcionan una visión detallada de cómo las características estructurales de las casas influyen en su precio y en su relación con otras variables del mercado inmobiliario.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
Este análisis forma parte del informe final, donde se abordará con mayor profundidad, en dicho apartado, se examinarán con más detalle los factores que influyen en esta relación, considerando variables adicionales como la ubicación, el estrato y las características de las propiedades. Para acceder a la explicación completa, consulte el apartado correspondiente en el Informe de Gerencia.
El diagrama de cajas es una herramienta visual clave para analizar la distribución de las variables numéricas en los apartamentos y detectar posibles valores atípicos. En este gráfico, cada variable se representa con una caja que refleja el rango intercuartílico, es decir, la dispersión central de los datos, mientras que los puntos fuera de los bigotes indican valores que se alejan significativamente de la tendencia general.
Se observa que las variables de precio y área construida presentan una mayor dispersión en comparación con el resto, con múltiples valores alejados de la mediana. Esto sugiere la existencia de apartamentos con precios y dimensiones considerablemente diferentes al promedio, lo que puede deberse a características particulares como ubicación, nivel de lujo o servicios adicionales. Estas diferencias pueden influir en la estimación de precios y en el análisis de correlaciones con otras variables.
Por otro lado, variables como el número de habitaciones, baños y parqueaderos muestran una distribución más concentrada, con menor presencia de valores extremos. Esto indica que la mayoría de los apartamentos tienen configuraciones estándar en estos aspectos, con pocas unidades que se desvían del patrón común.
El análisis de este gráfico permite evaluar si es necesario realizar transformaciones o ajustes en los datos, como la eliminación de valores extremos en caso de que afecten el desempeño de los modelos de predicción. Asimismo, ayuda a comprender la estructura del mercado inmobiliario y la variabilidad dentro de cada característica analizada.
El diagrama de cajas de las variables numéricas en las casas proporciona una representación visual de la distribución y la dispersión de los datos, permitiendo identificar valores atípicos y posibles patrones dentro de la muestra analizada.
En primer lugar, se observa que las variables de precio y área construida presentan una amplia dispersión, con numerosos valores atípicos que se extienden por encima de los bigotes del boxplot. Esto indica que existen casas con precios y dimensiones considerablemente mayores al promedio, lo que puede estar relacionado con factores como la ubicación, el tamaño del lote o características adicionales como zonas verdes y acabados de lujo.
Por otro lado, las variables que describen el número de habitaciones, baños y parqueaderos muestran una menor variabilidad, con distribuciones más concentradas y pocos valores extremos. Esto sugiere que la mayoría de las casas siguen una configuración estándar en términos de número de espacios disponibles, con pocas excepciones que se desvían significativamente de la tendencia general.
Además, la variable de estrato presenta una distribución homogénea, con una mediana clara y pocos valores extremos, lo que indica que la mayoría de las casas se encuentran en un rango socioeconómico similar. En cuanto al número de pisos, la distribución es bastante uniforme, con valores atípicos que representan viviendas con más niveles de los usuales.
El análisis de este diagrama es crucial para evaluar la calidad de los datos y tomar decisiones informadas sobre su tratamiento. La presencia de valores atípicos sugiere la necesidad de una revisión más detallada para determinar si estos datos deben ser transformados, ajustados o conservados en su forma original para un análisis más profundo del mercado inmobiliario.
| Variable | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones |
|---|---|---|---|---|---|---|---|
| Total | 5100.00 | 5100 | 5100.00 | 5100.00 | 5100.0 | 5100.00 | 5100.00 |
| Outliers | 441.00 | 0 | 409.00 | 395.00 | 97.0 | 349.00 | 1695.00 |
| Porcentaje | 8.65 | 0 | 8.02 | 7.75 | 1.9 | 6.84 | 33.24 |
El análisis de los valores atípicos en las variables de los apartamentos permite identificar la magnitud de las desviaciones con respecto a los valores típicos de la muestra. La tabla muestra la cantidad total de observaciones por variable, el número de valores considerados como atípicos y el porcentaje que estos representan dentro del conjunto de datos.
En primer lugar, se destaca que la variable con el mayor porcentaje de valores atípicos es el número de habitaciones, con un 33.24 por ciento del total de observaciones. Esto indica que existen apartamentos con configuraciones de habitaciones que se apartan significativamente de la tendencia predominante, lo que podría deberse a la presencia de unidades de gran tamaño o distribuciones atípicas dentro de la oferta del mercado.
Por otro lado, la variable de precio presenta un 8.02 por ciento de valores atípicos, lo que sugiere la existencia de apartamentos con precios notablemente altos o bajos en comparación con la mayoría de las unidades. Este comportamiento también se observa en el área construida, donde un 7.75 por ciento de los datos se clasifican como valores extremos. Esto puede estar asociado a propiedades de lujo o unidades con áreas considerablemente más reducidas que el promedio del mercado.
En el caso de los parqueaderos y baños, el porcentaje de valores atípicos es menor, con un 1.9 y un 6.84 por ciento respectivamente. Esto indica que, en general, la distribución de estas variables es más homogénea, aunque aún existen unidades que se desvían de la norma.
Finalmente, la variable de estrato no presenta valores atípicos, lo que confirma que la muestra analizada se encuentra dentro de un rango socioeconómico definido y sin grandes desviaciones.
Este análisis es fundamental para determinar la mejor estrategia en el tratamiento de los datos atípicos, ya sea mediante su transformación, eliminación o consideración dentro del modelo en función de su impacto en los resultados finales.
| Variable | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones |
|---|---|---|---|---|---|---|---|
| Total | 3219.0 | 3219 | 3219.00 | 3219.00 | 3219.0 | 3219.00 | 3219.00 |
| Outliers | 1027.0 | 0 | 217.00 | 101.00 | 470.0 | 24.00 | 520.00 |
| Porcentaje | 31.9 | 0 | 6.74 | 3.14 | 14.6 | 0.75 | 16.15 |
El análisis de valores atípicos en las variables de las casas revela información clave sobre la distribución de los datos y la presencia de observaciones que se desvían significativamente de la tendencia general. En la tabla se presenta el total de observaciones por variable, la cantidad de valores atípicos identificados y el porcentaje que estos representan dentro del conjunto de datos.
Uno de los aspectos más destacados es el alto porcentaje de valores atípicos en la variable de piso, con un 31.9 por ciento de los registros. Esto indica que existe una amplia variabilidad en los niveles de las viviendas, posiblemente debido a diferencias en la altura de las edificaciones en distintas zonas.
En el caso del número de habitaciones, el 16.15 por ciento de las casas presenta valores fuera del rango esperado. Esto sugiere la presencia de viviendas con configuraciones espaciales atípicas, lo que podría deberse a propiedades más grandes o con distribuciones inusuales en comparación con la mayoría del mercado.
El precio de las viviendas también muestra una proporción considerable de valores atípicos, con un 6.74 por ciento. Esto indica que dentro de la muestra analizada existen propiedades con precios significativamente superiores o inferiores al promedio, lo que puede estar relacionado con factores como la ubicación, las características de la construcción o el tamaño del terreno.
En cuanto a los parqueaderos, el 14.6 por ciento de los registros se identifican como valores extremos, lo que refleja una variabilidad notable en la disponibilidad de espacios de estacionamiento dentro de las viviendas. Esto podría estar influenciado por el tipo de urbanización y las condiciones del mercado en determinadas áreas.
Por otro lado, el área construida y los baños presentan porcentajes de valores atípicos más bajos, con un 3.14 y 0.75 por ciento respectivamente. Esto indica que estas variables tienden a distribuirse de manera más uniforme, con menos casos que se alejan de la norma.
Finalmente, al igual que en el análisis de apartamentos, la variable de estrato no presenta valores atípicos, lo que confirma que las viviendas analizadas pertenecen a un rango socioeconómico definido sin grandes variaciones.
Este análisis es fundamental para definir estrategias en la limpieza de los datos y en el desarrollo de modelos predictivos, asegurando que las decisiones tomadas sobre el tratamiento de valores atípicos no afecten negativamente la interpretación de los resultados.
Los gráficos de cuantiles teóricos permiten evaluar la normalidad de los datos en las variables analizadas. En la primera imagen, se observa el Q-Q plot del precio en apartamentos antes y después de la transformación logarítmica. Inicialmente, los valores en rojo se desvían significativamente de la línea teórica, lo que indica que los datos no siguen una distribución normal. Sin embargo, tras aplicar la transformación logarítmica, los valores en azul se alinean mejor con la línea teórica, evidenciando una mejora en la normalidad de los datos.
En la segunda imagen, el Q-Q plot del área construida en apartamentos presenta una tendencia similar. Antes de la transformación, los valores en rojo muestran una notable desviación de la normalidad, especialmente en los extremos. Con la transformación logarítmica, los puntos en azul se acercan más a la línea teórica, lo que sugiere una distribución más simétrica y adecuada para el análisis estadístico.
Estas correcciones en la distribución de los datos son fundamentales para garantizar la validez de los modelos de regresión y mejorar la interpretación de los resultados.
Las gráficas de cuantiles normales muestran cómo se comportan los datos del precio y el área construida antes y después de aplicar una transformación logarítmica. Antes de la transformación, los puntos rojos se alejan de la línea teórica, especialmente en los valores más altos, lo que indica una distribución sesgada. Después de la transformación, los puntos azules se alinean mejor con la referencia, mostrando una distribución más equilibrada.
El área construida presenta un patrón similar. Inicialmente, los datos muestran una fuerte desviación en los extremos, lo que sugiere valores atípicos y una distribución con cola larga. La transformación logarítmica mejora este comportamiento, ajustando los valores para que se aproximen más a la normalidad.
En general, la transformación logarítmica ha permitido reducir la asimetría y mejorar la distribución de los datos, lo que facilita el cumplimiento de los supuestos necesarios para el análisis y garantiza que los modelos obtenidos sean más precisos y confiables.
| Estimación | Error Estándar | Valor t | P-valor | Variable |
|---|---|---|---|---|
| 1.4795405 | 0.0439814 | 33.64015 | 0 | (Intercept) |
| 0.6544578 | 0.0121673 | 53.78833 | 0 | areaconst_log |
| 0.2231268 | 0.0046325 | 48.16507 | 0 | estrato |
| 0.1088302 | 0.0054834 | 19.84714 | 0 | parqueaderos |
| 0.0885733 | 0.0051980 | 17.03988 | 0 | banios |
| -0.0798643 | 0.0063748 | -12.52820 | 0 | habitaciones |
El modelo de regresión para apartamentos muestra un coeficiente de determinación de 0.89, lo que indica que explica el 89% de la variabilidad en el precio de los apartamentos a partir de las variables seleccionadas. Este resultado sugiere que el modelo captura de manera efectiva los factores que influyen en el valor de las propiedades.
El valor ajustado, también de 0.89, confirma que el modelo sigue siendo sólido incluso considerando la cantidad de predictores utilizados. El error estándar residual es de 0.22, lo que indica que la diferencia promedio entre los valores observados y los predichos es relativamente baja, asegurando una buena precisión en las estimaciones.
El estadístico F, con un valor de 7910.12, es significativamente alto, lo que demuestra que las variables incluidas en la regresión tienen un impacto relevante en la predicción del precio. Además, el p-valor asociado es prácticamente cero, lo que confirma que los resultados del modelo no son producto del azar y que las relaciones encontradas entre las variables y el precio de los apartamentos son altamente significativas.
Estos resultados validan el uso del modelo como una herramienta confiable para analizar los factores que influyen en el precio de los apartamentos, proporcionando información clave para la toma de decisiones en el mercado inmobiliario.
| Métrica | Valor |
|---|---|
| R² | 0.8858988 |
| R² Ajustado | 0.8857868 |
| Error Estándar Residual | 0.2208834 |
| Estadístico F | 7910.1179786 |
| P-valor F | 0.0000000 |
El modelo de regresión múltiple para apartamentos muestra que el área construida tiene el mayor impacto en el precio, con un coeficiente de 0.65. Esto indica que, en promedio, un aumento en el área construida está asociado con un incremento significativo en el precio del apartamento. El estrato también influye, con un coeficiente de 0.22, lo que sugiere que a medida que el estrato aumenta, el precio tiende a subir.
Los parqueaderos y los baños tienen coeficientes de 0.11 y 0.09 respectivamente, lo que indica que su impacto es menor en comparación con el área construida y el estrato, pero siguen siendo significativos. En contraste, el número de habitaciones presenta un coeficiente negativo de -0.08, lo que sugiere que, manteniendo las demás variables constantes, un mayor número de habitaciones podría estar asociado con una ligera reducción en el precio.
Todos los valores de p son prácticamente cero, lo que confirma que cada variable tiene un efecto estadísticamente significativo en la predicción del precio. Además, los valores t altos refuerzan la relevancia de estas variables dentro del modelo.
Estos resultados permiten concluir que el área construida y el estrato son los factores más determinantes en el valor de los apartamentos, mientras que las demás características también aportan información valiosa pero con un peso menor.
| Variable | vif_apto |
|---|---|
| areaconst_log | 3.563948 |
| estrato | 2.142821 |
| parqueaderos | 2.130792 |
| banios | 3.174564 |
| habitaciones | 1.409406 |
El análisis del factor de inflación de la varianza para los apartamentos indica que no existen problemas graves de multicolinealidad entre las variables incluidas en el modelo. El valor más alto de VIF corresponde al área construida con 3.56, lo que sugiere una relación moderada con otras variables, pero sin alcanzar niveles preocupantes.
El estrato, los parqueaderos y los baños presentan valores de VIF entre 2.1 y 3.1, indicando que comparten cierta información con otras variables, pero sin comprometer la estabilidad del modelo. Por último, el número de habitaciones muestra el valor más bajo con 1.40, lo que indica que tiene poca colinealidad con las demás variables.
Estos resultados confirman que las variables incluidas en el modelo pueden interpretarse de manera confiable, sin que una fuerte dependencia entre ellas distorsione los coeficientes estimados.
l gráfico Q-Q permite evaluar si los residuos del modelo de regresión para apartamentos siguen una distribución normal. En este caso, los puntos se alinean en gran medida con la línea de referencia roja, lo que sugiere que los residuos presentan una distribución cercana a la normalidad. Sin embargo, se observan pequeñas desviaciones en los extremos, lo que puede indicar la presencia de valores atípicos o una ligera asimetría.
Este análisis es fundamental para validar los supuestos del modelo, ya que la normalidad de los residuos es un requisito clave en la regresión lineal. En caso de desviaciones significativas, podrían considerarse transformaciones de los datos o ajustes en la especificación del modelo para mejorar su desempeño.
| Estadístico | df | P.valor | |
|---|---|---|---|
| BP | 524.0737 | 5 | 0 |
La prueba de Breusch-Pagan se utilizó para evaluar la presencia de heterocedasticidad en el modelo de regresión aplicado a los apartamentos. El resultado obtenido muestra un estadístico de 524.0737 con 5 grados de libertad y un valor p de 0. Dado que el valor p es extremadamente bajo, se rechaza la hipótesis nula de homocedasticidad, lo que indica que los residuos del modelo presentan variabilidad no constante.
La presencia de heterocedasticidad puede afectar la eficiencia de los estimadores y la validez de las inferencias del modelo. Para abordar esta situación, se pueden considerar estrategias como la transformación de las variables, la estimación de errores estándar robustos o la aplicación de modelos ponderados que ajusten la varianza de los errores.
El gráfico de la distancia de Cook permite identificar observaciones influyentes en el modelo de regresión aplicado a los apartamentos. En la imagen se observa que la mayoría de los puntos se encuentran cerca de la línea base, lo que indica que la mayoría de las observaciones no ejercen una influencia significativa en los coeficientes del modelo. Sin embargo, hay algunos puntos aislados que presentan valores más altos, lo que sugiere que estas observaciones podrían tener un impacto considerable en los resultados.
La identificación de estos puntos es crucial, ya que pueden distorsionar las estimaciones y afectar la interpretación del modelo. Se recomienda analizar en detalle estas observaciones para determinar si corresponden a datos atípicos, errores en la recopilación de información o características particulares del conjunto de datos. Dependiendo del caso, se pueden tomar decisiones como eliminar los valores atípicos, ajustar el modelo con técnicas robustas o aplicar transformaciones que reduzcan su impacto.
| Estimación | Error Estándar | Valor t | P-valor | Variable |
|---|---|---|---|---|
| 2.3900635 | 0.0518649 | 46.082448 | 0.000000 | (Intercept) |
| 0.4286711 | 0.0111750 | 38.359769 | 0.000000 | areaconst_log |
| 0.2341822 | 0.0062850 | 37.260770 | 0.000000 | estrato |
| 0.0495496 | 0.0043167 | 11.478626 | 0.000000 | parqueaderos |
| 0.0721268 | 0.0046343 | 15.563728 | 0.000000 | banios |
| -0.0084297 | 0.0042340 | -1.990931 | 0.046573 | habitaciones |
El modelo de regresión múltiple aplicado a los datos de casas permite analizar el impacto de diversas variables en el precio. Se observa que la variable del área construida tiene una estimación positiva de 0.4287, lo que indica que un aumento en el área está asociado con un incremento en el precio. El estrato también muestra un efecto positivo con un coeficiente de 0.2341, lo que sugiere que niveles más altos de estratificación tienden a relacionarse con precios más elevados.
Los coeficientes de parqueaderos y baños presentan valores positivos de 0.0495 y 0.0721 respectivamente, reflejando que un mayor número de estos elementos puede influir en un aumento del precio. En contraste, el coeficiente de habitaciones es negativo con un valor de -0.0084, lo que implica que, al mantener constantes las demás variables, un mayor número de habitaciones podría estar relacionado con precios ligeramente más bajos.
El valor t asociado a cada variable es alto en la mayoría de los casos, lo que sugiere una fuerte relación con la variable dependiente. Además, los valores p son significativamente bajos, confirmando que los efectos observados son estadísticamente significativos. Sin embargo, en el caso de las habitaciones, el valor p es de 0.0467, lo que implica que su efecto es menos significativo en comparación con las demás variables.
| Métrica | Valor |
|---|---|
| R² | 0.7953112 |
| R² Ajustado | 0.7949926 |
| Error Estándar Residual | 0.2757091 |
| Estadístico F | 2496.7991741 |
| P-valor F | 0.0000000 |
El modelo de regresión aplicado a las casas muestra un coeficiente de determinación de 0.795, lo que indica que aproximadamente el 79.5 por ciento de la variabilidad en los precios de las viviendas se explica por las variables incluidas en el análisis. El coeficiente ajustado es similar, con un valor de 0.794, lo que sugiere que el modelo no se ve afectado por un exceso de variables irrelevantes.
El error estándar residual es de 0.275, lo que da una medida de la dispersión de los valores residuales en relación con la línea de regresión. En cuanto a la prueba de significancia global, el estadístico F alcanza un valor de 2496.79 con un p-valor de 0.000, lo que confirma que el modelo en su conjunto es altamente significativo.
Estos resultados sugieren que el modelo logra capturar de manera efectiva las relaciones entre las variables explicativas y el precio de las casas. Sin embargo, es importante evaluar otros aspectos como la multicolinealidad y la distribución de los residuos para garantizar que las suposiciones de la regresión se cumplan.
| Variable | VIF |
|---|---|
| areaconst_log | 1.791589 |
| estrato | 1.987126 |
| parqueaderos | 1.601178 |
| banios | 2.104706 |
| habitaciones | 1.704979 |
El análisis del factor de inflación de la varianza para el modelo aplicado a casas muestra valores que oscilan entre 1.60 y 2.10. Estos resultados indican que no hay una colinealidad excesiva entre las variables predictoras, ya que los valores de VIF se mantienen por debajo de 5, que es el umbral generalmente aceptado para detectar posibles problemas de multicolinealidad.
El área construida en escala logarítmica tiene un VIF de 1.79, lo que sugiere una baja relación con las demás variables explicativas. El estrato presenta un valor de 1.98, mientras que el número de parqueaderos, baños y habitaciones tienen valores de 1.60, 2.10 y 1.70 respectivamente, lo que indica que estas variables no están altamente correlacionadas entre sí.
En general, los resultados sugieren que el modelo no presenta problemas graves de redundancia en las variables incluidas, lo que fortalece su estabilidad y la confiabilidad de las estimaciones de los coeficientes.
El gráfico Q-Q para el modelo de casas muestra la distribución de los residuos en comparación con una distribución normal teórica. En general, los puntos se alinean con la línea de referencia, lo que indica que los residuos siguen aproximadamente una distribución normal. Sin embargo, se observan algunas desviaciones en los extremos, lo que sugiere la presencia de valores atípicos o posibles problemas de normalidad en los valores más altos y más bajos de la variable respuesta.
La cercanía de la mayoría de los puntos a la línea de referencia sugiere que el supuesto de normalidad se cumple en gran medida, lo que respalda la validez del modelo para hacer inferencias. No obstante, las ligeras desviaciones en los extremos pueden influir en la precisión de las estimaciones, por lo que podrían evaluarse transformaciones adicionales o técnicas robustas para mitigar estos efectos.
| Estadístico | df | P.valor | |
|---|---|---|---|
| BP | 524.0737 | 5 | 0 |
La prueba de Breusch-Pagan para el modelo de casas presenta un estadístico de 524.07 con cinco grados de libertad y un valor p igual a cero. Este resultado indica una fuerte evidencia a favor de la presencia de heterocedasticidad en los residuos del modelo.
La heterocedasticidad sugiere que la variabilidad de los errores no es constante a lo largo de los valores predichos, lo que puede afectar la eficiencia de las estimaciones de los coeficientes y generar inferencias menos precisas. Para mitigar este problema, es recomendable considerar transformaciones de la variable respuesta, utilizar estimaciones robustas o aplicar modelos que permitan corregir esta condición, como la regresión ponderada o modelos de heterocedasticidad explícita.
El análisis de la distancia de Cook en el modelo de casas permite identificar observaciones que tienen un impacto significativo en la estimación de los coeficientes. La mayoría de los valores se mantienen en niveles bajos, lo que indica que la mayoría de las observaciones no afectan de manera notable la estabilidad del modelo.
Sin embargo, se presentan algunas observaciones con valores más altos, lo que sugiere la presencia de datos con una influencia considerable. Estos puntos pueden representar valores atípicos o casos con un peso desproporcionado en la regresión. La línea de referencia en el gráfico ayuda a visualizar el umbral a partir del cual una observación puede considerarse influyente. Es recomendable analizar en detalle estas observaciones para determinar si es necesario aplicar algún ajuste, como la eliminación de valores extremos o la implementación de técnicas de robustez para mejorar la confiabilidad del modelo.
| Variable | Estimación | Error Estándar | Valor t | P-valor |
|---|---|---|---|---|
| (Intercept) | 1.4152796 | 0.0447563 | 31.62190 | 0 |
| areaconst_log | 0.6676842 | 0.0127450 | 52.38790 | 0 |
| estrato | 0.2241196 | 0.0044536 | 50.32345 | 0 |
| parqueaderos | 0.1002249 | 0.0053997 | 18.56125 | 0 |
| banios | 0.0868043 | 0.0053305 | 16.28438 | 0 |
| habitaciones | -0.0749915 | 0.0062195 | -12.05741 | 0 |
| R² | 0.8828689 | NA | NA | NA |
| R² Ajustado | 0.8827539 | NA | NA | NA |
| Error Estándar Residual | 1.2889360 | NA | NA | NA |
| Estadístico F | 7679.1473878 | NA | NA | NA |
| P-valor F | 0.0000000 | NA | NA | NA |
El modelo de regresión ponderada por mínimos cuadrados fue seleccionado tras evaluar distintas metodologías y determinar que ofrecía el mejor ajuste para el análisis de apartamentos. Los resultados reflejan una sólida capacidad predictiva con un coeficiente de determinación de 0.88, lo que indica que el modelo explica el 88 por ciento de la variabilidad en el precio de los apartamentos.
Entre las variables explicativas, el área construida transformada mostró la mayor influencia con un coeficiente de 0.67, lo que confirma su impacto en el precio. Otras variables como el estrato, el número de parqueaderos y la cantidad de baños también resultaron significativas, con valores t elevados y p-valores cercanos a cero. La variable de habitaciones presentó un coeficiente negativo, lo que sugiere que, manteniendo las demás variables constantes, un mayor número de habitaciones podría estar asociado con precios más bajos, posiblemente debido a una relación con apartamentos de menor tamaño.
El modelo alcanzó un estadístico F de 7679, lo que confirma su solidez y validez estadística. Se redujo la heterocedasticidad mediante la ponderación de los residuos, lo que permitió obtener estimaciones más precisas. Con estos resultados, se logró un modelo estable y confiable para predecir los precios de los apartamentos en función de sus características estructurales.
| Variable | Estimación | Error Estándar | Valor t |
|---|---|---|---|
| (Intercept) | 2.3806063 | 0.0493024 | 48.285800 |
| areaconst_log | 0.4278273 | 0.0106229 | 40.274121 |
| estrato | 0.2334727 | 0.0059744 | 39.078674 |
| parqueaderos | 0.0534123 | 0.0041034 | 13.016569 |
| banios | 0.0696504 | 0.0044053 | 15.810530 |
| habitaciones | -0.0068210 | 0.0040248 | -1.694716 |
| Pseudo R² | 0.7423621 | NA | NA |
| Error Estándar Residual | 0.2406537 | NA | NA |
Para el análisis de casas, se aplicó un modelo de regresión robusta con estimadores menos sensibles a valores atípicos. Este modelo alcanzó un coeficiente de determinación ajustado de 0.74, lo que indica que explica el 74 por ciento de la variabilidad en el precio de las casas a partir de las variables seleccionadas.
El área construida, con un coeficiente de 0.42, resultó ser el factor más influyente en la determinación del precio, lo que confirma su importancia en la valorización de las viviendas. Otras variables como el estrato, el número de parqueaderos y la cantidad de baños también mostraron un impacto significativo. En contraste, el número de habitaciones presentó un coeficiente negativo, lo que sugiere que, bajo ciertas condiciones, una mayor cantidad de habitaciones no necesariamente está asociada con un incremento en el valor de la vivienda.
El modelo robusto permitió mitigar la influencia de valores extremos en la estimación de los coeficientes, lo que llevó a un ajuste más estable. A pesar de que la variabilidad explicada es menor que en los apartamentos, los resultados obtenidos brindan una representación adecuada del mercado de casas y permiten una interpretación confiable de los factores que afectan sus precios.
| Modelo | Ecuación |
|---|---|
| Regresión en Apartamentos | Precio_log = β0 + β1 * AreaConst_log + β2 * Estrato + β3 * Parqueaderos + β4 * Baños + β5 * Habitaciones + ε |
| Regresión en Casas | Precio_log = β0 + β1 * AreaConst_log + β2 * Estrato + β3 * Parqueaderos + β4 * Baños + β5 * Habitaciones + ε |
El análisis de regresión se realizó por separado para apartamentos y casas, ajustando modelos que permiten identificar los factores determinantes del precio de cada tipo de vivienda.
Para los apartamentos, el modelo estima el precio en función del área construida en escala logarítmica, el estrato, el número de parqueaderos, la cantidad de baños y las habitaciones. De manera similar, para las casas se emplea la misma estructura de predictores, asegurando consistencia en la comparación entre ambos segmentos del mercado inmobiliario.
Ambos modelos incluyen una constante y un término de error, lo que permite capturar la variabilidad no explicada por las variables seleccionadas. A través de este enfoque, se logra una mejor comprensión de cómo cada factor influye en la determinación del valor de las propiedades.
El análisis de residuos para el modelo de apartamentos muestra la relación entre los valores ajustados y los residuos, lo que permite evaluar la validez del modelo. En esta gráfica, los residuos se distribuyen alrededor de la línea cero sin seguir un patrón evidente, lo que indica que los errores son aproximadamente aleatorios y que el modelo no presenta problemas graves de heterocedasticidad. Sin embargo, se observa cierta dispersión en los valores extremos, lo que sugiere que el modelo podría tener un menor ajuste en algunos casos específicos. En general, la distribución sugiere que los supuestos de linealidad y homocedasticidad se cumplen razonablemente bien.
El análisis de los residuos en el modelo de regresión para apartamentos es clave para evaluar la adecuación del ajuste y la validez de las inferencias. A través del histograma de residuos, se observa que la mayor parte de los valores se concentran en torno a cero, con una distribución simétrica y sin sesgos pronunciados. Esta forma sugiere que los errores están distribuidos de manera homogénea, lo que es un indicio favorable de que el modelo no está sobreajustado ni omitiendo patrones importantes en los datos.
Para complementar esta evaluación, la gráfica de cuantiles teóricos proporciona una validación adicional sobre la normalidad de los residuos. En esta representación, la mayoría de los puntos se alinean estrechamente con la línea de referencia, lo que sugiere que los errores siguen una distribución normal, un supuesto fundamental en los modelos de regresión lineal. Sin embargo, es posible notar ligeras desviaciones en los extremos, lo que podría indicar la presencia de algunos valores atípicos o una ligera heterocedasticidad en los datos.
La combinación de ambas representaciones confirma que el modelo tiene un buen desempeño en la predicción del precio de los apartamentos, ya que los residuos no muestran patrones sistemáticos ni estructuras que sugieran errores en la especificación del modelo. Además, el cumplimiento de los supuestos estadísticos permite realizar inferencias confiables y tomar decisiones fundamentadas en los resultados obtenidos. En caso de querer optimizar aún más el modelo, podrían explorarse transformaciones adicionales o la inclusión de variables que permitan capturar mejor la variabilidad en los datos.
| Prueba | Estadístico | P-valor |
|---|---|---|
| Breusch-Godfrey | 234.0258176 | 0.0000000 |
| Breusch-Pagan | 189893.9570159 | 0.0000000 |
| Kolmogorov-Smirnov | 0.0307144 | 0.0001325 |
| Anderson-Darling | 10.2617476 | 0.0000000 |
El análisis de las pruebas estadísticas aplicadas al modelo de regresión para apartamentos permite evaluar distintos aspectos clave en la validez de los supuestos del modelo.
La prueba de Breusch-Godfrey tiene como objetivo detectar la presencia de autocorrelación en los residuos. El estadístico obtenido es 234.02, con un valor p de 0.0000, lo que indica una autocorrelación significativa en los residuos. Esto sugiere que las observaciones pueden estar correlacionadas en el tiempo o el espacio, lo que podría afectar la precisión de las estimaciones. Para corregir este problema, podrían emplearse modelos de regresión con errores robustos o enfoques que incorporen estructuras de correlación.
Por otro lado, la prueba de Breusch-Pagan evalúa la presencia de heterocedasticidad, es decir, si la varianza de los errores es constante a lo largo de las observaciones. El estadístico obtenido es 189893.95, con un valor p de 0.0000, lo que confirma que los residuos presentan una varianza no homogénea. Esta situación puede abordarse mediante transformaciones de las variables o utilizando modelos de regresión ponderada por mínimos cuadrados.
La prueba de Kolmogorov-Smirnov permite evaluar si los residuos siguen una distribución normal. En este caso, se obtuvo un estadístico de 0.0307 y un valor p de 0.0001, lo que indica que la distribución de los residuos se desvía significativamente de la normalidad. Esto podría afectar la validez de las inferencias, por lo que sería recomendable utilizar transformaciones o métodos robustos para mejorar la distribución de los residuos.
Finalmente, la prueba de Anderson-Darling refuerza el diagnóstico de normalidad de los residuos. Se obtuvo un estadístico de 10.26 y un valor p de 0.0000, lo que confirma que los errores del modelo no siguen una distribución normal. Esta situación puede afectar la confiabilidad de los intervalos de confianza y los contrastes de hipótesis. Para abordar este problema, pueden explorarse alternativas como la transformación logarítmica de la variable dependiente o la utilización de modelos más flexibles.
| Variable | VIF |
|---|---|
| areaconst_log | 3.514425 |
| estrato | 2.189122 |
| parqueaderos | 2.053983 |
| banios | 3.010933 |
| habitaciones | 1.376739 |
El análisis del Factor de Inflación de la Varianza (VIF) para los apartamentos permite evaluar la presencia de colinealidad entre las variables independientes del modelo de regresión.
El valor más alto corresponde a la variable de área construida transformada logarítmicamente, con un VIF de 3.51. Aunque este valor no es extremadamente alto, indica que esta variable tiene una relación moderada con otras del modelo. En términos generales, un VIF superior a 5 o 10 se considera problemático, pero aquí los valores se encuentran dentro de un rango aceptable.
El estrato presenta un VIF de 2.18, lo que sugiere una baja colinealidad con las demás variables, al igual que el número de parqueaderos, cuyo VIF es de 2.05. Esto indica que estas variables contribuyen de manera independiente a la explicación de la variable dependiente sin generar redundancias significativas.
El número de baños muestra un VIF de 3.01, lo que indica una relación algo más fuerte con otras variables, pero sin alcanzar niveles preocupantes. Finalmente, el número de habitaciones tiene el VIF más bajo, con un valor de 1.37, lo que confirma que su inclusión en el modelo no genera problemas de multicolinealidad.
En conclusión, los valores de VIF para los apartamentos están dentro de un rango adecuado, lo que sugiere que las variables explicativas no presentan colinealidad severa. Esto refuerza la validez del modelo y su capacidad para estimar correctamente los efectos individuales de cada variable sobre el precio de los apartamentos.
El gráfico de residuos versus valores ajustados para el modelo de regresión aplicado a casas permite evaluar la homocedasticidad y la adecuación del modelo. En este caso, los residuos parecen dispersarse de manera aleatoria en torno a la línea roja, lo que sugiere que la variabilidad de los errores es relativamente constante a lo largo de los valores ajustados.
Sin embargo, se observa cierta densidad mayor de residuos en la parte central, lo que podría indicar una ligera tendencia en los datos. A pesar de ello, no se percibe un patrón claro de heterocedasticidad ni una estructura que sugiera que el modelo no se ajusta adecuadamente a los datos.
La dispersión de los residuos es más uniforme a lo largo del rango de valores ajustados, lo que indica que el modelo captura bien la relación entre las variables. Este resultado respalda la validez del modelo utilizado para la predicción del precio de las casas, sin evidencias significativas de violaciones a los supuestos fundamentales de regresión.
El análisis de los residuos para el modelo de casas muestra una distribución con una forma aproximadamente normal, lo que sugiere que los errores siguen un comportamiento esperado. En el histograma, la mayoría de los residuos se encuentran cerca del valor central, con una dispersión reducida en los extremos. La distribución tiene un leve sesgo hacia la derecha, pero sigue dentro de un rango aceptable.
El gráfico de cuantiles teóricos confirma esta tendencia, ya que los puntos siguen en su mayoría la línea diagonal esperada. Sin embargo, en los extremos se observan algunas desviaciones, lo que indica que existen ciertos valores atípicos que se alejan del patrón normal. A pesar de esto, el modelo logra cumplir con el supuesto de normalidad en un nivel aceptable.
La dispersión de los residuos con respecto a los valores ajustados es homogénea, sin una tendencia clara, lo que indica que no hay una relación sistemática entre los errores y las predicciones del modelo. Esto es un buen indicativo, ya que sugiere que el modelo no presenta heterocedasticidad significativa.
En conclusión, los resultados obtenidos muestran que el modelo de regresión para casas tiene un buen ajuste, con residuos que siguen una distribución cercana a la normal y una varianza constante. Aunque existen algunos valores atípicos, no parecen afectar gravemente el desempeño general del modelo.
| Prueba | Estadístico | P-valor |
|---|---|---|
| Durbin-Watson | 1.6093251 | 0 |
| Breusch-Pagan | 65.0463271 | 0 |
| Shapiro-Wilk | 0.9814304 | 0 |
| Anderson-Darling | 14.3783690 | 0 |
El modelo de regresión para casas fue sometido a diversas pruebas estadísticas para evaluar su validez y ajuste. La prueba de Durbin-Watson arrojó un valor de 1.60, lo que indica una ligera autocorrelación de los residuos, aunque dentro de un margen manejable. En términos de heterocedasticidad, la prueba de Breusch-Pagan mostró un estadístico de 65.04 con un p-valor de 0, lo que sugiere que la varianza de los errores no es completamente constante, un aspecto que se tuvo en cuenta en la selección del modelo final.
Para la normalidad de los residuos, la prueba de Shapiro-Wilk obtuvo un estadístico de 0.98, con un p-valor de 0, lo que indica que, aunque hay una ligera desviación de la normalidad, en términos prácticos los residuos siguen una distribución aceptable. Asimismo, la prueba de Anderson-Darling mostró un estadístico de 14.37, confirmando que la distribución de los errores no es perfectamente normal, pero sigue un patrón que permite interpretar los resultados del modelo con confianza.
En conjunto, estos resultados indican que, si bien hay algunos aspectos a considerar en la variabilidad de los residuos, el modelo se mantiene robusto y adecuado para la predicción del precio de las casas. La leve heterocedasticidad identificada fue corregida con técnicas apropiadas, garantizando que el modelo final sea más preciso y confiable.
| Variable | VIF |
|---|---|
| areaconst_log | 1.791589 |
| estrato | 1.987126 |
| parqueaderos | 1.601178 |
| banios | 2.104706 |
| habitaciones | 1.704979 |
El análisis del Factor de Inflación de la Varianza (VIF) permite evaluar la presencia de colinealidad entre las variables explicativas del modelo de regresión aplicado a casas. Los valores obtenidos se encuentran dentro de un rango aceptable, lo que indica que no hay problemas significativos de multicolinealidad.
El área construida en escala logarítmica presenta un VIF de 1.79, lo que sugiere una relación moderada con otras variables, pero sin riesgo de redundancia excesiva. El estrato muestra un valor de 1.99, también dentro de un umbral adecuado. En cuanto a los parqueaderos, el VIF es de 1.60, indicando una relación baja con otras variables predictoras.
Los baños presentan el VIF más alto, con un valor de 2.10, aunque aún dentro de los límites aceptables, lo que sugiere que su contribución al modelo sigue siendo válida. Finalmente, el número de habitaciones tiene un VIF de 1.70, confirmando que su impacto en la predicción del precio de las casas es independiente de las demás variables.
En conjunto, estos resultados indican que el modelo no presenta problemas de colinealidad severa, lo que garantiza estabilidad en las estimaciones y evita sesgos en la interpretación de los coeficientes.
| Vivienda | Área Construida (m²) | Estrato | Parqueaderos | Baños | Habitaciones | Precio Predicho (millones de pesos) | Estado |
|---|---|---|---|---|---|---|---|
| Vivienda 1 | 200 | 4 | 1 | 2 | 4 | 313.15 | Dentro del presupuesto |
Se realizará un análisis detallado de estos registros en la sección Informe de Gerencia para evaluar su impacto en la toma de decisiones estratégicas.
Se realizará un análisis detallado de estos registros en la sección Informe de Gerencia para evaluar su impacto en la toma de decisiones estratégicas.
Análisis y Recomendaciones para la Adquisición de Viviendas en Cali
1. Contexto y Objetivo del Análisis
C&A, la empresa inmobiliaria liderada por María, ha recibido una solicitud de asesoría por parte de una compañía internacional interesada en adquirir dos propiedades para reubicar a sus empleados en la ciudad de Cali. Dada la situación actual del mercado inmobiliario, se ha llevado a cabo un análisis detallado para evaluar las mejores opciones de compra en función de las características deseadas y el presupuesto disponible.
2. Metodología Utilizada
Para responder a esta solicitud, se aplicaron técnicas avanzadas de modelado de datos y análisis estadístico. El proceso incluyó:
3. Resultados Principales
Para comprender mejor la dinámica del mercado inmobiliario en Cali, se han generado gráficos y mapas interactivos que muestran la relación entre el precio de las viviendas y variables clave como área construida, estrato, número de habitaciones y baños. Estas visualizaciones permiten identificar patrones, variaciones por zonas y posibles tendencias que influyen en la valoración de los inmuebles. A continuación, se presentan los análisis correspondientes.
El gráfico de dispersión muestra la relación entre el precio de los apartamentos y el área construida en diferentes zonas de la ciudad. Cada punto representa una propiedad y está coloreado según la zona en la que se encuentra. Se observa una tendencia general en la que, a medida que aumenta el área construida, también lo hace el precio, aunque con cierta dispersión en los valores.
Los apartamentos con áreas menores a 200 metros cuadrados presentan una alta concentración de datos, con precios que oscilan entre los 200 y 1000 millones de pesos, lo que indica que la mayoría de las propiedades en la muestra están dentro de este rango de tamaño. Sin embargo, hay algunas excepciones en las que, a pesar de tener un área reducida, los precios son significativamente más altos, lo que sugiere la influencia de otros factores como la ubicación, el estrato o las características adicionales del inmueble.
Para apartamentos con áreas superiores a 250 metros cuadrados, se observa una menor densidad de puntos, lo que indica que hay menos propiedades en este rango de tamaño. Además, la dispersión de precios en estos casos es mayor, con valores que superan los 1500 millones de pesos en algunas zonas, lo que sugiere que la ubicación y otras características pueden jugar un papel determinante en la valoración de estos inmuebles.
En cuanto a las diferencias por zona, se aprecia que los apartamentos en la zona sur (puntos rosados) tienen una distribución de precios más variada, con una mayor presencia en los rangos de menor área construida. Por otro lado, los apartamentos de la zona norte (puntos en verde) tienden a mostrar precios más elevados, especialmente en los casos con áreas mayores. Este análisis permite identificar tendencias clave para evaluar el mercado de apartamentos en la ciudad y comprender cómo la ubicación y el tamaño afectan el valor de las propiedades.
El gráfico de dispersión representa la relación entre el precio y el área construida de las casas en diferentes zonas de la ciudad. Cada punto simboliza una propiedad y está coloreado según la zona en la que se encuentra. Se observa una tendencia general en la que el precio de las casas aumenta conforme se incrementa el área construida, aunque la dispersión de los datos indica que existen otros factores que influyen en el valor de las propiedades.
En el rango de áreas menores a 500 metros cuadrados, se encuentra la mayor concentración de datos, con precios que oscilan entre 200 y 1000 millones de pesos. Esto sugiere que la mayoría de las casas disponibles en el mercado tienen áreas relativamente reducidas y precios dentro de ese intervalo. Sin embargo, hay puntos que presentan precios superiores a este rango, lo que indica que variables adicionales como la ubicación, el estrato y características particulares pueden influir en la valorización de cada inmueble.
Para las casas con áreas superiores a 500 metros cuadrados, se observa una menor densidad de puntos, lo que implica que hay menos propiedades en esta categoría. Sin embargo, la variabilidad de precios es mucho mayor, con casas que superan los 2000 millones de pesos, particularmente en la zona sur (puntos rosados), lo que sugiere que estas propiedades pueden estar ubicadas en sectores exclusivos o contar con características que las hacen más valiosas.
Comparando entre zonas, la zona sur (puntos rosados) tiene una gran dispersión en precios, abarcando desde viviendas económicas hasta las más costosas. En contraste, la zona norte (puntos en verde) muestra una distribución más concentrada en términos de precios y tamaños, lo que sugiere un mercado más homogéneo. Este análisis es clave para entender cómo el área y la ubicación influyen en la valorización de las casas en la ciudad, proporcionando información relevante para compradores y vendedores en el mercado inmobiliario.
El gráfico de dispersión muestra la relación entre el estrato socioeconómico y el precio de los apartamentos en distintas zonas de la ciudad. Cada punto representa un apartamento y está coloreado de acuerdo con la zona en la que se encuentra. Se observa un patrón claro donde los precios tienden a aumentar a medida que el estrato es más alto.
En los estratos 3 y 4, los precios de los apartamentos se mantienen en un rango relativamente bajo, con la mayoría de los valores por debajo de los 500 millones de pesos. En estos estratos, la dispersión de los precios es menor, lo que sugiere que las propiedades en estas categorías presentan una mayor uniformidad en su valorización.
A partir del estrato 5, los precios comienzan a mostrar una mayor variabilidad, con apartamentos que pueden alcanzar valores cercanos a los 1500 millones de pesos. En este segmento, las diferencias entre zonas son más notorias, con algunas ubicaciones presentando valores significativamente más altos que otras.
En el estrato 6, se observa la mayor concentración de puntos y la mayor dispersión en precios. Aquí se encuentran los apartamentos más costosos, con valores que superan los 2000 millones de pesos. Esto sugiere que en este nivel socioeconómico existen grandes diferencias en las características y ubicaciones de las propiedades, con algunas zonas ofreciendo apartamentos de lujo con precios muy elevados.
Las zonas con mayor representación en los estratos altos parecen ser la zona norte y la zona sur, lo que indica que en estas áreas se encuentran la mayoría de los apartamentos de mayor valor. En contraste, la zona centro y la zona oriente tienen una menor presencia en los estratos más altos, reflejando un mercado inmobiliario con precios más accesibles en estas ubicaciones.
En general, el gráfico confirma que el estrato es un factor clave en la determinación del precio de los apartamentos, pero también muestra que dentro de cada estrato existe una variabilidad significativa de precios, lo que sugiere que otros factores, como el área construida y las características específicas de cada propiedad, también influyen en su valorización.
El gráfico de dispersión ilustra la relación entre el estrato socioeconómico y el precio de las casas en diferentes zonas de la ciudad. Cada punto representa una casa y está codificado por colores según la zona a la que pertenece. Se observa un comportamiento similar al de los apartamentos, en el que los precios aumentan conforme el estrato es más alto, pero con una mayor dispersión en los valores.
En los estratos 3 y 4, los precios de las casas se mantienen mayoritariamente por debajo de los 500 millones de pesos, con una distribución relativamente compacta. Sin embargo, a diferencia de los apartamentos, en este rango ya se evidencian algunas propiedades con precios significativamente más altos, lo que sugiere que otros factores, como el tamaño del terreno o la exclusividad del barrio, podrían influir en la variabilidad de los precios.
En los estratos 5 y 6, la dispersión de precios se incrementa de manera considerable, con casas que superan los 2000 millones de pesos en algunas zonas. Es en estos niveles donde la diferencia entre ubicaciones se vuelve más notoria, con la zona norte y la zona sur destacando como las áreas con los valores más altos. En contraste, las casas en la zona oriente y la zona centro tienden a mantener precios más estables y accesibles, aunque con menor representación en los estratos más altos.
Un aspecto a destacar es que, aunque existe una relación clara entre el estrato y el precio, dentro de cada categoría hay una variabilidad importante en los valores. Esto sugiere que, además del estrato, otros factores como el área construida, el número de parqueaderos y la localización específica dentro de cada zona juegan un papel crucial en la valorización de las casas.
En general, el gráfico confirma que las casas en estratos altos tienden a presentar los precios más elevados, pero también revela que la dispersión de valores dentro de estos estratos es considerablemente mayor en comparación con los estratos más bajos.
El gráfico de dispersión muestra la relación entre el número de habitaciones y el precio de los apartamentos en diferentes zonas de la ciudad. Cada punto representa un apartamento y está codificado por colores según la zona en la que se encuentra.
Se observa una tendencia clara donde los apartamentos con menor número de habitaciones, entre una y tres, son los más comunes y presentan una mayor concentración de precios por debajo de los 1000 millones de pesos. A medida que el número de habitaciones aumenta, el precio también tiende a incrementarse, aunque con una mayor dispersión.
Los apartamentos con cuatro y cinco habitaciones muestran una variabilidad considerable en los precios, con valores que superan los 2000 millones de pesos en algunos casos. Esta dispersión indica que el precio de los apartamentos más grandes no solo depende del número de habitaciones, sino de otros factores como la zona en la que se encuentran, la calidad de la construcción y las comodidades adicionales.
También es notable que los apartamentos con seis o más habitaciones son poco frecuentes y exhiben precios elevados. Estos valores podrían corresponder a propiedades exclusivas, penthouses o apartamentos de lujo ubicados en estratos altos.
En general, el gráfico confirma que existe una relación positiva entre el número de habitaciones y el precio del apartamento, pero también destaca que esta relación no es lineal y está influenciada por otros factores, como la ubicación y el estrato.
El gráfico de dispersión muestra la relación entre el número de habitaciones y el precio de las casas en diferentes zonas de la ciudad. Cada punto representa una casa y está codificado por colores según la zona en la que se encuentra.
Se observa una mayor concentración de casas con entre tres y cinco habitaciones, con precios que varían ampliamente, aunque en su mayoría se mantienen por debajo de los 1000 millones de pesos. A medida que aumenta el número de habitaciones, la dispersión en los precios se incrementa significativamente, lo que indica que otros factores además del tamaño influyen en el valor de la propiedad.
Las casas con seis o más habitaciones presentan una mayor variabilidad en los precios, con algunas propiedades alcanzando valores superiores a los 2000 millones de pesos. Esto sugiere que las casas más grandes pertenecen a sectores de mayor exclusividad o incluyen características adicionales que impactan su valor, como ubicación, acabados o amenidades.
También es notable que en las zonas con mayor concentración de viviendas, como la zona sur, se presentan precios más homogéneos en comparación con otras zonas. En contraste, las zonas norte y oeste muestran una mayor dispersión de precios para casas con un número similar de habitaciones.
En general, el gráfico confirma que existe una relación positiva entre el número de habitaciones y el precio de las casas, aunque con una alta variabilidad, lo que indica que el tamaño no es el único factor determinante en la valorización de estas propiedades.
El gráfico de dispersión muestra la relación entre el número de baños y el precio de los apartamentos en diferentes zonas de la ciudad. Cada punto representa un apartamento y está codificado por colores según la zona en la que se encuentra.
Se puede notar que los apartamentos con uno o dos baños tienen una mayor concentración y tienden a presentar precios más bajos, generalmente por debajo de los 500 millones de pesos. A medida que aumenta el número de baños, el precio de los apartamentos también incrementa, lo que indica una relación positiva entre ambas variables.
Los apartamentos con tres o cuatro baños muestran una mayor variabilidad en los precios, con algunos superando los 1500 millones de pesos. Este comportamiento sugiere que los inmuebles con más baños suelen estar en estratos más altos o en zonas más exclusivas, donde los valores de las propiedades tienden a ser más elevados.
Las zonas con mayor densidad de apartamentos, como la zona sur y la zona norte, presentan una distribución de precios más homogénea, mientras que en la zona oeste y la zona centro hay una mayor dispersión de precios, lo que podría deberse a diferencias en la oferta de apartamentos de lujo o con características adicionales.
El gráfico confirma que el número de baños es un factor relevante en la valorización de los apartamentos, aunque no es el único determinante, ya que otros aspectos como la ubicación y el tamaño del inmueble también influyen significativamente en su precio final.
El gráfico de dispersión muestra la relación entre el número de baños y el precio de las casas en distintas zonas de la ciudad. Cada punto representa una casa y está codificado por colores según la zona en la que se encuentra.
Se observa una tendencia general en la que a mayor cantidad de baños, el precio de las casas tiende a ser más alto. Las casas con uno o dos baños tienen una alta concentración en la parte inferior del gráfico, con precios en su mayoría por debajo de los 500 millones de pesos. En contraste, las casas con cuatro o más baños presentan una mayor dispersión en los precios, alcanzando en algunos casos valores superiores a los 1500 millones de pesos.
La presencia de casas con hasta seis o más baños sugiere que existen propiedades de alto valor en ciertas zonas, probablemente pertenecientes a estratos más altos o con características de lujo. Se destaca la predominancia de casas en la zona sur, que presenta una alta densidad de puntos, lo que indica una mayor oferta de viviendas en esa región.
También se nota que las casas con más de seis baños presentan una variabilidad aún mayor en el precio, lo que puede reflejar diferencias en otros factores como el área construida, la ubicación específica dentro de cada zona y las comodidades adicionales.
Este análisis confirma que el número de baños es un factor importante en la determinación del precio de las casas, pero su influencia varía en función de otros elementos como la ubicación y el tamaño del inmueble.
Este mapa interactivo muestra exclusivamente las propiedades ubicadas en la zona norte de Cali, luego de un proceso de filtrado y corrección de datos. A diferencia de versiones anteriores, en esta visualización se han eliminado registros fuera del área objetivo, asegurando que todas las propiedades representadas correspondan realmente a la ubicación requerida.
La distribución de los puntos revela dos áreas principales de concentración inmobiliaria en el norte de la ciudad. Se observa una mayor densidad de viviendas en las cercanías del centro, con un grupo significativo de ofertas en esta zona. Además, hay otra concentración relevante en el sector más septentrional, lo que sugiere un segundo foco de oferta dentro del área de interés.
| Vivienda | Área Construida (m²) | Estrato | Parqueaderos | Baños | Habitaciones | Precio Predicho (millones de pesos) | Estado |
|---|---|---|---|---|---|---|---|
| Vivienda 1 | 200 | 4 | 1 | 2 | 4 | 313.15 | Dentro del presupuesto |
Gracias al modelo de regresión aplicado, se ha logrado estimar el precio de una propiedad que cumple con las especificaciones requeridas para la primera vivienda. El cliente indicó la necesidad de una casa con un área construida de 200 metros cuadrados, un parqueadero, dos baños y cuatro habitaciones, ubicada en la zona norte de Cali, con un presupuesto máximo de 350 millones de pesos.
El análisis predictivo determinó que el precio estimado para una vivienda con estas características es de 313.15 millones de pesos, ubicándose dentro del rango presupuestado. Esto significa que la empresa internacional podría realizar la compra sin exceder el monto aprobado y disponer de un margen financiero adicional para cubrir gastos administrativos, impuestos o adecuaciones menores en la propiedad.
Además de la predicción del precio, se recomienda evaluar las opciones disponibles dentro de este rango para comparar factores adicionales como la ubicación exacta dentro de la zona norte, el estado de la vivienda y posibles oportunidades de negociación. La metodología empleada ha permitido generar una valoración precisa basada en datos reales del mercado, proporcionando una herramienta confiable para la toma de decisiones en el proceso de adquisición.
Se han identificado cinco propiedades en la zona norte de Cali que cumplen con los criterios de búsqueda de la compañía internacional. Todas las viviendas se encuentran en esta área estratégica y bien valorada, y sus precios oscilan entre 250 y 350 millones de pesos, manteniéndose dentro del presupuesto máximo de 350 millones. Las propiedades tienen características similares a las solicitadas: áreas construidas entre 180 y 220 m², estrato 4, de 3 a 4 habitaciones, 2 baños y al menos 1 parqueadero. La distribución geográfica de las viviendas seleccionadas está concentrada en áreas específicas de la zona norte, lo que facilita la logística para la compañía en términos de ubicación y acceso a servicios. Además, un mapa interactivo permite visualizar la proximidad entre las propiedades, lo que podría ser útil si la compañía desea adquirir viviendas cercanas entre sí.
4. Recomendaciones
5. Conclusión
El análisis detallado de las propiedades y la aplicación de modelos predictivos permitieron seleccionar opciones viables para la adquisición de viviendas, alineadas con los requerimientos de la compañía solicitante. La combinación de metodologías cuantitativas y herramientas de visualización ha facilitado la identificación de las mejores oportunidades dentro del mercado inmobiliario de Cali.