La empresa C&A ha recibido dos solicitudes para la compra de vivienda en la ciudad de Cali. La primera solicitud corresponde a una vivienda tipo casa en la zona norte, con un credito preaprobado de 350 millones de pesos. La segunda corresponde a una vivienda tipo apartamento en la zona sur, con un presupuesto maximo de 850 millones de pesos. Con el fin de apoyar la toma de decisiones, en este informe se realizara un analisis estadistico utilizando informacion reciente del mercado inmobiliario. Para este caso, se trabajara con la base de datos vivienda, la cual contiene informacion sobre diferentes caracteristicas de los inmuebles en la ciudad. La descripción general de la base de datos, incluyendo su dimensión, tipos de variables que la componen e indicadores estadisticos, se presenta en los anexos (Anexo 2.1, Anexo 2.2, Anexo 2.3). Despues de realizar un analisis exploratorio de datos, se estima un modelo de regresion lineal multiple para estimar el precio de las viviendas a partir de variables como el area construida, el estrato, el numero de habitaciones, baños y parqueaderos. Segun los resultados obtenidos, se evaluara si cada solicitud es viable dentro del presupuesto de cada una y se propondran posibles ofertas que se ajusten a las características requeridas en cada caso.
Para la primera solicitud de compra de vivienda, que corresponde a una casa ubicada en la zona norte de la ciudad con un credito preaprobado de 350 millones de pesos, se realiza un analisis estadístico del mercado inmobiliario para este segmento especifico. En esta seccion se presenta la segmentacion de la base de datos, el analisis exploratorio de los datos y la estimacion de un modelo de regresión lineal multiple para explicar el comportamiento del precio de las viviendas. Despues se realizara la validacion de los supuestos del modelo, la prediccion del precio de una vivienda con las caracteristicas solicitadas y el analisis de posibles ofertas del mercado que se ajusten al presupuesto.
Para el analisis de este caso se realizo una segmentacion de la base de datos original, seleccionando unicamente las viviendas tipo casa ubicadas en la zona norte de la ciudad. Esta segmentacion ayuda a enfocar el analisis en el segmento del mercado que corresponde a las caracteristicas de la solicitud evaluada. Aunque se redujo el numero de observaciones, se mantienen las mismas variables de la base de datos original, las cuales seran utilizadas en el analisis exploratorio y en el modelo de regresion lineal multiple. El resumen estadistico de esta base segmentada se presenta en el Anexo 2.4.1 junto con los primeros registros de la base segmentada (Anexo 2.4.2) y la verificacion del numero de observaciones (Anexo 2.4.3).
Aqui se observa la ubicacion geografica de las viviendas tipo casa ubicadas en la zona norte de la ciudad. Cada punto representa una oferta registrada en la base de datos. Se observa una concentracion de viviendas en el sector norte de Cali, lo que indica que el proceso de segmentacion se realizo de manera correcta. Algunos puntos se ubican en sectores cercanos a otras zonas de la ciudad, debido a la forma en que el conjunto de datos clasifica los barrios o por pequeñas imprecisiones en las coordenadas geograficas registradas.
Con el fin de explorar la relacion entre el precio de la vivienda y sus principales caracteristicas, se hara un analisis exploratorio de datos teniendo en cuenta variables como el area construida, el estrato, el número de baños y el numero de habitaciones. Inicialmente se presentara una matriz de correlacion entre las variables numericas para identificar posibles relaciones entre ellas.
## preciom areaconst estrato banios habitaciones
## preciom 1.000 0.731 0.612 0.523 0.323
## areaconst 0.731 1.000 0.457 0.463 0.375
## estrato 0.612 0.457 1.000 0.408 0.107
## banios 0.523 0.463 0.408 1.000 0.576
## habitaciones 0.323 0.375 0.107 0.576 1.000
Aqui se observa la correlacion entre el precio de viviendas tipo casa y las principales variables numericas del conjunto de datos. Se observa que el precio tiene una relacion positiva fuerte con el área construida (0.73), lo que indica que las viviendas con mayor tamaño tienden a tener precios más altos. También se observa una relación positiva entre el precio y el estrato (0.61), lo cual sugiere que las viviendas en estratos más altos tienen un mayor valor. Por otro lado, el numero de baños y de habitaciones tambien presentan relaciones positivas con el precio, aunque de menor intensidad. En general, estos resultados son consistentes con el comportamiento esperado del mercado de vivienda. Por lo tanto, se puede decir que el area construida muestra la relación más fuerte con el precio, por lo que probablemente sera una de las variables más influyentes en el modelo de regresión que se estimara mas adelante.
A continuacion, se presentan algunos graficos que permiten visualizar la relacion entre el precio de viviendas tipo casa y las principales variables explicativas consideradas en el analisis:
En este grafico se observa una relacion positiva entre el area construida y el precio de las casas lo que confirma los resultados obtenidos en la matriz de correlacion en la tabla #3. Cuando el area aumenta, el precio tiende a incrementarse. Sin embargo, hay cierta dispersion en los datos, lo que indica que el precio tambien depende de otras caracteristicas de la vivienda. Ademas, hay mayor concentracion de casas entre areas pequeñas y precios medios, lo cual es normal en el mercado ya que son mas asequibles. Tambien se observan algunos puntos alejados de la tendencia general, como viviendas con areas construidas altas que no presentan precios elevados, así como casos de casas pequeñas con precios altos. Estos valores no necesariamente son atipicos, sino que pueden explicarse por caracteristicas especificas de cada inmueble.
Aqui se observa la relacion entre el precio de las casas y el estrato. La forma vertical de los puntos es porque el estrato es una variable discreta, por lo que varias viviendas comparten el mismo valor en el eje X.Las viviendas tipo casa ubicadas en estratos mas altos presentan precios mayores, especialmente los estratos 4 y 5 que concentran la mayor parte de los valores más altos, mientras que los estratos mas bajos presentan precios menores. Sin embargo, los precios maximos se concentran en gran parte en el estrato 5 y no en el estrato 6 siendo el mas alto. La dispersion dentro de cada estrato indica que el precio tambien depende de otras caracteristicas como el area construida o el numero de baños.
Este grafico muestra la relacion entre el precio de las casas y el numero de baños. La forma vertical de los puntos es porque el numero de baños es una variable discreta, por lo que varias casas comparten el mismo valor en el eje X. Las casas con mayor numero de baños presentan precios mas altos. Tambien se observa dispersion en los precios dentro de cada categoría, lo que indica que el precio depende tambien de otras caracteristicas del inmueble, como el area construida o el estrato. Tambien se observa dos casos con un numero de baños alto (10), lo cual indica que corresponde a una vivienda de gran tamaño o a un inmueble con caracteristicas especificas.
En este grafico se observa la relacion entre el precio de las casas y el numero de habitaciones. Los puntos estan en columnas verticales debido a que el numero de habitaciones es una variable discreta, por lo que varias viviendas tienen el mismo valor en el eje X. La mayor concentracion de observaciones esta entre tres y seis habitaciones, donde tambien esta gran parte de los precios medios del mercado. Tambien se observan algunos registros con cero habitaciones, lo cual indica posibles errores en el registro de la información o valores faltantes, que fueron codificados como cero. Tambien aparecen algunos casos con un número alto de habitaciones (10), que corresponden a casas de gran tamaño o con caracteristicas especificas dentro del mercado.
El analisis exploratorio de datos muestra que el precio de viviendas tipo casa presenta relaciones positivas con variables como el area construida, el estrato, el numero de baños y el numero de habitaciones. De estas variables, el area construida es la que presenta una relacion más fuerte con el precio, segun los graficos presentados y la tabla # 1. Sin embargo, la dispersión observada en los graficos indica que el precio de las casas depende de la combinacion de varias caracteristicas del inmueble. Por esta razón, se estimara un modelo de regresion para evaluar el efecto de estas variables sobre el precio de la vivienda.
Por otro lado, se identificaron algunos registros con valor 0 en las variables habitaciones y baños. Se encontraron 20 observaciones con valor 0 en la variable habitaciones (2.77 % de la base segmentada) y 10 observaciones con valor 0 en la variable baños (1.38 % de la base segmentada). Solo 8 observaciones presentan valor 0 en ambas variables (1.11 % de la base segmentada). En total, 22 registros presentan al menos una de estas condiciones (3.05 % del total de la base segmentada). Estos valores representan inconsistencias de codificacion o a caracteristicas especificas de algunos inmuebles. Por esta razon, se decidio mantener estos datos para el analisis ya que representan una proporcion baja respecto al total de observaciones y teniendo en cuenta que su impacto en la estimacion del modelo es limitado. Sin embargo, se tendra en cuenta este aspecto en el analisis.
Con el proposito de evaluar el efecto conjunto de las principales caracteristicas de las viviendas tipo casa sobre su precio, se estima un modelo de regresion lineal multiple utilizando la base segmentada de viviendas tipo casa en la Zona Norte. En este modelo se consideran como variables explicativas el area construida, el estrato, el numero de habitaciones, el numero de parqueaderos y el numero de baños.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -238.1708979 44.40550685 -5.363544 1.337033e-07
## areaconst 0.6767346 0.05281212 12.814001 4.703697e-32
## estrato 80.6349477 9.82632265 8.206015 2.695869e-15
## habitaciones 7.6451100 5.65873378 1.351028 1.773984e-01
## parqueaderos 24.0059798 5.86888568 4.090381 5.144402e-05
## banios 18.8993776 7.48800292 2.523954 1.196428e-02
Los resultados del modelo muestran que las variables area construida, estrato, numero de parqueaderos y numero de baños tienen un efecto positivo y estadisticamente significativo sobre el precio de las casas. Esto indica que, cuando estas variables aumentan, el precio de la inmueble tiende a incrementarse. De todas las variables, el area construida es la variable que presenta la relacion mas fuerte con el precio, lo cual coincide con lo observado en el analisis exploratorio. Por otro lado, el numero de habitaciones no es estadisticamente significativo, lo que indica que, al tener en cuenta otras caracteristicas de la vivienda, el numero de habitaciones no tiene un efecto importante sobre el precio. El resultado completo de la estimacion del modelo se presenta en el Anexo 2.4.4.
El coeficiente de determinación (R²) del modelo es de 0.6041 (Anexo 2.4.4), lo que indica que aproximadamente el 60% de la variacion del precio de las casas es explicada por las variables incluidas en el modelo. Esto indica que el modelo tiene un buen nivel de ajuste para describir el comportamiento del precio en este segmento del mercado.El coeficiente de determinacion ajustado es de 0.5995, un valor muy cercano al R² del modelo, lo que indica que las variables incluidas aportan informacion relevante para explicar el precio. Aunque el modelo explica una parte importante del comportamiento del precio, su capacidad predictiva se podria mejorar incluyendo otras variables como el barrio especifico, la antiguedad del inmueble y el nivel de acabados de las casas.
Para poder evaluar la validez del modelo de regresión lineal estimado previamente, se realiza la verificacion de los principales supuestos del modelo. En especifico, se analizan los supuestos de linealidad, normalidad de los residuos, homocedasticidad y la posible presencia de observaciones influyentes.
En el grafico de residuos frente a valores ajustados se observa que los residuos se distribuyen de manera aleatoria alrededor de la linea de referencia (0). No se identifica un patron claro, lo que significa que la relacion entre las variables explicativas y el precio de las viviendas tipo casa puede considerarse lineal, lo cual cumple el supuesto de linealidad del modelo. Sin embargo, en el grafico tambien se observan algunos puntos marcados(405,513 y 632), los cuales presentan residuos altos. Estas observaciones corresponden a casas donde el modelo presenta un mayor error en la estimacion del precio. Sin embargo, como son pocos casos y no siguen un patron especifico, no afectan de manera importante la interpretacion general del modelo.
En este grafico se esta verificando si los residuos del modelo siguen una distribucion normal. Se observa que la mayoria de los puntos se ubican cerca de la línea de referencia, lo que indica que los residuos presentan un comportamiento aproximadamente normal. Aunque algunos puntos en los extremos se alejan ligeramente de la linea, esto es comun en datos reales y no afecta de manera importante la validez del supuesto de normalidad.
En este grafico se esta verificando si la varianza de los errores se mantiene constante a medida que aumentan los valores ajustados del modelo. Se observa que los residuos presentan una dispersion uniforme, aunque hay una tendencia de aumento para valores altos del precio estimado. Este comportamiento es comun en datos de precios de vivienda y no afecta de manera importante el supuesto de homoscedasticidad.
Se observa que la mayoria de las observaciones se concentran en la zona central del grafico, lo que indica que no presentan una influencia significativa sobre el modelo. Sin embargo, se observa que la observacion 632 presenta un valor de leverage alto y un residuo grande, la cual esta cerca de la curva de Cook’s Distance. Esto indica que podria generar una potencial influencia sobre el modelo, por lo que seria recomendable revisarla con mayor detalle en un analisis posterior.
Segun los graficos de diagnostico y los resultados de la prueba de Durbin-Watson (Anexo 2.4.5), se puede concluir que los supuestos del modelo de regresion se cumplen de manera razonable. Los residuos no muestran patrones claros de no linealidad, su distribución es aproximadamente normal y la variabilidad de los errores se mantiene constante a lo largo de los valores estimados. Aunque se identifican algunas observaciones con residuos altos y una ligera autocorrelacion entre los errores, estos aspectos no afectan de forma importante la interpretacion del modelo. Como sugerencia, en futuros analisis podria evaluarse la inclusion de variables adicionales que ayuden a explicar mejor el precio de las viviendas, así como revisar la posible presencia de multicolinealidad entre algunas variables explicativas, ya que caracteristicas como el area construida, el numero de habitaciones o el numero de baños podrían estar relacionadas entre si.
Con el modelo ya estimado se procede a predecir el precio de una viviendas tipo casa con las caracteristicas de la primera solicitud. Las caracteristicas son: una vivienda tipo casa ubicada en la zona norte de la ciudad, con un area construida de 200 m², un parqueadero, dos baños y cuatro habitaciones. Debido a que la solicitud indica que el estrato puede ser 4 o 5, se realizan dos escenarios de prediccion para mostrar ambos escenarios. Adicionalmente, los resultados se complementan con un intervalo de prediccion al 95 %, para observar el rango probable en el que podria encontrarse el precio de una casa con estos atributos segun el modelo estimado.
## Estrato Precio_estimado_millones
## 1 4 312.1010
## 2 5 392.7359
Los resultados muestran que para una casa de estrato 4, el precio estimado es de 312.10 millones de pesos, mientras que para una casa de estrato 5 el precio estimado es de 392.74 millones de pesos. Estos resultados indican que el estrato tiene un impacto importante en el valor de la casa, ya que el precio estimado aumenta a medida que el estrato es mayor. Al comparar estos valores con el credito preaprobado de 350 millones de pesos, se observa que una casa de estrato 4 se encuentra dentro del presupuesto aprobado, mientras que una casa de estrato 5 superaria el limite establecido. Por lo tanto, las opciones que se ajustan a esta solicitud se encuentran en casas de estrato 4, o en casas de estrato 5 que se ajusten a ese presupuesto, por ejemplo en casos donde la casa requiera reparaciones, tenga mayor antiguedad o cuando el propietario tenga urgencia de venta y ofrezca un precio por debajo del valor estimado por el mercado.
## Estrato Prediccion Limite_inferior Limite_superior
## 1 4 312.1010 6.205196 617.9968
## 2 5 392.7359 86.196368 699.2755
Como complemento a las predicciones, se calculo un intervalo de predicción al 95 % para poder observar el rango probable en el que podria encontrarse el precio real de una casa con estas caracteristicas. Los resultados muestran que para una casa de estrato 4 el precio estimado es de 312.10 millones de pesos, con un intervalo aproximado entre 6.21 y 617.99 millones de pesos. Para una casa de estrato 5 el precio estimado es de 392.74 millones de pesos, con un intervalo entre 86.20 y 699.28 millones de pesos. La amplitud de los intervalos muestra la variabilidad en los precios del mercado inmobiliario e indica que existen otros factores importantes que no estan incluidos en el modelo, como la ubicación especifica del inmueble, su estado o caracteristicas particulares de la casa.
Despues de realizar la prediccion del precio, se identifican posibles ofertas disponibles en el mercado que se ajusten al presupuesto maximo de 350 millones de pesos. Se utiliza la base de datos segmentada de viviendas tipo casa ubicadas en la zona norte de la ciudad. A partir de esta base de datos se seleccionan las viviendas que cumplen con el presupuesto y presentan caracteristicas similares a la solicitud, para proponer cinco alternativas de compra.
## # A tibble: 5 × 7
## barrio preciom areaconst estrato habitaciones banios parqueaderos
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 la flora 320 200 5 4 4 2
## 2 la merced 320 200 4 4 4 2
## 3 el bosque 350 200 5 4 3 3
## 4 el bosque 335 202 5 5 4 1
## 5 el bosque 350 203 5 5 2 2
Se observan las cinco ofertas potenciales de viviendas tipo casa ubicadas en la zona norte de la ciudad que cumplen con el presupuesto maximo de 350 millones de pesos. Las viviendas seleccionadas presentan un area construida cercana a los 200 m² y pertenecen a los estratos 4 y 5, por lo que coinciden con dos solicitudes del caso. Sin embargo, no todas las ofertas cumplen con la combinacion requerida de habitaciones, baños y parqueaderos, lo que indica que en la base de datos no se encontraron viviendas identicas al perfil solicitado dentro del presupuesto disponible. La oferta que mas se acerca al perfil solicitado es la casa ubicada en el barrio El Bosque, con un precio de 350 millones de pesos, un area construida de 200 m², 4 habitaciones, 3 baños, 3 parqueaderos y estrato 5, ya que coincide con el area, numero de habitaciones, estrato, zona y precio. Sin embargo, las demas ofertas seleccionadas son alternativas cercanas a las condiciones solicitadas y sus precios se encuentran entre 320 y 350 millones de pesos, por lo que son opciones viables dentro del mercado de casas en la zona norte de la ciudad.
En el mapa se observa la ubicacion de las cinco ofertas de casas identificadas dentro del presupuesto de 350 millones de pesos. Segun la Tabla #5, tres de las casas corresponden al barrio El Bosque, mientras que las otras dos se ubican en los barrios La Flora y La Merced, todos ubicados en la zona norte de la ciudad de Cali. Sin embargo, en el mapa algunos puntos pueden verse en sectores cercanos debido a pequeñas diferencias en las coordenadas registradas en la base de datos. Debido a esto, una de las viviendas que aparece como ubicada en El Bosque puede visualizarse en el mapa en un punto cercano al sector de La Flora. Sin embargo, las cinco ofertas se encuentran dentro de la zona norte de la ciudad, lo que confirma que las alternativas identificadas cumplen con la ubicacion solicitada y son opciones viables dentro del presupuesto establecido.
Los resultados del analisis indican que el precio de las casas en la zona norte esta muy asociado con variables como el area construida y el estrato, lo que coincide con el comportamiento del mercado inmobiliario. Despues de estimar el modelo se encontro que una casa con las caracteristicas de la solicitud tendria un precio aproximado de 312 millones de pesos en estrato 4 y alrededor de 392 millones en estrato 5. Esto indica que, teniendo en cuenta el presupuesto maximo de 350 millones de pesos, las opciones mas viables se encuentran en viviendas de estrato 4 y en algunas viviendas de estrato 5 que estan en el rango mas bajo de precios dentro del mercado.
El analisis de las ofertas disponibles indica que existen varias casas en la zona norte que se aproximan a las condiciones solicitadas. Se identificaron cinco ofertas potenciales ubicadas en los barrios El Bosque, La Flora y La Merced, todas dentro del presupuesto establecido. Aunque no todas las viviendas coinciden exactamente con todas las caracteristicas solicitadas en cuanto baños y parqueaderos, son las alternativas mas cercanas al perfil solicitado dentro de la base de datos analizada.
La casa que mas se acerca al perfil solicitado es la opcion 3 de la Tabla #5, ubicada en el barrio El Bosque, con un precio de 350 millones de pesos, un area construida de 200 m², 4 habitaciones, 3 baños y 3 parqueaderos. Aunque esta opcion es de estrato 5 y el modelo estima para este estrato un precio cercano a 392 millones de pesos, esta vivienda sigue siendo viable dentro del presupuesto. Las potenciales casas de estrato 5 identificadas previamente presentan precios inferiores al valor estimado por el modelo, debido a factores propios del mercado, como la oferta disponible, la demanda en el momento, la antiguedad del inmueble o las condiciones especificas de la casa. Esto no significa que el modelo este mal ajustado, sino que muestra la variabilidad del mercado inmobiliario. Para finalizar, estas ofertas confirman que la solicitud de compra es viable dentro del presupuesto aprobado y que existen varias opciones reales dentro del mercado de casas en la zona norte de Cali.
Para el segundo caso se analiza la solicitud de compra de una vivienda tipo apartamento ubicada en la zona sur de la ciudad, con un presupuesto maximo de 850 millones de pesos. Al igual que en el caso anterior, se realiza un analisis del mercado inmobiliario utilizando la base de datos Vivienda, para identificar las caracteristicas que influyen en el precio de este tipo de viviendas. Para cumplirlo, se segmenta la base de datos seleccionando unicamente los apartamentos ubicados en la zona sur, despues se realiza un analisis exploratorio y la estimación de un modelo de regresion lineal multiple. Despues se realizara la validacion de los supuestos del modelo, la prediccion del precio de una vivienda con las caracteristicas solicitadas y el analisis de posibles ofertas del mercado que se ajusten al presupuesto.
Para enfocar el analisis en el segmento especifico del mercado inmobiliario de este caso, se realiza una segmentacion de la base de datos original seleccionando solamente los apartamentos localizados en la zona sur. Aunque se redujo el numero de observaciones, se mantienen las mismas variables de la base de datos original, las cuales serán utilizadas en el analisis exploratorio y en el modelo de regresion lineal multiple. El resumen estadistico de esta base segmentada se presenta en el Anexo 2.5.1, donde se presentan las principales características de las viviendas tipo apartamento incluidas en el analisis. Ademas, se presentan los primeros tres registros de la base segmentada (Anexo 2.5.2) y la verificacion del numero de registros (Anexo 2.5.3).
Aqui se observa la distribucion geografica de los apartamentos incluidos en la base segmentada correspondiente a la zona sur de la ciudad. Se observa una mayor concentracion de apartamentos en los sectores del sur y suroccidente, lo que indica que la mayoria de los registros se ubican en el area definida para el analisis del caso. Tambien se identifican algunas observaciones más dispersas en areas cercanas, lo que indica la presencia de ofertas distribuidas en distintos puntos de esta zona de la ciudad.
Para explorar la relacion entre el precio de la vivienda y sus principales caracteristicas, se realizara un analisis exploratorio de datos teniendo en cuenta variables como el area construida, el estrato, el número de baños y el numero de habitaciones. Inicialmente se presentara una matriz de correlación entre las variables numericas para poder identificar posibles relaciones entre estas variables y el precio de los apartamentos en la zona sur.
## preciom areaconst estrato banios habitaciones
## preciom 1.000 0.758 0.673 0.720 0.332
## areaconst 0.758 1.000 0.482 0.662 0.434
## estrato 0.673 0.482 1.000 0.569 0.213
## banios 0.720 0.662 0.569 1.000 0.515
## habitaciones 0.332 0.434 0.213 0.515 1.000
En esta matriz se observa que el precio de viviendas tipo apartamento presentan una relacion positiva alta con el area construida (0.758) y con el numero de baños (0.720), lo que indica que a mayor tamaño del apartamento y mayor numero de baños, mayor tiende a ser el precio. Tambien se observa una correlacion moderada con el estrato (0.673), mientras que la relacion con el número de habitaciones es más baja (0.332). Estos resultados significan que variables como el area construida y el numero de baños tienen una mayor relacion con el precio dentro del mercado de apartamentos en la zona sur.
A continuacion, se presentan algunos graficos que permiten visualizar la relacion entre el precio de los apartamentos y las principales variables explicativas consideradas en el analisis:
Se observa una tendencia positiva clara entre el area construida y el precio de los apartamentos ya que a medida que aumenta el area, el precio tiende a incrementarse. La mayor concentracion de observaciones se encuentra en areas entre aproximadamente 50 y 120 m², con precios entre 150 y 500 millones de pesos. Tambien se identifican algunos valores extremos, correspondientes a apartamentos de mayor tamaño y precios superiores a 1.000 millones, lo que indica la presencia de propiedades de mayor valor dentro del mercado. Estos valores extremos corresponden a apartamentos con mejores caracteristicas dentro del mercado analizado, por lo tanto no requieren ser eliminados.
Aqui se observa que los precios tienden a aumentar a medida que aumenta el estrato socioeconomico. La mayor concentracion de apartamentos esta en estratos 4, 5 y 6, especificamente en estrato 6, donde se observan tambien los precios mas altos. Los apartamentos de estrato 3 presentan precios mas bajos y con menor dispersion, mientras que en los estratos mas altos hay mayor variabilidad en los precios, incluyendo algunos valores extremos. Estos valores extremos no son necesariamente datos atipicos, ya que pueden corresponder a apartamentos de mayor valor dentro del mercado analizado, por lo que no se considera necesario realizar ajustes o eliminaciones en esta etapa del analisis.
Se observa una tendencia positiva moderada entre el numero de baños y el precio de los apartamentos. Hay mayor concentracion de observaciones en apartamentos con 2 y 3 baños, con precios que se ubican entre 200 y 700 millones de pesos. A medida que aumenta el numero de baños, se observan precios mas elevados, aunque tambien se observa una mayor dispersion y algunos valores extremos relacionados con apartamentos de mayor tamaño o estrato. Estos valores extremos corresponden a apartamentos con mejores caracteristicas o mayor tamaño, por lo que no se consideran datos atipicos dentro del mercado analizado.
Se puede observar que la mayoria de los apartamentos cuentan con 2 o 3 habitaciones, donde se encuentran la mayor parte de los registros. La relacion entre el numero de habitaciones y el precio es menos notoria que en otras variables, aunque los apartamentos con mayor numero de habitaciones tienden a presentar precios más altos. Tambien se identifican algunos valores extremos, especialmente en apartamentos con mas habitaciones y precios elevados.Estos valores son propiedades con mejores caracteristicas dentro del mercado, por lo que no se consideran datos atipicos en este analisis.
El analisis exploratorio del caso indica que el precio de los apartamentos esta relacionado directamente con el area construida, el estrato y algunas caracteristicas de los apartamentos como el numero de baños y habitaciones. Se observa que a mayor area construida, el precio tiende a aumentar, lo cual confirma el comportamiento del mercado inmobiliario. Los graficos tambien muestran que la mayor parte de los apartamentos se concentran en rangos intermedios de area y precio. Aunque aparecen algunos valores mas altos, estos corresponden a apartamentos más grandes o ubicados en estratos más altos, por lo que no necesariamente son datos extremos. Estos resultados indican que las variables analizadas pueden ayudar a explicar el comportamiento del precio de los apartamentos y por esta razon se utilizaran en la estimacion del modelo de regresion.
Por otro lado, se identificaron algunos registros con valor 0 en las variables habitaciones y baños. Se encontraron 8 observaciones con valor 0 en la variable habitaciones (0.29 % de la base segmentada) y 6 observaciones con valor 0 en la variable baños (0.22 % de la base segmentada). Solo 4 registros presentan valor 0 en ambas variables (0.14 % de la base segmentada). En total, 10 registros presentan al menos una de estas condiciones (0.36 % del total de la base segmentada). Estos valores representan inconsistencias de codificacion o caracteristicas especificas de algunos apartamentos. Por esta razan, se decidió mantener estos datos para el analisis ya que representan una proporción muy baja respecto al total de observaciones y teniendo en cuenta que su impacto en la estimacion del modelo es limitado. Sin embargo, se tendra en cuenta este aspecto en el analisis.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -261.625007 15.63219638 -16.736292 1.602235e-59
## areaconst 1.285049 0.05402696 23.785327 2.394444e-112
## estrato 60.897089 3.08407593 19.745651 1.763068e-80
## habitaciones -24.836930 3.89228641 -6.381064 2.107473e-10
## parqueaderos 72.914680 3.95796778 18.422252 6.040230e-71
## banios 50.696747 3.39637453 14.926725 3.164625e-48
Los resultados del modelo muestran que las variables area construida, estrato, numero de parqueaderos y numero de baños tienen un efecto positivo y significativo sobre el precio de los apartamentos. Esto indica que, cuando estas caracteristicas aumentan, el precio de este tipo de vivienda tiende a incrementarse. De todas las variables, el area construida tiene una relacion importante con el precio, lo que coincide con los resultados del analisis exploratorio. Por otro lado, el numero de habitaciones presenta un coeficiente negativo, esto indica que manteniendo constante el area construida, mayor cantidad de habitaciones significa espacios mas pequeños dentro del apartamento, lo que afecta el valor del apartamento.
El coeficiente de determinacion (R²) del modelo es de 0.7485 (Anexo 2.5.4), lo que significa que aproximadamente el 74.85 % de la variacion del precio de los apartamentos es explicada por las variables incluidas en el modelo. El coeficiente de determinacion ajustado es de 0.748, un valor cercano al R², lo que indica que las variables incluidas aportan informacion relevante para explicar el comportamiento del precio en este segmento del mercado. Aunque el modelo presenta un buen nivel de ajuste, su capacidad explicativa mejoraria adicionando otras variables importantes del mercado inmobiliario, como el barrio especifico, la antiguedad del apartamento, el piso donde esta ubicado, el estado de los acabados y la presencia de zonas comunes dentro de los edificios. El resumen completo de la estimacion del modelo se presenta en el Anexo 2.5.4.
Para evaluar la validez del modelo de regresion lineal estimado previamente, se realiza la verificacion de los principales supuestos del modelo. En especifico, se analizan los supuestos de linealidad, normalidad de los residuos, homocedasticidad y la posible presencia de observaciones influyentes. Para ello se utilizan los graficos de diagnostico generados a partir del modelo estimado.
Aqui se observa como se distribuyen los errores del modelo en relacion con los precios estimados. Los residuos se encuentran dispersos alrededor de la linea de referencia (0), lo que indica que el modelo no presenta patrones de error y que la relacion entre las variables explicativas y el precio puede considerarse lineal. Aunque se observa una mayor dispersion en algunos valores altos del precio, no afecta el modelo ya que este comportamiento es comun en datos del mercado inmobiliario.
En este grafico se esta verificando si los residuos del modelo siguen una distribucion aproximadamente normal. Se observa que la mayoria de los puntos se ubica cerca de la linea de referencia, lo que indica que los residuos presentan una distribucion aproximadamente normal. Aunque se presentan algunas desviaciones en los extremos, el comportamiento de estas observaciones no afecta la validez del modelo al ser comun en el mercado inmobiliario.
En este grafico se esta verificando si la varianza de los errores es constante a lo largo de los valores ajustados del modelo. Se observa que los puntos se encuentran dispersos sin formar un patron definido, aunque se observa un pequeño aumento en la dispersion para valores mas altos del precio estimado. Este comportamiento es comun en datos de mercados inmobiliarios y no afecta la validez de este supuesto.
Se observa que la mayoria de las observaciones se agrupan en la zona cercana al origen, lo que indica que la mayor parte de los errores no presenta una influencia significativa en el ajuste del modelo. Aunque, se identifican algunos puntos mas alejados que podrian considerarse potencialmente influyentes (977, 2569) al estar cerca de las lineas de referencia de la distancia de Cook. Por otro lado, la observación 2383 se encuentra mucho mas alejada de los demas datos y presenta una mayor distancia respecto a estas lineas, lo que significa que podria generar una influencia sobre el modelo. Como sugerencia, en futuros analisis seria adecuado revisar estas 3 observaciones para verificar si corresponden a propiedades con caracteristicas particulares o valores extremos que puedan afectar la estimacion del modelo.
Segun los graficos y los resultados de la prueba de Durbin-Watson (Anexo 2.5.5), se puede concluir que los supuestos del modelo de regresion se cumplen de manera apropiada. Los residuos no presentan patrones claros de no linealidad, su distribución es normal y la variabilidad de los errores se mantiene constante a lo largo de los valores estimados. Aunque se observa algunos registros con mayor leverage y residuos más altos, asi como una pequeña autocorrelacion entre los errores, estos aspectos no afectan de manera significativa la interpretacion general del modelo. Como sugerencia, en futuros analisis podria evaluarse con mas detalle algunas observaciones potencialmente influyentes, así como considerar variables adicionales que permitan explicar mejor el comportamiento del precio de los apartamentos, como el barrio especifico, la antiguedad del apartamento, el estado de los acabados de la propiedad o el piso donde esta ubicado.
Con el modelo ya estimado se procede a predecir el precio del inmueble con las caracteristicas de la segunda solicitud. Las caracteristicas son: un apartamento ubicado en la zona sur de la ciudad, con un área construida de 300 m², tres parqueaderos, tres baños y cinco habitaciones. Debido a que la solicitud indica que el estrato puede ser 5 o 6, se realizan dos escenarios de prediccion para mostrar ambos escenarios. Adicionalmente, los resultados se complementan con un intervalo de prediccion al 95 %, para observar el rango probable en el que podria encontrarse el precio de un apartamento con estos atributos segun el modelo estimado.
## Estrato Precio_estimado_millones
## 1 5 675.0247
## 2 6 735.9218
Segun las predicciones,para un apartamento de estrato 5, el precio estimado es de aproximadamente 675.02 millones de pesos, mientras que para un apartamento de estrato 6 el precio estimado es de aproximadamente 735.92 millones de pesos. Estos resultados indican que el estrato tiene un impacto importante en el valor de los apartamentos, ya que el precio estimado aumenta a medida que el estrato es mayor. Al comparar estos valores con el credito preaprobado de 850 millones de pesos, se puede decir que ambos escenarios se encuentran dentro del presupuesto. Por lo tanto, el comprador tiene la posibilidad de adquirir un apartamento tanto en estrato 5 como en estrato 6 con las caracteristicas solicitadas.
## Estrato Prediccion Limite_inferior Limite_superior
## 1 5 675.0247 481.4550 868.5945
## 2 6 735.9218 542.3141 929.5296
Como complemento a las predicciones, se calculo un intervalo de prediccion al 95 % para observar el rango en el que podria encontrarse el precio real de un apartamento con estas caracteristicas. Los resultados muestran que para un apartamento de estrato 5 el precio estimado es de 675.02 millones de pesos, con un intervalo aproximado entre 481.46 y 868.59 millones de pesos. Para un apartamento de estrato 6 el precio estimado es de 735.92 millones de pesos, con un intervalo entre 542.31 y 929.53 millones de pesos. La amplitud de estos intervalos muestra la variabilidad en el mercado inmobiliario e indica que existen otros aspectos que tambien influyen en el precio de los apartamentos, como la ubicacion especifica dentro de la zona, el estado de la propiedad o caracteristicas particulares del apartamento.
Despues de realizar la prediccion del precio, se identifican posibles ofertas disponibles en el mercado que se ajusten al presupuesto maximo de 850 millones de pesos segun las caracteristicas solicitadas. Se utiliza la base de datos segmentada de viviendas tipo apartamento ubicados en la zona sur de la ciudad. A partir de esta base de datos se seleccionan los apartamentos que cumplen con el presupuesto y presentan caracteristicas similares a la solicitud, para proponer cinco alternativas de compra.
## # A tibble: 5 × 7
## barrio preciom areaconst estrato habitaciones banios parqueaderos
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 seminario 670 300 5 6 5 3
## 2 cuarto de legua 410 296. 5 4 4 2
## 3 cuarto de legua 490 288 5 4 5 1
## 4 cuarto de legua 520 320 5 4 4 2
## 5 ciudadela pasoancho 650 275 5 5 5 2
En el analisis de las ofertas disponibles se identificaron cinco apartamentos ubicados en la zona sur que cumplen con el presupuesto establecido. Aunque ningun apartamento coincide exactamente con todas las caracteristicas solicitadas, son las opciones mas cercanas dentro de la base de datos analizada. La opcion que mas se aproxima al perfil solicitado es el apartamento ubicado en el barrio Seminario, con un precio de 670 millones de pesos y un area construida de 300 m². Aunque tiene un mayor numero de habitaciones y baños, coincide con el area construida y el numero de parqueaderos solicitados, por lo que es la alternativa mas cercana a lo solicitado. Por otro lado, se observa que todas las ofertas identificadas pertenecen al estrato 5 y presentan precios inferiores al valor estimado por el modelo para este estrato, lo cual indica la variabilidad del mercado inmobiliario. Los resultados muestran que la solicitud de compra es viable dentro del presupuesto aprobado y que hay varias opciones reales dentro del mercado de apartamentos en la zona sur de la ciudad.
En el mapa se observa la ubicacion de las cinco ofertas de apartamentos identificadas dentro del presupuesto de 850 millones de pesos. Los puntos se ubican en diferentes sectores de la zona sur de Cali, como Seminario, Cuarto de Legua y Ciudadela Pasoancho. Esto indica que las opciones disponibles se encuentran dentro del area solicitada. Hay una concentracion de algunas ofertas en el sector de Cuarto de Legua, mientras que otras se distribuyen en diferentes barrios de la zona sur, lo que muestra que existen varias alternativas de compra de apartamentos en esta parte de la ciudad.
Los resultados del analisis muestran que el precio de los apartamentos en la zona sur esta asociado con variables como el area construida y el estrato, lo que coincide con el comportamiento del mercado inmobiliario. A partir del modelo de regresion se estimo que un apartamento con las caracteristicas de la solicitud tendria un precio aproximado de 675 millones de pesos en estrato 5 y alrededor de 735 millones en estrato 6. Esto indica que, teniendo en cuenta el presupuesto maximo de 850 millones de pesos, hay varias alternativas viables dentro del mercado.
El analisis de las ofertas disponibles identifico cinco apartamentos ubicados en los barrios Seminario, Cuarto de Legua y Ciudadela Pasoancho, todos dentro del presupuesto establecido. Aunque ningun apartamento coincide exactamente con todas las caracteristicas solicitadas, representan las opciones mas cercanas dentro de la base de datos analizada.
El apartamento que mas se acerca al perfil solicitado es la opcion 1 de la Tabla #10, ubicada en el barrio Seminario, con un precio de 670 millones de pesos, un area construida de 300 m², 6 habitaciones, 5 baños y 3 parqueaderos. Aunque presenta un mayor numero de habitaciones y baños frente a lo solicitado, coincide con el area construida y el numero de parqueaderos solicitados, lo que lo hace la alternativa mas cercana dentro de las opciones identificadas. Ademas, se observa que todas las ofertas encontradas son apartamentos de estrato 5 y presentan precios inferiores al valor estimado por el modelo para este estrato. Esta diferencia es debido a factores del mercado, como la oferta disponible, la demanda en el momento, la antiguedad del inmueble o las condiciones especificas de cada apartamento (Piso, Zonas comunes, entre otros). Esto no significa que el modelo este mal ajustado, sino que muestra la variabilidad del mercado inmobiliario. Para finalizar, estas ofertas confirman que la solicitud de compra es viable dentro del presupuesto aprobado y que existen varias opciones reales dentro del mercado de apartamentos en la zona sur de Cali.
El analisis realizado respondio a la solicitud de Maria para asesorar la compra de dos viviendas para los empleados de la empresa internacional. Usando las tecnicas de modelacion estadistica fue posible analizar las caracteristicas del mercado de viviendas en Cali, estimar modelos de regresion para el precio de las viviendas y proponer ofertas reales que cumplen con las condiciones solicitadas en cada caso. Los resultados muestran que tanto para la vivienda tipo casa en la zona norte como para el apartamento en la zona sur existen alternativas dentro de los presupuestos establecidos.
Los modelos estimados identificaron la relacion entre el precio de las viviendas y variables como el area construida, el estrato, el numero de habitaciones, baños y parqueaderos. En ambos casos los modelos presentaron estimaciones coherentes con el comportamiento del mercado. Sin embargo, al comparar las predicciones del modelo con las ofertas reales identificadas se observa que varias viviendas presentan precios inferiores al valor promedio estimado. Esta situacion no implica que los modelos esten mal ajustados, sino que indica la variabilidad del mercado inmobiliario, donde el precio final de una vivienda tambien puede depender de otros factores.
Entre estos factores se encuentran caracteristicas que no fueron incluidas en el modelo, como el piso en el que se ubica el apartamento, numero de pisos, las zonas comunes del edificio, remodelaciones o acabados en el caso de los apartamentos, o aspectos como el numero de pisos, ampliaciones o el estado general de la casa. Incluir este tipo de variables en futuros analisis podria ayudar a mejorar la precision de las estimaciones y reducir la variabilidad en los precios. Otra sugerencia para futuros analisis seria revisar posibles problemas de multicolinealidad en el modelo, ya que algunas caracteristicas de las viviendas pueden estar relacionadas entre si y afectar las estimaciones del precio.
Al comparar los resultados de ambos casos se observa que las variables que mas influyen en el precio de la vivienda son el area construida y el estrato, tanto para casas como para apartamentos. Aunque se trate de tipos de vivienda diferentes, los factores que explican el comportamiento del precio en el mercado inmobiliario son parecidos. Las variables como el numero de habitaciones, baños y parqueaderos tambien influyen en el precio, pero su influencia es menor en comparacion con el area construida y el estrato. Por otro lado, en el caso de la vivienda tipo casa el presupuesto es mas ajustado frente a los precios estimados por el modelo, mientras que en el caso del apartamento hay un mayor margen dentro del credito aprobado. Para finalizar, los resultados muestran que las dos solicitudes de compra son viables dentro de los presupuestos establecidos y que hay varias alternativas dentro del mercado para ubicar a los dos empleados en la ciudad de Cali.
En el informe se aplico el siguiente plan de trabajo: primero se realizo la segmentacion de la base de datos para identificar las viviendas correspondientes a cada caso. Posteriormente se realizo un analisis exploratorio de datos utilizando graficos y matrices de correlacion. Luego se estimo un modelo de regresion lineal multiple para explicar el precio de las viviendas a partir de sus caracteristicas. Finalmente se realizaron predicciones y se identificaron ofertas potenciales dentro de los presupuestos establecidos.
## [1] 8322 13
La base de datos original cuenta con 8.322 registros y 13 variables. Esto indica que se tiene una cantidad amplia de informacion sobre diferentes viviendas, lo que permite hacer segmentaciones y analisis con suficiente respaldo de datos.
## # A tibble: 13 × 2
## Variable Tipo
## <chr> <chr>
## 1 id numeric
## 2 zona character
## 3 piso character
## 4 estrato numeric
## 5 preciom numeric
## 6 areaconst numeric
## 7 parqueaderos numeric
## 8 banios numeric
## 9 habitaciones numeric
## 10 tipo character
## 11 barrio character
## 12 longitud numeric
## 13 latitud numeric
La base tiene variables numericas y categoricas. Las variables numericas como precio, area construida, numero de baños, habitaciones y parqueaderos describen las características fisicas y economicas de las viviendas. Las variables categoricas como zona, barrio y tipo, permiten clasificar los inmuebles segun su ubicacion y tipo. Ademas, la base incluye latitud y longitud, lo que ayuda a ubicar los inmuebles en un mapa y corroborar si estan en la zona correspondiente.
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
El resumen estadistico muestra que las variables presentan valores dentro de rangos razonables para el mercado inmobiliario, aunque se observan algunos valores extremos, como viviendas con areas y precios muy elevados. También se identifican 659 datos faltantes en total, en las variables parqueaderos (287) y piso (372), mientras que las demas variables no presentan valores ausentes. En general, la base contiene información suficiente para realizar el analisis estadistico.
## id zona piso estrato
## Min. : 58.0 Length:722 Length:722 Min. :3.000
## 1st Qu.: 766.2 Class :character Class :character 1st Qu.:3.000
## Median :2257.0 Mode :character Mode :character Median :4.000
## Mean :2574.6 Mean :4.202
## 3rd Qu.:4225.0 3rd Qu.:5.000
## Max. :8319.0 Max. :6.000
##
## preciom areaconst parqueaderos banios
## Min. : 89.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 261.2 1st Qu.: 140.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 390.0 Median : 240.0 Median : 2.000 Median : 3.000
## Mean : 445.9 Mean : 264.9 Mean : 2.182 Mean : 3.555
## 3rd Qu.: 550.0 3rd Qu.: 336.8 3rd Qu.: 3.000 3rd Qu.: 4.000
## Max. :1940.0 Max. :1440.0 Max. :10.000 Max. :10.000
## NA's :287
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:722 Length:722 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.53
## Median : 4.000 Mode :character Mode :character Median :-76.52
## Mean : 4.507 Mean :-76.52
## 3rd Qu.: 5.000 3rd Qu.:-76.50
## Max. :10.000 Max. :-76.47
##
## latitud
## Min. :3.333
## 1st Qu.:3.452
## Median :3.468
## Mean :3.460
## 3rd Qu.:3.482
## Max. :3.496
##
El resumen estadistico de la base segmentada muestra que el conjunto de datos utilizado para el Caso A contiene 722 observaciones correspondientes a viviendas tipo casa ubicadas en la zona norte de la ciudad. Las variables presentan rangos amplios en el precio y el area construida, lo que indica la variedad de casas en este segmento del mercado. Tambien se identifican algunos datos faltantes, principalmente en la variable parqueaderos, que presenta 287 valores ausentes, mientras que las demás variables presentan pocos valores faltantes.
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 02 5 320 150 2 4 6
## 2 1592 Zona N… 02 5 780 380 2 3 3
## 3 4057 Zona N… 02 6 750 445 NA 7 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Con el fin de verificar el resultado del filtro aplicado a la base de datos original, se presentan a continuación los primeros tres registros de la base segmentada, la cual incluye unicamente las ofertas de viviendas tipo casa ubicadas en la Zona Norte de la ciudad. Se observa que todos los registros pertenecen a la Zona Norte y corresponden al tipo de inmueble Casa, lo que confirma que la segmentacion se realizo correctamente.
## Tipo Zona Registros
## 1 Casa Zona Norte 722
La base segmentada contiene 722 observaciones, que corresponden a viviendas tipo casa ubicadas en la Zona Norte de la ciudad. Esto confirma que la consulta y el proceso de filtrado se ejecutaron correctamente.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -784.29 -77.56 -16.03 47.67 978.61
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -238.17090 44.40551 -5.364 1.34e-07 ***
## areaconst 0.67673 0.05281 12.814 < 2e-16 ***
## estrato 80.63495 9.82632 8.206 2.70e-15 ***
## habitaciones 7.64511 5.65873 1.351 0.177
## parqueaderos 24.00598 5.86889 4.090 5.14e-05 ***
## banios 18.89938 7.48800 2.524 0.012 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 155.1 on 429 degrees of freedom
## (287 observations deleted due to missingness)
## Multiple R-squared: 0.6041, Adjusted R-squared: 0.5995
## F-statistic: 130.9 on 5 and 429 DF, p-value: < 2.2e-16
El modelo presenta un coeficiente de determinación R² de 0.6041, lo que indica que el 60 % de la variacion del precio de la vivienda es explicada por las variables incluidas en el modelo. El R² ajustado de 0.5995 es muy cercano al R², lo que indica que las variables incluidas aportan información relevante y que el modelo no está sobreajustado. Por otro lado, la prueba F global del modelo presenta un valor p menor a 0.001, indicando que las variables explicativas tienen una relacion significativa con el precio en este segmento del mercado.
Para evaluar la independencia de los errores del modelo se aplico la prueba de Durbin-Watson. Los resultados se presentan en siguiente tabla:
##
## Durbin-Watson test
##
## data: modelo1
## DW = 1.7615, p-value = 0.005472
## alternative hypothesis: true autocorrelation is greater than 0
El resultado fue de 1.76 con un valor p de 0.005, lo que indica la posible presencia de autocorrelacion positiva entre los residuos. Sin embargo, dado que los datos corresponden a observaciones de viviendas y no a una serie temporal, este resultado debe interpretarse con cuidado. En el mercado inmobiliario es posible que propiedades cercanas tengan caracteristicas similares o que existan variables no observadas que influyan en el precio. Por esa razon, este resultado no implica que el modelo sea incorrecto.
## id zona piso estrato
## Min. : 3 Length:2787 Length:2787 Min. :3.00
## 1st Qu.:2292 Class :character Class :character 1st Qu.:4.00
## Median :4004 Mode :character Mode :character Median :5.00
## Mean :4131 Mean :4.63
## 3rd Qu.:5876 3rd Qu.:5.00
## Max. :8302 Max. :6.00
##
## preciom areaconst parqueaderos banios
## Min. : 75.0 Min. : 40.00 Min. : 1.000 Min. :0.000
## 1st Qu.: 175.0 1st Qu.: 65.00 1st Qu.: 1.000 1st Qu.:2.000
## Median : 245.0 Median : 85.00 Median : 1.000 Median :2.000
## Mean : 297.3 Mean : 97.47 Mean : 1.415 Mean :2.488
## 3rd Qu.: 335.0 3rd Qu.:110.00 3rd Qu.: 2.000 3rd Qu.:3.000
## Max. :1750.0 Max. :932.00 Max. :10.000 Max. :8.000
## NA's :406
## habitaciones tipo barrio longitud
## Min. :0.000 Length:2787 Length:2787 Min. :-76.57
## 1st Qu.:3.000 Class :character Class :character 1st Qu.:-76.54
## Median :3.000 Mode :character Mode :character Median :-76.53
## Mean :2.966 Mean :-76.53
## 3rd Qu.:3.000 3rd Qu.:-76.52
## Max. :6.000 Max. :-76.46
##
## latitud
## Min. :3.334
## 1st Qu.:3.370
## Median :3.383
## Mean :3.390
## 3rd Qu.:3.406
## Max. :3.497
##
Se observan las principales caracteristicas de la base segmentada de apartamentos ubicados en la zona sur, la cual contiene 2787 observaciones. Los apartamentos presentan un precio promedio cercano a 297 millones de pesos y un area construida promedio de aproximadamente 97 m², aunque se observa variabilidad en estas caracteristicas dentro del mercado. Tambien se identifican 1080 datos faltantes en total, principalmente en la variable piso (622) y parqueaderos (406), mientras que las demas variables no presentan valores faltantes.
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 05 4 290 96 1 2 3
## 2 698 Zona S… 02 3 78 40 1 1 2
## 3 8199 Zona S… <NA> 6 875 194 2 5 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Aqui se presentan los primeros tres registros de la base de datos segmentada correspondiente a apartamentos ubicados en la zona sur. Aqui se verifica la estructura de la base y las variables utilizadas en el analisis, incluyendo caracteristicas como precio, area construida, estrato, numero de habitaciones, baños y parqueaderos.
## Tipo Zona Registros
## 1 Apartamento Zona Sur 2787
La tabla confirma que la base de datos segmentada que corresponde a apartamentos ubicados en la zona sur contiene 2787 registros. Este numero de observaciones representa el conjunto de datos utilizado para realizar el analisis estadístico y la estimación del modelo. El tamaño de la muestra es lo suficientemente amplio para desarrollar el analisis, el modelo y las predicciones del caso.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1092.02 -42.28 -1.33 40.58 926.56
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -261.62501 15.63220 -16.736 < 2e-16 ***
## areaconst 1.28505 0.05403 23.785 < 2e-16 ***
## estrato 60.89709 3.08408 19.746 < 2e-16 ***
## habitaciones -24.83693 3.89229 -6.381 2.11e-10 ***
## parqueaderos 72.91468 3.95797 18.422 < 2e-16 ***
## banios 50.69675 3.39637 14.927 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 98.02 on 2375 degrees of freedom
## (406 observations deleted due to missingness)
## Multiple R-squared: 0.7485, Adjusted R-squared: 0.748
## F-statistic: 1414 on 5 and 2375 DF, p-value: < 2.2e-16
El modelo presenta un coeficiente de determinacion (R²)de 0.7485, lo que indica que aproximadamente el 74.85 % de la variación del precio de los apartamentos es explicada por las variables incluidas en el modelo. El coeficiente de determinacion ajustado es de 0.748 es muy cercano al R², lo que indica que las variables incluidas aportan informacion relevante y que el modelo presenta un buen nivel de ajuste. Por otro lado, la prueba F global del modelo presenta un valor p menor a 0.001, lo que indica que las variables explicativas incluidas en el modelo tienen una relacion significativa con el precio de los apartamentos analizados.
Para evaluar la independencia de los errores del modelo se aplico la prueba de Durbin-Watson. Los resultados se presentan en siguiente tabla:
##
## Durbin-Watson test
##
## data: modelo2
## DW = 1.5333, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
El resultado fue de 1.5333 con un valor p menor a 0.001, lo que indica que existe una autocorrelacion positiva en los errores. Sin embargo, ya que los datos corresponden a observaciones del mercado inmobiliario y no a una serie temporal, este resultado debe interpretarse con cuidado, ya que algunas viviendas pueden tener caracteristicas similares que generen cierta correlacion entre las observaciones.