Introducción

El presente trabajo tiene como objetivo analizar los factores que determinan el precio de las viviendas en el barrio “Primero de Mayo” de la ciudad de Cali, utilizando técnicas de regresión lineal múltiple. A partir de una base de datos que contiene información detallada sobre características físicas y socioeconómicas de los inmuebles, se pretende identificar cuáles de estas variables tienen mayor influencia sobre el valor de mercado de las propiedades.

En particular, se estudian variables como el área construida, el estrato socioeconómico, el número de habitaciones, baños, parqueaderos y el tipo de vivienda (casa o apartamento). Se utilizan tanto modelos simples como extendidos, incorporando variables categóricas y cuantitativas, para construir modelos estadísticos que permitan explicar la variación en los precios observados. Asimismo, se aplican procedimientos de selección de variables mediante el criterio AIC para optimizar la especificación del modelo.

Este análisis no solo permite comprender cómo varía el precio de las viviendas en función de sus características estructurales, sino que también proporciona una base técnica para la toma de decisiones en procesos de valoración inmobiliaria, políticas de vivienda, o análisis comparativos entre tipos de inmuebles.

Análisis exploratorio.

El gráfico muestra la distribución del precio de las viviendas en el barrio “Primero de Mayo”. Se observa que la mayoría de los inmuebles tienen un precio entre 100 y 200 millones de pesos, lo que indica una alta concentración en ese rango. A medida que el precio aumenta, la frecuencia de viviendas disminuye considerablemente, mostrando una distribución sesgada a la derecha. Esto sugiere que los precios más altos son menos comunes, mientras que las viviendas más económicas predominan en esta zona específica.

El boxplot del precio de las viviendas en el barrio “Primero de Mayo” muestra que la mayoría de los inmuebles tienen precios concentrados entre aproximadamente 150 y 350 millones de pesos. La línea negra dentro del recuadro representa la mediana, que está cerca de los 250 millones, lo que indica que la mitad de las viviendas están por debajo de ese valor. Además, se observan varios puntos por encima del rango superior, lo que corresponde a viviendas con precios significativamente más altos, considerados como valores atípicos o que estan en los 550 y 750 millones.

El gráfico muestra la frecuencia de viviendas según su tipo en el barrio “Primero de Mayo”. Se observa que los apartamentos son el tipo de vivienda más común, con una cantidad significativamente mayor que las casas. Esto puede indicar una tendencia en esta zona hacia construcciones verticales o una mayor oferta de vivienda multifamiliar. Las casas, aunque presentes, son menos frecuentes en comparación.

El gráfico muestra la relación entre el área construida y el precio de las viviendas en el barrio “Primero de Mayo”. Se observa una tendencia general creciente: a mayor área construida, el precio tiende a ser más alto. Sin embargo, también se presentan algunos puntos dispersos, lo que indica que, aunque existe una relación positiva, esta no es perfectamente lineal. Es posible que otros factores, como el tipo de vivienda o la ubicación exacta, también estén influyendo en los precios.

Análisis Bivariado

En promedio, las casas tienen un valor significativamente más alto que los apartamentos. Específicamente, las casas cuestan alrededor de 242 millones más que los apartamentos.

Este resultado indica una asociación clara entre el tipo de vivienda y su precio, siendo las casas la categoría de mayor valor. Esto podría deberse a factores como mayor área construida, ubicación, o características propias de las casas frente a los apartamentos en esta muestra.

Tipo precio_millon
Apartamento 179.4167
Casa 421.6154

El gráfico muestra la distribución del precio de las viviendas según su tipo. Se observa que las casas tienden a tener un precio considerablemente más alto que los apartamentos, además de una mayor variabilidad en sus valores. La mediana del precio en casas supera los 300 millones, mientras que en apartamentos está por debajo de los 200 millones. También se aprecia que algunas casas alcanzan precios muy elevados, lo que podría estar influenciado por características adicionales como mayor área construida o número de parqueaderos. Esta diferencia sugiere que el tipo de vivienda es un factor importante al momento de determinar el valor del inmueble.

Modelacion Rmultiple

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + dummy_apartamento, 
##     data = datos_sub)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -183.35  -42.80  -18.83   28.20  376.65 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        273.8881    72.6089   3.772 0.000619 ***
## Area_contruida       0.6842     0.3000   2.281 0.028964 *  
## dummy_apartamento -148.6608    57.8023  -2.572 0.014658 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 118.3 on 34 degrees of freedom
## Multiple R-squared:  0.544,  Adjusted R-squared:  0.5172 
## F-statistic: 20.28 on 2 and 34 DF,  p-value: 1.593e-06

El modelo estima el precio de la vivienda a partir del área construida y el tipo de vivienda (casa o apartamento). Los resultados indican que, manteniendo constante el tipo de vivienda, por cada metro cuadrado adicional de área construida, el precio aumenta en promedio $0.68 millones de pesos. Además, si la vivienda es un apartamento, su precio es en promedio $148.66 millones menor que el de una casa, manteniendo constante el área. Ambos coeficientes son estadísticamente significativos. El modelo tiene un R² ajustado de 0.517, lo que significa que aproximadamente el 52% de la variación en el precio de las viviendas se explica por estas dos variables. En conjunto, el modelo es estadísticamente significativo (p < 0.001), por lo tanto, es útil para predecir el precio de las viviendas en esta zona.

El gráfico compara los precios observados con los precios predichos por el modelo de regresión. Si el modelo predijera perfectamente, todos los puntos estarían ubicados sobre la línea roja (línea de referencia 45°). Aunque se observa una tendencia general alineada con la diagonal, muchos puntos están dispersos, especialmente en los valores más altos, lo que indica que el modelo tiende a subestimar los precios más elevados. Aun así, el modelo logra capturar la dirección general del comportamiento del precio, siendo más preciso en rangos bajos y medios, lo cual es coherente con su R² ajustado de 0.517.

Modelo interactivo

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida * dummy_apartamento, 
##     data = datos_sub)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -177.95  -58.56  -16.13   28.22  374.39 
## 
## Coefficients:
##                                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       282.5828    76.3777   3.700 0.000782 ***
## Area_contruida                      0.6439     0.3185   2.021 0.051412 .  
## dummy_apartamento                -189.2144   113.0908  -1.673 0.103759    
## Area_contruida:dummy_apartamento    0.4425     1.0560   0.419 0.677894    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 119.7 on 33 degrees of freedom
## Multiple R-squared:  0.5464, Adjusted R-squared:  0.5052 
## F-statistic: 13.25 on 3 and 33 DF,  p-value: 7.662e-06

El modelo evalúa el precio de la vivienda en función del área construida, el tipo de vivienda (dummy: 1 si es apartamento, 0 si es casa) y la interacción entre ambas variables. El intercepto es de aproximadamente 282.58 millones, lo que representa el precio base estimado de una casa con área cero (hipotética).

El coeficiente de Area_contruida es 0.64, lo que indica que, para las casas, cada metro cuadrado adicional de área construida se asocia con un aumento promedio de 0.64 millones de pesos en el precio. Este coeficiente es marginalmente significativo (p ≈ 0.05).

La variable dummy_apartamento tiene un coeficiente de -189.21, lo que sugiere que los apartamentos tienen un precio base más bajo que las casas en aproximadamente 189 millones de pesos, aunque este efecto no es estadísticamente significativo (p ≈ 0.10).

La interacción Area_contruida:dummy_apartamento tiene un coeficiente de 0.44, lo que indicaría que el efecto del área sobre el precio es algo mayor en apartamentos que en casas. Sin embargo, este coeficiente no es significativo (p ≈ 0.68), por lo tanto, no hay evidencia estadística suficiente para afirmar que el área afecta de manera distinta según el tipo de vivienda.

En conjunto, el modelo tiene un R² ajustado de 0.505, lo que significa que aproximadamente el 50.5% de la variación en el precio de las viviendas puede ser explicada por estas tres variables. Además, el modelo es globalmente significativo (p < 0.001).

Modelo 2

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + Habitaciones + 
##     Banos + parqueaderos + dummy_apartamento, data = datos_modelo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -135.403  -43.769   -4.268   32.120  240.088 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)  
## (Intercept)       -12.4115   315.8393  -0.039   0.9689  
## Area_contruida     -0.1253     0.3364  -0.372   0.7123  
## Estrato            30.4538    71.4180   0.426   0.6731  
## Habitaciones       16.1286    23.4206   0.689   0.4967  
## Banos              63.8478    28.2962   2.256   0.0320 *
## parqueaderos2      56.2473    66.9446   0.840   0.4079  
## parqueaderos3     189.2000   119.7645   1.580   0.1254  
## parqueaderosNA     30.6728    39.0322   0.786   0.4386  
## dummy_apartamento -98.0729    50.9609  -1.924   0.0645 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94.4 on 28 degrees of freedom
## Multiple R-squared:  0.7608, Adjusted R-squared:  0.6924 
## F-statistic: 11.13 on 8 and 28 DF,  p-value: 6.409e-07

El modelo evalúa el precio de las viviendas en función de diversas características físicas (área construida, estrato, número de habitaciones, baños, parqueaderos) y del tipo de vivienda (apartamento o casa). El R² ajustado es de 0.692, lo que indica que aproximadamente el 69.2% de la variación en el precio se explica por las variables incluidas. Además, el modelo es globalmente significativo (p < 0.001), lo cual confirma su validez estadística.

Entre los coeficientes estimados, la variable baños fue la única con significancia estadística (p = 0.032), lo que indica que cada baño adicional aumenta el precio en promedio 63.8 millones de pesos, manteniendo constantes las demás variables. La variable tipo de vivienda (dummy_apartamento) mostró un efecto negativo de aproximadamente 98 millones de pesos, lo que sugiere que los apartamentos tienden a valer menos que las casas, aunque este efecto fue marginalmente significativo (p ≈ 0.06).

Por otro lado, variables como el área construida, estrato y número de habitaciones no resultaron significativas en este modelo, a pesar de su relevancia teórica.

Esto podría deberse a correlaciones internas entre las variables explicativas (multicolinealidad), donde dos o más características están relacionadas entre sí y dificultan identificar su efecto individual. Por ejemplo, viviendas con mayor área suelen tener también más habitaciones o estar en estratos más altos. Además, una baja variación en estas variables dentro de la muestra también puede limitar la capacidad del modelo para detectar efectos estadísticamente significativos.

En conclusión, este modelo refleja adecuadamente la relación entre varias características estructurales de la vivienda y su precio en el barrio “Primero de Mayo”, destacando la importancia del número de baños y el tipo de inmueble como los factores más influyentes.

## Start:  AIC=344.2
## precio_millon ~ Area_contruida + Estrato + Habitaciones + Banos + 
##     parqueaderos + dummy_apartamento
## 
##                     Df Sum of Sq    RSS    AIC
## - parqueaderos       3     26153 275651 341.89
## - Area_contruida     1      1236 250735 342.39
## - Estrato            1      1620 251119 342.44
## - Habitaciones       1      4226 253725 342.82
## <none>                           249499 344.20
## - dummy_apartamento  1     33001 282500 346.80
## - Banos              1     45368 294867 348.38
## 
## Step:  AIC=341.89
## precio_millon ~ Area_contruida + Estrato + Habitaciones + Banos + 
##     dummy_apartamento
## 
##                     Df Sum of Sq    RSS    AIC
## - Estrato            1      1154 276806 340.05
## - Area_contruida     1      4012 279663 340.43
## - Habitaciones       1      5204 280855 340.58
## <none>                           275651 341.89
## - dummy_apartamento  1     22129 297781 342.75
## - Banos              1     40147 315798 344.92
## 
## Step:  AIC=340.05
## precio_millon ~ Area_contruida + Habitaciones + Banos + dummy_apartamento
## 
##                     Df Sum of Sq    RSS    AIC
## - Area_contruida     1      3494 280300 338.51
## - Habitaciones       1      5381 282187 338.76
## <none>                           276806 340.05
## - dummy_apartamento  1     25528 302333 341.31
## - Banos              1     39216 316022 342.95
## 
## Step:  AIC=338.51
## precio_millon ~ Habitaciones + Banos + dummy_apartamento
## 
##                     Df Sum of Sq    RSS    AIC
## - Habitaciones       1      8010 288310 337.55
## <none>                           280300 338.51
## - Banos              1     40029 320329 341.45
## - dummy_apartamento  1     46947 327247 342.24
## 
## Step:  AIC=337.55
## precio_millon ~ Banos + dummy_apartamento
## 
##                     Df Sum of Sq    RSS    AIC
## <none>                           288310 337.55
## - dummy_apartamento  1     55392 343701 342.05
## - Banos              1    260039 548349 359.34

Se aplicó un análisis de selección automática de variables mediante el método stepwise con el objetivo de identificar las variables que mejor explican el precio de la vivienda. El modelo inicial incluía variables como área construida, estrato, número de habitaciones, número de baños, número de parqueaderos y el tipo de vivienda (casa o apartamento). A través del proceso de eliminación progresiva, se fueron descartando aquellas variables que no aportaban significativamente al modelo, observando mejoras en el valor del AIC, el cual se utiliza para encontrar un equilibrio entre la calidad del ajuste y la simplicidad del modelo. El modelo final, con el AIC más bajo (337.55), conservó únicamente dos variables: el número de baños y el tipo de vivienda. Esto indica que, dentro de las variables consideradas, el precio está más relacionado con estos dos factores. En conclusion, tener más baños y el hecho de que la vivienda sea una casa o apartamento influyen de manera más directa en el precio, mientras que variables como el área construida, el estrato o las habitaciones no mejoraron significativamente la capacidad explicativa del modelo.

Validacion de supuestos

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.96164, p-value = 0.2277

Para validar el supuesto de normalidad de los errores en el modelo de regresión, se analizaron los residuos mediante un histograma y un gráfico Q-Q. El histograma mostró una forma aproximadamente simétrica, sin evidencias claras de asimetría extrema ni valores atípicos. Por su parte, el gráfico Q-Q mostró que la mayoría de los residuos se alinean con la línea de referencia, con ligeras desviaciones en los extremos. Estos resultados permiten concluir que los residuos del modelo presentan una distribución suficientemente cercana a la normal, por lo que se considera que este supuesto se cumple y el modelo es válido desde esta perspectiva.

## MAE: 67.75
## RMSE: 88.27

Pronostico hipotetico

##        1        2 
## 371.3077 186.2292

Con base en el modelo ajustado, se estimó el precio de dos tipos de viviendas según el número de baños y su clasificación como apartamento o casa. Para una casa con 3 baños, el modelo predice un valor aproximado de 371 millones de pesos. Por otro lado, para un apartamento con 2 baños, se estima un valor de 186 millones de pesos. Esta diferencia refleja tanto el efecto del número de baños como la penalización asociada al hecho de ser un apartamento (dummy igual a 1), de acuerdo con los coeficientes estimados en el modelo.