Introducción

Citando a la revista semana en uno de sus artículos “Santiago de Cali es considerada una de las ciudades principales de Colombia, y oficialmente Distrito especial, deportivo, cultural, turístico y empresarial. Es la tercera metrópoli más poblada del país, además de ser un gran centro económico, razón por la que es tan apetecida para considerarla como residencia permanente.”[1] En 2022 Cali tuvo un aumento en su oferta inmobiliaria, principalmente la usada y en arrendamiento. Esto se nota en un aumento significativo en las búsquedas de vivienda en Cali entre 2021 y 2022[2]. Con el fin de representar la tendencia de la relación de las dos variables más importantes de una vivienda, el área construida y el precio, se ha calculado un modelo de regresión lineal sobre estas dos variables.

Análisis de variables

El primer paso fue revisar la calidad de la información buscando datos faltantes, como se ve en la siguiente tabla no hubo ningún caso.

Campos vacios
zona 0
estrato 0
preciom 0
areaconst 0
tipo 0

Para mostrar de forma preliminar la relación entre ambas variables esta la siguiente grafica de puntos donde se puede ver una relación directamente proporcional. También se puede ver que la mayoría de los datos se concentran en la parte izquierda de la gráfica indicando un sesgo hacia la izquierda de los valores. Esto se puede ver en los dos histogramas siguientes.

Como última prueba de la relación entre ambas variables se muestra este resumen donde se encuentra que el índice de correlación entre ambas variables es de 0.931. Lo que indica que ambas están fuertemente relacionadas de forma directa.

Calculo del modelo

Seguido se calcula el modelo de regresión lineal, con el precio como variable dependiente y el área construida como variable independiente.

## 
## Call:
## lm(formula = precio ~ area)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5997  -5.0198  -0.0056   4.6648  24.4010 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
## area        5.009e-01  4.758e-03   105.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.141 on 1704 degrees of freedom
## Multiple R-squared:  0.8667, Adjusted R-squared:  0.8666 
## F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

Los resultados del modelo son los siguientes:

  1. El intercepto o valor mínimo es de 199.801

  2. La pendiente o la razón en que aumenta el precio según el área es de 0.5001 por cada m2

  3. El indicador de bondad (R2) tiene un valor de 0.8667, esto significa que este modelo es capaz de explicar el 86.67% del valor de un inmueble dado su área construida.

Para poder asegurar que los valores del modelo son confiables se puso a prueba cada uno de los supuestos que debe cumplir el modelo. Las pruebas de estos supuestos están en los anexos.

Aún con el modelo completo y cumpliendo los supuestos no se puede asegurar que este modelo sea el más adecuado de todos, por eso se compara con diferentes transformaciones logarítmicas para saber cuál versión es la más adecuada.

## 
## ========================================================================
##                                     Dependent variable:                 
##                     ----------------------------------------------------
##                               precio                  log(precio)       
##                          (1)          (2)          (3)          (4)     
## ------------------------------------------------------------------------
## area                  0.501***                   0.002***               
##                        (0.005)                  (0.00002)               
##                                                                         
## log(area)                          50.224***                  0.197***  
##                                     (0.549)                   (0.002)   
##                                                                         
## Constant             199.810***    22.521***     5.322***     4.624***  
##                        (0.451)      (2.427)      (0.002)      (0.010)   
##                                                                         
## ------------------------------------------------------------------------
## Observations            1,706        1,706        1,706        1,706    
## R2                      0.867        0.831        0.852        0.829    
## Adjusted R2             0.867        0.831        0.852        0.829    
## Residual Std. Error     7.141        8.050        0.030        0.032    
## F Statistic         11,081.520*** 8,357.863*** 9,803.025*** 8,268.827***
## ========================================================================
## Note:                                        *p<0.1; **p<0.05; ***p<0.01

Como se puede ver el modelo original es el que tiene el R2 más alto y por lo tanto el que mejor explica la relación entre las dos variables.

Con las pruebas anteriores y las pruebas satisfactorias de los supuestos en los anexos se puede determinar que el primer modelo de regresión lineal sugerido es el más adecuado para explicar la relación entre las variables de precio y área construida. Sin embargo, se debe tener en cuenta las siguientes limitantes:

-El modelo solo toma en cuenta las dos variables mostradas, que aunque son las dos más importantes no son las únicas. El piso en apartamentos, la cantidad de pisos en las casas, la zona y el estrato son otras variables que afectan el precio de una vivienda que este modelo no tiene en cuenta.

-El modelo solo puede explicar la relación entre las variables en el rango de valores que fue calculado, no se debe usar para extrapolaciones, aunque el valor de R2 se pueda considerar alto.

Anexos

Análisis exploratorio con graficas

Prueba de normalidad precio, p-value 2.2e-16, se rechaza Ho: precio es normal. Resultado precio no tiene distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  precio
## W = 0.89151, p-value < 2.2e-16

Prueba de normalidad area, p-value 2.2e-16, se rechaza Ho: área es normal. Resultado área no tiene distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  area
## W = 0.8168, p-value < 2.2e-16

Intervalo de confianza de B1

##                   2.5 %      97.5 %
## (Intercept) 198.9248215 200.6954749
## area          0.4915592   0.5102243

Prueba de hipótesis t para saber si B1 es cero, p-value 2.2e-16, Se rechaza la Ho:B1 no es significativamente diferente de cero Conclusión: b1 es lo suficientemente diferente de cero como para afectar B0 B1 es una pendiente que si afecta el modelo

## 
##  Welch Two Sample t-test
## 
## data:  precio and area
## t = 156.19, df = 2615.8, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  154.1141 158.0329
## sample estimates:
## mean of x mean of y 
## 243.70306  87.62954

Valor para una casa de 110 metros, valor 199,856.1 una casa de 110 a 200 millones es razonable

#Crear formula con valores del modelo
modeloprecio <- function(x){
  nprecio = 199801 + 0.501*x
  return( nprecio)
}
modeloprecio(110)
## [1] 199856.1

Validar supuestos del modelo de regresión lineal Linealidad: La relación entre la variable independiente y la variable dependiente debe ser lineal. Esto significa que la relación entre las variables se pueden representar con una línea recta

Homocedasticidad: La varianza de los errores debe ser constante para todos los valores de la variable independiente. Esto significa que la dispersión de los puntos alrededor de la línea de regresión debe ser similar en todos los puntos. Prueba de Goldfeld-Quandt prueba la Homocedasticidad, Ho:No hay heterocedasticidad en el modelo, la varianza de los errores es constante para todos los valores de la variable independiente. p-value=0.2838 se acepta Ho, la varianza es constante y no hay heterocedasticidad El modelo es Homocedasticico

## 
##  Goldfeld-Quandt test
## 
## data:  modelo
## GQ = 1.04, df1 = 851, df2 = 851, p-value = 0.2838
## alternative hypothesis: variance increases from segment 1 to 2

Normalidad: Los errores deben tener una distribución normal. Esto significa que los errores deben estar distribuidos de manera simétrica alrededor de la media. Histograma de distribución de los residuos Gráfico de probabilidad normal QQ-Plot. compara la distribución de los residuos con una distribución normal teórica. Si los residuos se distribuyen normalmente, los puntos del gráfico deberían estar cerca de la línea diagonal.

Prueba de normalidad Shapiro-Wilk, Ho: Los residuos tienen distribución normal p-value = 0.5907, se acepta Ho, los errores tienen distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.99911, p-value = 0.5907

Independencia: Los errores deben ser independientes entre sí. Esto significa que el error en una observación no debe estar relacionado con el error en otra observación.

gráfico de residuos contra el orden de las observaciones, Si los errores son independientes, los puntos deberían estar distribuidos de manera aleatoria alrededor de la línea horizontal cero.

Prueba Durbin-Watson, prueba autocorrelación de los residuos del modelo de regresión lineal. Si los residuos de un modelo no son independientes entre sí, es decir, cuando los errores de una observación están relacionados con los errores de las observaciones anteriores. Autocorrrelación = malo Ho:no hay autocorrelación. p-value = 0.9092 se acepta Ho, no hay autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 2.0651, p-value = 0.9092
## alternative hypothesis: true autocorrelation is greater than 0

Usando la grafica box-cox se encuentra que la transformación recomendada en ninguna.

Referencias

[1] R. Semana, «Revista Semana,» Revista Semana, 16 5 2022. [En línea]. Available: Revista Semana. [Último acceso: 11 8 2024].

[2] ciencuadras, «Comportamiento de los inmuebles en Colombia: NUEVOS, USADOS Y EN ARRIENDO,» Bogotá, 2022.