Modelación Estadística

Actividad- Regresión Lineal Simple

PREGUNTAS

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls), realizar los siguientes puntos:

1. Análisis exploratorio (Variables “Precio de vivienda” y “Área de la vivienda”)

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (\(m^2\)) - incluir gráficos e indicadores apropiados interpretados

1.1. Resumen de los datos

##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

1.2. Diagrama de Caja Variable “Area_contruida”

Para la variable “Area_contruida”, el 25% de los valores son menores o iguales a 86 \(m^2\), la mediana o segundo cuartil nos indica que el 50% de los valores son menores o iguales a 97 \(m^2\).

La mediana corta la caja en dos partes desiguales con una mayor proporción el la parte superior, lo que nos indica que tiene asimetría positiva o sesgada a la derecha. Siendo la media 115.7 \(m^2\), mayor que la mediana 97.0 \(m^2\).

El echo que un lado de la caja sea más largo que otro, no indica que ese lado contenga más datos. Indica un rango más amplio, por lo que los datos estarán más dispersos.

1.3. Gráfica de histograma Variable “Area_contruida”

1.4. Gráfica de densidad Variable “Area_contruida”

Las gráficas de histograma y densidad confirman lo afirmado en referencia que los datos tienen asimetría positiva (o a la derecha), ya que la cola a la derecha de la media es más larga que la de izquierda. es decir, si hay valores más separados de la media a la derecha.

1.5. Diagrama de Caja Variable “precio_millon”

Para la variable “precio_millon”, el 25% de los valores son menores o iguales a 250 Millones, la mediana o segundo cuartil nos indica que el 50% de los valores son menores o iguales a 305 Millones. Y que el 50% de los precios están entre 250 y 395 millones.

La mediana corta la caja en dos partes desiguales con una mayor proporción el la parte superior, lo que nos indica que tiene asimetría positiva o sesgada a la derecha. Siendo la media 332.1 Millones, mayor que la mediana 305.0 Millones.

1.6. Gráfica de histograma Variable “precio_millon”

1.7. Gráfica de densidad Variable “precio_millon”

Las gráficas de histograma y densidad confirman lo afirmado en referencia que los datos tienen asimetría positiva (o a la derecha) para la variable “precio_millon”

2. Análisis exploratorio bivariado (Variable respuesta - variable predictora)

Realice un análisis exploratorio bivariado de datos enfocados en la relación entre la variabe respuesta (y = precio) en función de la variable predictora (x = area) - incluir gráficos e indicadores apropiados interpretados.

Gráfica con función de suavizado

En el gráfico de dispersión se puede observar que no hay una relación lineal

3. Modelo de regresión lineal simple

Estime el modelo de regresión lineal simple entre \(precio = f(area) + e\). Interprete los coeficientes del modelo \(\beta_0\), \(\beta_1\) en caso de ser correcto.

Coeficiente de correlación.

## [1] 0.9190295

El coeficiente de correlación (0.92) nos indica que hay una asociación muy fuerte, la variable “precio_millon” de esta región está muy asociada con la variable de “Area_contruida”.

Se puede inferir que a mayor área construida, se esperaría que el precio sea más elevado

Estimación del modelo

Función lm() linear models

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Coefficients:
##    (Intercept)  Area_contruida  
##         86.234           2.124
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11
##                Estimate Std. Error   t value Pr(>|t|)
## (Intercept)    86.23387  22.478839  3.836225 0.000796
## Area_contruida  2.12397   0.185959 11.421700 0.000000

Interpretación de coeficientes:

El intercepto

  • \(\beta_{1}\) = 86.2, cuando la variable “Area_contruida” = 0, es el valor que tomaría probablemente por el valor del lote. Se espera que este coeficiente sea no negativo.

La pendiente

  • \(\beta_{2}\) = 2.12, manteniendo lo demás constantes, si el tamaño del área construida aumenta 1 \(m^2\), el precio por millón aumenta en promedio 2.1 millones por área construida.

Coeficiente de determinación

\(R^2\) = 0.8446

Esto quiere decir que el área construida por medio del modelo lineal logra explicar un 84.46% de la variación total en los precios por millón.

Prueba de significancia del intercepto

\(H_0\): \(B_1\) = 0

\(H_1\): \(\beta_{1}\neq\) 0

\(P_{\beta_1}\) = \(\approx 0.000796\) < \(\alpha\) = 0.05

Entonces se rechaza \(H_0\) y se concluye que el intercepto es significativo

Prueba de significancia de la pendiente: Prueba de significancia de la regresión.

\(H_0\): \(B_2\) = 0 (El área construida no afecta el precio por millón)

\(H_1\): \(\beta_{2}\neq\) 0 (El área construida afecta el precio por millón)

\(P_{\beta_2}\) = \(\approx 0.000000\) < \(\alpha\) = 0.05

Entonces se rechaza \(H_0\) y se concluye que el modelo es significativo y esto quiere decir que el área construida si explica el precio por millón.

SIEMPRE QUE \(P < \alpha\) SE RECHAZA \(H_0\): \(B_2\) = 0

4. Intervalo de confianza (95%)

Construir un intervalo de confianza (95%) para el coeficiente \(\beta_1\), interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

##                   2.5 %     97.5 %
## (Intercept)    39.83983 132.627917
## Area_contruida  1.74017   2.507771

Con un intervalo de confianza del 95% podemos esperar \(\beta_1\) este entre 39.84 y 132.63

Con un intervalo de confianza del 95% podemos esperar \(\beta_2\) este entre 1.74 y 2.51

En ninguno de los casos el intervalo con el valor 0

De este intervalo se infiere que 0 < \(\beta_1\) < 1, 0 < \(\beta_2\) < 1 y esto es lo que se espera.

5. Indicador de bondad y ajuste \(R^2\)

Calcule e interprete el indicador de bondad y ajuste \(R^2\)

Se puede probar que 0 \(\leq\) \(R^2\) \(\leq\) 1, entre más cercano a uno esté \(R^2\) más poder explicativo tiene el modelo.

r_cuadrado <- summary(mod)
r_cuadrado$r.squared
## [1] 0.8446152

Esto quiere decir que el área construida por medio del modelo lineal logra explicar un 84.46% de la variación total en los precios por millón.

6. Precio promedio estimado

a. ¿Cuál sería el precio promedio estimado parra un apartamento de 110 metros cuadrados?.

##                Estimate Std. Error   t value Pr(>|t|)
## (Intercept)    86.23387  22.478839  3.836225 0.000796
## Area_contruida  2.12397   0.185959 11.421700 0.000000

Precio del Apartamento según el Modelo

precio_modelo = \(86.23387 + (2.12397 * 110)\)

precio_mod <- 86.23387 +  2.12397 * (110)

precio_mod
## [1] 319.8706

El precio calculado según el modelo es de 319.87 \(\approx 320\) millones

predict(mod, list(Area_contruida=110), interval = "confidence")
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

b. ¿Considera entonces con este resultado que un apartamento en la misma zona con 110 \(m^2\) en un precio de 200 millones sería una buena oferta?

En principio podría ser una muy buena oferta, teniendo en cuenta que los precios estarían entre 306.3 y 333.4 millones y el valor pronosticado por el modelo estaría en aproximadamente 320 millones. Sin olvidar que el precio mínimo de toda la base de datos es de 240 millones para un área construida de 85 \(m^2\). La oferta podría estar sujeta a una salida rápida del país entre otros factores válidos.

c. ¿Qué consideraciones adicionales se deben tener?

De acuerdo a lo expuesto anteriormente, es importante revisar lo concerniente a la parte legal y jurídica en escrituración ante notaria y registro en oficina de instrumentos públicos, limitaciones al dominio, por embargos, sucesiones, servidumbres entre otros.

Localización del inmueble y la verificación de orden publico en su entorno, estado estructural y de obra blanca, fallas geológicas del terreno entre otros factores de riesgo.

7. Validación de supuestos del modelo

Realice la validación de supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

hist(mod$residuals)

par(mfrow=c(2,2))

plot(mod)

Aunque el modelo da un R-Squared de 0.8446, la gráfica de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estos datos tienen un comportamiento no lineal. Mostrando una componente sistemática que se podría incorporar al modelo.

La gráfica de normalidad también evidencia la falta de linealidad del modelo.

8. Ajuste y supuestos del modelo

De ser necesario realice un trasformación apropiada para mejorar el ajuste y supuestos del modelo.

mod_ajustado <- lm(log(precio_millon)~Area_contruida)
summary(mod_ajustado)
## 
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.16503 -0.09255 -0.02221  0.08600  0.19822 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    5.048147   0.073371   68.80  < 2e-16 ***
## Area_contruida 0.006288   0.000607   10.36 2.46e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared:  0.8172, Adjusted R-squared:  0.8096 
## F-statistic: 107.3 on 1 and 24 DF,  p-value: 2.456e-10

round(coef(summary(mod)),6)

round(coef(summary(mod_ajustado)),6)
##                Estimate Std. Error  t value Pr(>|t|)
## (Intercept)    5.048147   0.073371 68.80273        0
## Area_contruida 0.006288   0.000607 10.35933        0

Con el siguiente gráfico se evidencia no mejora en el tema de aleatoriedad de los residuales y la normalidad. El nuevo R-Squared de 0.82 no es mejor que el R-Squared de 0.84.

hist(mod_ajustado$residuals)

par(mfrow=c(2,2))

plot(mod_ajustado)

El nuevo modelo da un R-Squared de 0.8172, la gráfica de los residuales contra los valores ajustados, muestra una aleatoriedad y tienen un comportamiento no lineal.

La gráfica de normalidad también evidencia la falta de linealidad del modelo.

Una hipótesis seria agregar al modelo nuevas variables que permitan una mayor información en cuanto a edad de la casa, vecinos, rutas de acceso, transporte público, alcobas, tamaño lote, baños entre otras.

9. Compare el ajuste y supuestos

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

No es necesaria la comparación debido a que no fue posible mejorar el modelo con el método log.

El informe se debe entregar en RMarkdown publicado en el servidor RPUbs. Se debe compartir el enlace de RPUbs al correo del profesor en el link de drive.