Preguntas

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

Punto 1: Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

a) Se carga la base de datos:

library(readxl)
datos <- read_excel("C:/Users/mjpenalozap/Downloads/datos_vivienda.xlsx")
View(datos)
names(datos)
## [1] "Area_construida" "precio_millon"
nrow(datos)
## [1] 26

Se puede observar que la base de datos cuenta con dos variables cuantitativas continuas llamadas Área Construida y Precio (En millones de COP), con un total de 26 observaciones.

b) Resumen numérico y gráfico para Área Construida

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    80.0    86.0    97.0   115.7   130.0   195.0
## [1] "Coeficiente_de_Variación"
## [1] 30.70779

Sus valores en (\(m^2\)) se encuentran en el intervalo de \(V_{min}=80\) a \(V_{max}=195\), con un promedio de \(\bar{x}=115.7\) y una variación del \(30.7\%\), los tres cuartiles corresponden a \(Q_1=86\), \(Q_2=97\) y \(Q_3=130\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):

El diagrama de caja y bigotes permite observar que la distribución de datos se encuentra orientada hacia la izquierda donde la caja (\(50\%\) de los datos centrales) se encuentra entre los valores \(Q_1=86\) y \(Q_3=130\), por lo que la mayor dispersión se haya por el bigote derecho.

Finalmente, se construye el histograma.

## [1] "Coeficiente de Asimetría"
## [1] 0.1018519

La forma del histograma y la curva de densidad sugiere que la distribución de datos tiene asimetría positiva, lo cual se concluye también en base al coeficiente de asimetría \(A_s=0,10>0\), finalmente, la línea azul corresponde al valor de la media aritmética \(\bar{x}=115.7\).

c) Resumen numérico y gráfico para Precio por Millón

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   240.0   251.2   305.0   332.1   395.0   480.0
## [1] "Coeficiente_de_Variación"
## [1] 24.73651

Sus valores en (\(millones\)) se encuentran en el intervalo de \(V_{min}=240\) a \(V_{max}=480\), con un promedio de \(\bar{x}=332.1\) y una variación del \(24.73\%\), los tres cuartiles corresponden a \(Q_1=251.2\), \(Q_2=305\) y \(Q_3=395\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):

El diagrama de caja y bigotes permite observar que la distribución de datos se encuentra orientada hacia la izquierda donde la caja (\(50\%\) de los datos centrales) se encuentra entre los valores \(Q_1=251.2\) y \(Q_3=395\), por lo que la mayor dispersión se haya por el bigote derecho.

Finalmente, se construye el histograma.

## [1] "Coeficiente de Asimetría"
## [1] 0.05601981

La forma del histograma y la curva de densidad sugiere que la distribución de datos tiene asimetría positiva, lo cual se concluye también en base al coeficiente de asimetría \(A_s=0,05>0\), finalmente, la línea azul corresponde al valor de la media aritmética \(\bar{x}=332.1\).

Punto 2: Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.

Debido a la forma que tiene la nube de puntos es razonable suponer que las variables tienen una dependencia lineal, debido a que los puntos muestran una tendencia a que un aumenta en la variable predictora (Área Construida) coincide con un aumento de la variable de respuesta (Precio de viviendas). También se puede observar una linea recta de tendencia ascendente, por lo que se supone debe haber una correlación positiva entre las variables.

Ahora se calcula la covarianza para determinar cómo se comporta una variable en función de lo que hace la otra, es decir, el grado de variación lineal conjunta:

cov(Area_construida, precio_millon)
## [1] 2683.271

Dado su valor positivo se espera una asociación directa lineal (positiva), es decir, a grandes valores de Área Construida se espera grandes valores del precio de las viviendas,análogamente se cumple para valores pequeños.

Finalmente, se calcula el coeficiente de correlación:

cor(Area_construida, precio_millon)
## [1] 0.9190295

Teniendo en cuenta que el resultado está muy cercano a 1 podemos suponer una relación directa significativa entre las variables.

Punto 3: Estime el modelo de regresión lineal simple entre precio = f(area) +e. Interprete los coeficientes del modelo ß0, ß1 en caso de ser correcto

Se construye el modelo:

## 
## Call:
## lm(formula = precio_millon ~ Area_construida, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       86.234     22.479   3.836 0.000796 ***
## Area_construida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

El modelo estimado de regresión lineal simple presenta la siguiente ecuación para la variable de respuesta (Precio de Viviendas: y) en función la variable predictora (Área Construida: x) \(y=ß_0+ß_1x\), reemplazando los coeficientes se obtiene: \(y=86.234+2.124x\).

El coeficiente \(ß_0=86.234\) indica el precio estimado de la vivienda en caso de no tener área construida.

El coeficiente \(ß_1=2.124\) corresponde al valor estimado de la pendiente de la línea recta que modela la relación entre las variables, significa que por cada aumento unitario (\(1m^2\)) en la variable predictora “Área Construida” hay un aumento de \(2.124\) (millones) en la variable de respuesta “Precio de la Vivienda”.

Para ambos coeficientes, el modelos estima que son significativos puesto que los p-valores respectivos son aproximadamente cero.

Punto 4: Construir un intervalo de confianza (95%) para el coeficiente \(ß_1\), interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

##                   2.5 %   97.5 %
## Area_construida 1.74017 2.507771

Con un nivel de significancia del \(5\%\) se estima que por cada aumento de \(1 m^2\) en la variable Área Construida se espera un aumento en la variable dependiente Precio de Vivienda (millones) entre \(1.74\) y \(2.51\), con lo que se puede concluir que a un nivel de confianza de \(95\%\) el coeficiente \(ß_1\) es diferente de cero.

Ahora se realiza una prueba de hipótesis con \(H_0: ß_1=0\) y \(H_a: ß_1?0\), con igual nivel de significancia igual al intervalo de confianza, el modelo muestra que el p-valor \(3.45*10^{-11}\) está por debajo del \(5\%\), por lo que estadísticamente no se puede rechazar la hipótesis alternativa, concluyendo que a un nivel de confianza de \(95\%\) el coeficiente \(ß_1\) es diferente de cero.

Punto 5: Calcule e interprete el indicador de bondad y ajuste R2.

Según el resumen anterior del modelo, se puede observar los siguientes valores para el coeficiente de determinación y el ajustado: \(R^2=0.8446\) y \(R^2(Ajustado)=0.8381\), esto quiere decir, que la bondad del ajuste de la recta de regresión explica el \(84.46\%\) de la variable Precio de Viviendas con respecto al Área Construida.

Punto 6: ¿Cuál seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?

Se realiza una predicción para \(x=110 m^2\) de Área Construida:

##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

El precio estimado para un Área Construida de \(110 m^2\) está estimado en \(319.87\) millones de COP, en un intervalo entre \(306.31\) y \(333.42\) millones con un nivel de confianza del \(95\%\).

Si existe un apartamento con un precio de \(200\) millones de COP sin duda es una oferta porque dicho valor se encuentra muy por debajo del valor inferior en el intervalo de confianza, sin embargo, es recomendable tener en cuenta otros factores que el modelo no tiene, por ejemplo, condiciones de la infraestructura, problemas legales, deudas prediales o de servicios públicos, problemas notariales, entre otros.

Punto 7: Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

Primero se realiza el análisis gráfico:

Según el gráfico de Residuales vs Valores Ajustados, se observa un patrón diferente a una aleatoriedad, por lo que puede existir una transformación sobre la variable Área Construida que mejore los indicadores del modelo.

El gráfico normal QQ muestra que los puntos están bien ajustado a la linea recta, por lo que la normalidad parece razonable.

Ahora se realiza una prueba de normalidad:

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.95489, p-value = 0.3009

El resultado de la prueba indica que el p-valor es mayor al \(5\%\) de significancia por lo que no se puede rechazar la hipótesis alternativa y se concluye que los datos proviene de una distribución normal.

Se realiza un análisis de la variabilidad (ANOVA):

anova(modelo)
## Analysis of Variance Table
## 
## Response: precio_millon
##                 Df Sum Sq Mean Sq F value   Pr(>F)    
## Area_construida  1 142480  142480  130.46 3.45e-11 ***
## Residuals       24  26212    1092                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se evidencia que el p-valor está por debajo del nivel de significancia del \(5\%\) por lo que se concluye que el Área Construida si influye de manera significativa sobre el Precio de la Vivienda

Punto 8: De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Debido al gráfico de Residuales vs Valores ajustados, se proponen transformaciones para observar si el modelo se ajusta de mejor manera.

Modelo Ajustado con logaritmo

## 
## Call:
## lm(formula = precio_millon ~ log(Area_construida), data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -45.837 -20.153  -1.878  20.145  55.145 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -948.53      89.09  -10.65 1.42e-10 ***
## log(Area_construida)   271.88      18.88   14.40 2.63e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared:  0.8963, Adjusted R-squared:  0.8919 
## F-statistic: 207.4 on 1 and 24 DF,  p-value: 2.63e-13

Se aplicó logaritmo natural sobre la variable Área Construida, en resumen, el nuevo modelo presenta un par de coeficientes con buenas estimaciones debido a los p-valores, también se tiene un coeficiente de determinación que indica un porcentaje de explicación del \(89\%\) de la variable Precio de Vivienda con respecto a Área Construida, el gráfico QQ sugiere que la distribución de datos proviene de una distribución normal, sin embargo, el gráfico de residuales indica que la varianza no es constante, mostrando un comportamiento de puntos no aleatorios.

Modelo Ajustado con doble logaritmo

## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_construida), data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_construida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12

Modelo Ajustado Exponencial

## 
## Call:
## lm(formula = log(precio_millon) ~ (Area_construida), data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.16503 -0.09255 -0.02221  0.08600  0.19822 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     5.048147   0.073371   68.80  < 2e-16 ***
## Area_construida 0.006288   0.000607   10.36 2.46e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared:  0.8172, Adjusted R-squared:  0.8096 
## F-statistic: 107.3 on 1 and 24 DF,  p-value: 2.456e-10

De los modelos ajustado, el que presenta mejor coeficiente de determinación es el logarítmico, en todos los caso el gráfico QQ indica que los datos están ajustados y provienen de una distribución normal, pero el gráfico de residuales indica que la varianza no es constante.

Punto 9: De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

Se compara el modelo inicial con el modelo ajustado #1. En ambos casos el gráfico QQ permite suponer que la distribución de datos sigue una distribución normal, pero el gráfico de residuales no indica aleatoriedad por lo que la varianza no es constante, la diferencia radica en el coeficiente de determinación \(r^2\) que pasó de \(0.8446\) a \(0.8963\), por lo que el porcentaje de explicación de la variable de respuesta aumentó en un \(5.17\%\).