## New names:
## * `` -> ...3
## * `` -> ...4
## * `` -> ...5
## * `` -> ...6
Actividad
Con base en los datos de ofertas de vivienda descargadas del portal
Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes
puntos:
Punto 1
Realice un análisis exploratorio de las variables precio de vivienda
(millones de pesos COP) y area de la vivienda (metros cuadrados) -
incluir graficos e indicadores apropiados interpretados.

De acuerdo al gráfico de distribución de viviendas por área
construida se puede observar que la mayor parte de las casas tienen un
valor aproximado de área construida de 85 a 90 metros cuadrados.
## The following objects are masked from vivienda (pos = 3):
##
## ...3, ...4, ...5, ...6, Area_contruida, precio_millon

De acuerdo al gráfico de distribución de viviendas de precio por
millon se puede observar que la mayor parte de las casas tienen un valor
aproximado a 240 y 250 millones.

Teniendo en cuenta los gráficos se puede determinar que para ambos
casos contamos con una distribución asimétrica, para el caso del gráfico
de área construida la mayor parte de los datos se concentran para áreas
construidas entre 86 y 96 metros cuadrados aproximadamente, de igual
forma de acuerdo a la grafico precio por millón se puede indicar que el
precio de las casas en sus mayorías se concentra en unos valores
aproximados entre 250 y 300 millones aproximadamente.
Punto 2
Realice un análisis exploratorio bivariado de datos enfocado en la
relación entre la variable respuesta (y=precio) en función de la
variable predictora (x=area) - incluir gráficos e indicadores apropiados
interpretados.

De acuerdo a la representación gráfica se puede observar que la
mayor parte de las casas tienen un área aproximada entre 80 y 96 metros
cuadrados y su valor oscila entre 250 y 290 millones de pesos, también
se puede evidenciar que las casas con áreas aproximadas a 180 metros
cuadrados tienen un costo aproximado de 450 millones de pesos.
Punto 3
Estime el modelo de regresión lineal simple entre precio = f(area)
+e. Interprete los coeficientes del modelo β0, β1 en caso de ser
correcto.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Considerando los valores obtenidos de acuerdo al modelo. Se puede
indicar que el coeficiente del modelo β0 = 86,234 millones de pesos
indica que el valor corresponde al precio base de las casas, respecto al
valor de β1 = 2.124 indica que el valor del inmueble se incrementa en
ese valor por cada metro cuadrado.
Punto 4
Construir un intervalo de confianza (95%) para el coeficiente β1,
interpretar y concluir si el coeficiente es igual a cero o no. Compare
este resultado con una prueba de hipótesis t.
## 2.5 % 97.5 %
## (Intercept) 39.83983 132.627917
## Area_contruida 1.74017 2.507771
##
## One Sample t-test
##
## data: modelo_regre_lineal$coefficients
## t = 1.0505, df = 1, p-value = 0.4843
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -490.1799 578.5377
## sample estimates:
## mean of x
## 44.17892
De acuerdo al análisis respecto al intervalo de confianza del 95%
para el coeficiente β1, en relación al área construida este puede tomar
un valor entre [1.74017 - 2.507771] millones de pesos por cada metro
cuadrado de área construida, de igual manera se puede indicar que la
variable β1 es estadísticamente significativa para el modelo dado que el
valor p es menor a 0.05 [p-value = 0.4843].
Punto 5
Calcule e interprete el indicador de bondad y ajuste R2.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
De acuerdo al cálculo realizado se puede observar que el ajuste del
modelo corresponde a un valor de R2=0.8446, esto implica que el modelo
define el 84% de la variabilidad del precio de las viviendas, lo cual
indica el cambio de valor de las viviendas según los metros
construidos.
Punto 6
Cual sería el precio promedio estimado para un apartamento de 110
metros cuadrados? Considera entonces con este resultado que un
apartamento en la misma zona con 110 metros cuadrados en un precio de
200 millones seria una buena oferta? Que consideraciones adicionales se
deben tener?.
## fit lwr upr
## 1 319.8706 306.3133 333.4279
De acuerdo a los cálculos realizados se puede indicar que el valor
promedio para un apartamento de 110 metros cuadrados es de 318.8706
millones de pesos, con otro valor posible de 306.3133 y 333.4279
millones de pesos, de acuerdo a los análisis previos para un apartamento
de 110 metros cuadrados su valor aproximado oscila entre 350 y 380
millones de pesos, de esta manera si el apartamento corresponde a las
características de cualquier apartamento promedio sería una excelente
oferta adquirirlo en este valor, sin embargo al tener en cuenta una
diferencia tan notoria entre el valor de venta vs el valor promedio de
venta es necesario identificar otras características del apartamento a
nivel de infraestructura, afectación familiar, escrituras, humedad,
hipotecas etc etc. que puedan definir realmente por que el valor del
inmueble es tan bajo.
Punto 7
Realice la validación de supuestos del modelo por medio de gráficos
apropiados, interpretarlos y sugerir posibles soluciones si se violan
algunos de ellos.

##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_regre_lineal)
## W = 0.95489, p-value = 0.3009
De acuerdo a la gráfica de Residuals vs Fitted se puede observar que
el valor de media corresponde a valor cero, luego se cumple. Sin
embargo, la varianza no es constante. De igual manera se puede detallar
a nivel grafico que no se cuenta con una distribución de los residuales,
luego es necesario aplicar la prueba Shapiro-wilk normality que plantea
la hipótesis nula que una muestra proviene de una distribución normal,
de acuerdo a los resultados obtenidos indica que posiblemente exista una
normalidad, luego es necesario realizar una transformación para lograr
que los supuestos se cumplan acertadamente.
De acuerdo a los resultados obtenidos se sigue presentando
normalidad en los residuales.
##
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.13325 -0.07583 -0.01435 0.07501 0.16051
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.96408 0.29228 6.72 5.97e-07 ***
## log(Area_contruida) 0.80928 0.06194 13.06 2.11e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared: 0.8767, Adjusted R-squared: 0.8716
## F-statistic: 170.7 on 1 and 24 DF, p-value: 2.109e-12
par(mfrow=c(2,2))
plot(modelo_regre_lineal_2)

Para este análisis fue necesario realizar una transformación con log
para las variables X y Y, sin embargo, no se presentan mejoras.
Punto 9