Datos de vivienda con información del Área construida y los precios en millones

Para este informe vamos a trabajar con una base datos que contiene información acerca de la oferta de viviendas existentes en un portal llamado Fincaraiz. Para esto tenemos una muestra de 26 viviendas \((n=26)\). Además, solo vamos a tener en cuenta dos variables existentes en esta oferta, las cuales son: Área construida como variable predatoria o independiente \((x)\) y el precio que es la variable de respuesta o independiente \((y)\), por lo que se estaría diciendo es que el precio de las viviendas, depende del Área construida.
A pesar de que solo estamos considerando estas dos variables cuantitativas tenemos que tener en cuenta que existen muchas más variables cuantitativas y cualitativas que pueden generar un efecto en este proceso y la inferencia en el momento de dar resultados.

## # A tibble: 26 x 2
##    Area_contruida precio_millon
##             <dbl>         <dbl>
##  1             86           250
##  2            118           385
##  3            130           395
##  4            181           419
##  5             86           240
##  6             98           320
##  7            170           480
##  8             96           268
##  9             85           240
## 10            170           450
## # ... with 16 more rows

1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y Área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretarlos.


Área construida (en metros cuadrados)

Para el Área de las viviendas en las muestras tenemos que están entre \(80\) y \(195\) metros construidos, además de que estas ofertas tienen un promedio de \(115.7\) metros y que como se puede ver en el histograma la gran mayoría de viviendas ofertadas están entre \(80\) y \(100\) metros. Ahora en el boxplot se puede ver que la mediana es de \(97\) metros cuadrados, y este es asimétrico hacia la derecha, esto debido a que hay mucha variabilidad en los datos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    80.0    86.0    97.0   115.7   130.0   195.0

Precios de viviendas

Para el precio de las viviendas tenemos que están entre \(240\) y \(480\) millones de pesos colombianos, además de que estas tienen un precio promedio de \(332.1\) millones y que como se puede ver en el histograma acá los precios son más distribuidos, pero existe un mayor número de casas con precios entre \(200\) y \(300\) millones, mientras que entre \(300\) y \(350\), \(450\) y \(500\) millones existen menos viviendas ofertadas. Ahora en el boxplot se puede ver que la mediana es de \(305\) millones de pesos colombianos, y este es asimétrico hacia la derecha, esto debido a que hay mucha variabilidad en los datos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   240.0   251.2   305.0   332.1   395.0   480.0

2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (\(y=precio\)) en función de la variable predictora (\(x=area\)) - incluir gráficos e indicadores apropiados interpretados.


Podemos ver que hay una relación creciente, donde a medida que aumenta el Área construida de las viviendas, el precio de las viviendas también aumenta y además de que las grafica sugiere que no hay linealidad, ya que los puntos parecieran sugerir una curvatura.

Para validar este supuesto, utilizamos la correlación entre la variables, esta es 0.9190295, lo que indica que efectivamente hay una relación positiva fuerte entre las variables y que un aumento en x \(Área\) corresponde un incremento en y \(Precio\), pero no necesariamente es de tipo lineal.

## [1] 0.9190295

Como existe una aparente relación creciente entre el Área y el precio, además de que la correlación entre estas dos variables es bastante buena, se puede hacer una gráfica que me represente esta situación, donde podamos interactuar de una manera más dinámica con los datos, donde se ve una recta ajustada que me intenta representar de la mejor manera un modelo para esta regresión y el intervalo de confianza para los valores medios.

## `geom_smooth()` using formula 'y ~ x'

3. Estime el modelo de regresión lineal simple entre \(precio = f(Área) + e\). Interprete los coeficientes del modelo \(\beta_0\), \(\beta_1\) en caso de ser correcto.


3.1 Estimadores del modelo \(\beta_0\) y \(\beta_1\)

Para la estimación del modelo tenemos que el coeficiente \(\hat{\beta_0}= 86.234\) y el coeficiente \(\hat{\beta_1} = 2.124\). Donde el modelo estimado seria la recta \(\hat{Y_i}=86.234 + 2.124*X_i\)

3.2 InterpretaciÓn de los estimadores

Para \(\beta_0\) no tienen sentido hacer una interpretación ya que en la muestra tomada no tenemos valores de \(X=0\), y no tendrá sentido hablar de 0 metros cuadrados construidos.

Para \(\beta_1\) si tiene sentido la interpretación, la cual será que, por cada metro cuadrado construido, se espera que se el precio aumente en un promedio de 2.124 millones de pesos

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = vivienda)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

4. Construir un intervalo de confianza (95%) para el coeficiente \(\beta_1\), interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.


4.1 Significancia con el intervalo de confianza El intervalo de confianza al 95%, para el coeficiente \(\beta_1\) es \((1.740115,2.507885)\) De donde notamos que el cero no pertenece al intervalo y podemos decir que el coeficiente es significativo y por lo tanto interpretable para la regresión asociada a los datos de las ofertas de viviendas, además de que este intervalo también nos dice que el valor de \(\beta_1\) esta entre estos valores con un 95% de confianza.

4.2 Significancia con la prueba de Hipotesis t
\(H_0: \beta_1=0\) vs \(H_1:\beta_1 \neq 0\)
Con la prueba de hipótesis t, tenemos que el valor de \(t_0= 11.41935\) y el valor de mi \(t = 2.063899\)
Con estos valores tenemos que \(t_0 > t\), se rechaza \(H_0\). Por lo tanto \(\beta_1\) es diferente de cero, entonces el \(\beta_1\) es significativo e interpretable como se evidencia en el punto anterior de este informe.

## [1] "Intervalo de confianza: ( 1.74011486753719 ,  2.50788513246281 )"
## [1] "t_0:  11.4193548387097  t:  2.06389856162803"

5. Calcule e interprete el indicador de bondad y ajuste \(R^{2}\)

Del punto 3, en el cual tenemos la información del modelo podeos ver que el \(R^{2}\) para esta regresión es \(0.8446\).
Lo que quiere decir que \(84.5\%\) de la variabilidad total de los precios es explicado por el modelo (la regresión)

6. ¿Cuál será el precio promedio estimado para un apartamento de 110 metros cuadrados? ¿Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones será una buena oferta? ¿Qué consideraciones adicionales se deben tener?

Primero hay que verificar que el valor de \(X=110\) no sea una extrapolación. Pero como tenemos que \(X\) toma valores en el rango de \((80, 195)\), podemos decir que se trata de una interpolación y tiene sentido hacer la interpretación.

## [1]  80 195

6.1 De acuerdo con el modelo de regresión lineal, el precio estimado promedio para un apartamento de \(110\) metros cuadrados es de \(319.8706\) millones de pesos COP

##        1 
## 319.8706

6.2 Teniendo en cuenta que el precio estimado en promedio de un apartamento de \(110\) metros cuadrados está entre \(306.3133\) y \(333.4279\), se puede decir que solo teniendo en cuentas estas variables es una muy buena oferta ya que tiene un precio menor a comparación de otros y el precio que se esperara tener de acuerdo a su área construida. Además, sería correcto considerar también variables como: estrato, barrio, cantidad de habitaciones, el tipo de vivienda, posee parqueadero o no, etc. Para hacer un mejor análisis del problema.

##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

7. Realice la validación de supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

Teniendo en cuenta que para hacer el modelo se tuvieron cuatros supuestos en el error, para mirar que tan adecuado es el modelo.

7.1 Los errores del modelo tienen media cero este supuesto se suele cumplir por defecto, aunque podemos comprobarlos como se muestra acá.

##Media cero
ei=modelo$residuals
Yi_mod=modelo$fitted.values
round(mean(ei),3)
## [1] 0

7.2 Los errores del modelo tienen una varianza constante u homogénea Esta validación suele hacerse de manera gráfica. Se puede observar en la \(Figura\: 1\) de residuales (\(e_i\)) vs ajustados (\(Y_imod\)), que el comportamiento es aleatorio y tiene una forma de parábola hacia abajo, lo que no nos permite concluir algo acerca de la varianza, pero sugiere que el modelo no es lineal

7.3 Los errores del modelo se distribuyen normal Normalmente la normalidad suele tener una relación con la varianza, por lo que se podrá intuir que no se va a cumplir el supuesto. Para poder mirar si se distribuye normal vamos a utilizar la validación gráfica y el \(Shapiro.test(e_i)\).

Gráficamente se puede observar en la \(Figura\: 2\) que se sugiere unas curvaturas en los datos, por lo que se sugiere que estos no se ajustan de la mejor manera a la gráfica, por lo que no existe evidencia de que esta se pueda distribuir normal.

Teniendo en cuenta el \(Shapiro.test(e_i)\), nos da que \(P=0.3009\), el cual es un valor muy grande lo que indica que el modelo se distribuye normal.

A pesar de que ambas pruebas no coinciden, es preferible creerle a la prueba grafica porque el test puede verse sesgado por falta de información. Lo que nos permite concluir que el Modelo no se distribuye normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  ei
## W = 0.95489, p-value = 0.3009

7.4 Los errores del modelo son independientes Como para este conjunto de datos sobre las viviendas no tenemos un ordenamiento temporal o espacial, No tiene sentido realizar este gráfico.

Prueba de bondad de ajuste

Utilizando la prueba de bondad de ajuste para mirar la linealidad donde se plantean la hipótesis \(H_0: E[Y|X]=\beta_0+\beta_1*X\) vs \(H_1:E[Y|X] \neq \beta_0+\beta_1*X\) Nos da que el \(valorP=0.01305\) es chiquito, ya que \(0.01305<0.05\) por lo que se tiene que el modelo no sugiere linealidad, y por lo tanto no es adecuado y se debería hacer una transformación para mejorarlo.

## Analysis of Variance Table
## 
## Model 1: precio_millon ~ Area_contruida
## Model 2: precio_millon ~ as.factor(Area_contruida)
##   Res.Df     RSS Df Sum of Sq      F  Pr(>F)  
## 1     24 26212.2                              
## 2     12  5363.4 12     20849 3.8872 0.01305 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo

En el punto anterior se pudo notar que varianza no es homogénea, y al tener una forma de parábola se sugiere que el modelo no es lineal, y por lo tanto no es adecuado. Además, la gráfica de lineal sugiere que no lo es, por estas cosas que es ideal hacer una transformación y así poder llegar a un mejor ajuste del modelo.

La transformación que se va a realizar va a ser \(X^* = 1/x\), donde la estimación para el modelo transformado va a estar dada por \(\hat{Y_i}=635.35 -32464.72 *X_i^*\), teniendo una Correlación \(0.9614495\) y un \(R^2=0.9244\) mayor al modelo anterior igual que la correlación entre las variables, que nos indica que este modelo explica mejor la variabilidad.

Interpretación de los estimadores

Para \(\beta_0\) no tienen sentido hacer una interpretación ya que en la muestra tomada no tenemos valores de \(X^*=0\), y no tendrá sentido hablar de 0 metros cuadrados construidos.

Para \(\beta_0\) si tiene sentido la interpretación, la cual será que, por cada \(1/metro-cuadrado- construido\), se espera que se el precio disminuya en un promedio de \(-32464.72\) millones de pesos.

Validación para supuestos del modelo transformado

Teniendo en cuenta que el supuesto de media cero se cumple por defecto y el de independencia en esta inferencia no tienen relevancia. se analizan el de varianza homogénea y normalidad.

8.1 Varianza Homogénea para la varianza homogénea, se ve una mejora, pero con esta cantidad de datos, se pueden generar sesgos para hacer la inferencia, y podemos ver que la gráfica tiene una pequeña curvatura, pero no representa tanta desviación, por lo que vamos a asumir la homogeneidad de la varianza.

8.2 Normalidad Para la normalidad pasa algo parecido a la varianza, debido a la cantidad de puntos que se tienen, se puede ver un desvíen la gráfica, pero al no ser tan grande asumimos normalidad.

## 
## Call:
## lm(formula = precio_millon ~ lnx)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.987 -16.743  -5.023  18.547  44.379 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    635.35      18.27   34.77  < 2e-16 ***
## lnx         -32464.72    1895.32  -17.13 5.84e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared:  0.9244, Adjusted R-squared:  0.9212 
## F-statistic: 293.4 on 1 and 24 DF,  p-value: 5.839e-15
## [1] -0.9614495

9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

Como se puede ver en las gráficas y supuestos del modelo inicial y modelo transformado, el modelo transformado tiene un mejor ajuste comparado con el modelo original, con un coeficiente de determinación de 0.9244, es decir, el 92.44% de la variabilidad de la variable respuesta es explicada por la regresión.

En la gráfica (modelo transformado) Normal cuantil-cuantil, se puede observar que los datos están más cercanas a la recta de regresión, lo que indica que los datos aparentemente se distribuyen normal, por lo que se hará uso de la prueba de shapiro.test que arroja un valor p grande, por lo que efectivamente los datos se distribuyen normal.

Para las gráficas de la varianza, también se nota que las gráficas mejoran notoriamente, ya que la del modelo inicial no sugiere que sea constante, mientras que en el transformado sí.

Prueba de bondad de ajuste

Utilizando la prueba de bondad de ajuste para mirar la linealidad donde se plantean la hipótesis \(H_0: E[Y|X]=\beta_0+\beta_1*X\) vs \(H_1:E[Y|X] \neq \beta_0+\beta_1*X\) Nos da que el \(valorP=0.2935\) es muy grande ya que \(0.2935>0.05\) por lo que se tiene que el modelo sugiere linealidad, siendo adecuado.

## Analysis of Variance Table
## 
## Model 1: precio_millon ~ lnx
## Model 2: precio_millon ~ as.factor(lnx)
##   Res.Df     RSS Df Sum of Sq      F Pr(>F)
## 1     24 12755.6                           
## 2     12  5363.4 12    7392.2 1.3783 0.2935

10. Realizar una función en R la cual permita ingresar el valor de X, Y,\((1-\alpha)\%\) en una regresión lineal simple y retorne el intervalo de confianza para \(\beta_1\) dado un nivel de confianza de entrada \((1-\alpha)\%\)

La función \(intrs\) recibe como parámetros un vector de los valores de los metros cuadrados de las viviendas \(X\), uno de los precios de las viviendas \(Y\) y el porcentaje de confianza

intrs=function(x,y,alp){
  modfun <- lm(y ~ x)
  resum = summary(modfun)
  ##Intervalo de confianza para Beta 1
  porc= (alp/100) + ((100-alp)/100)/2
  

  beta1fun= round(resum$coefficients[2,1],3)
  ee_beta1fun= round(resum$coefficients[2,2],3)
  
  #alp% nivel de confianza

  t=qt(porc,df = (length(x)-2))

  LI=beta1fun-(t*ee_beta1fun)
  LS=beta1fun+(t*ee_beta1fun)

  
  return(c(LI,LS))
}
intrs(Area_contruida,precio_millon,95)
## [1] 1.740115 2.507885