Para este informe vamos a trabajar con una base datos que contiene información acerca de la oferta de viviendas existentes en un portal llamado Fincaraiz. Para esto tenemos una muestra de 26 viviendas \((n=26)\). Además, solo vamos a tener en cuenta dos variables existentes en esta oferta, las cuales son: Área construida como variable predatoria o independiente \((x)\) y el precio que es la variable de respuesta o independiente \((y)\), por lo que se estaría diciendo es que el precio de las viviendas, depende del Área construida.
A pesar de que solo estamos considerando estas dos variables cuantitativas tenemos que tener en cuenta que existen muchas más variables cuantitativas y cualitativas que pueden generar un efecto en este proceso y la inferencia en el momento de dar resultados.
## # A tibble: 26 x 2
## Area_contruida precio_millon
## <dbl> <dbl>
## 1 86 250
## 2 118 385
## 3 130 395
## 4 181 419
## 5 86 240
## 6 98 320
## 7 170 480
## 8 96 268
## 9 85 240
## 10 170 450
## # ... with 16 more rows
Para el Área de las viviendas en las muestras tenemos que están entre \(80\) y \(195\) metros construidos, además de que estas ofertas tienen un promedio de \(115.7\) metros y que como se puede ver en el histograma la gran mayoría de viviendas ofertadas están entre \(80\) y \(100\) metros. Ahora en el boxplot se puede ver que la mediana es de \(97\) metros cuadrados, y este es asimétrico hacia la derecha, esto debido a que hay mucha variabilidad en los datos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 80.0 86.0 97.0 115.7 130.0 195.0
Para el precio de las viviendas tenemos que están entre \(240\) y \(480\) millones de pesos colombianos, además de que estas tienen un precio promedio de \(332.1\) millones y que como se puede ver en el histograma acá los precios son más distribuidos, pero existe un mayor número de casas con precios entre \(200\) y \(300\) millones, mientras que entre \(300\) y \(350\), \(450\) y \(500\) millones existen menos viviendas ofertadas. Ahora en el boxplot se puede ver que la mediana es de \(305\) millones de pesos colombianos, y este es asimétrico hacia la derecha, esto debido a que hay mucha variabilidad en los datos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 240.0 251.2 305.0 332.1 395.0 480.0
Podemos ver que hay una relación creciente, donde a medida que aumenta el Área construida de las viviendas, el precio de las viviendas también aumenta y además de que las grafica sugiere que no hay linealidad, ya que los puntos parecieran sugerir una curvatura.
Para validar este supuesto, utilizamos la correlación entre la variables, esta es 0.9190295, lo que indica que efectivamente hay una relación positiva fuerte entre las variables y que un aumento en x \(Área\) corresponde un incremento en y \(Precio\), pero no necesariamente es de tipo lineal.
## [1] 0.9190295
Como existe una aparente relación creciente entre el Área y el precio, además de que la correlación entre estas dos variables es bastante buena, se puede hacer una gráfica que me represente esta situación, donde podamos interactuar de una manera más dinámica con los datos, donde se ve una recta ajustada que me intenta representar de la mejor manera un modelo para esta regresión y el intervalo de confianza para los valores medios.
## `geom_smooth()` using formula 'y ~ x'
3.1 Estimadores del modelo \(\beta_0\) y \(\beta_1\)
Para la estimación del modelo tenemos que el coeficiente \(\hat{\beta_0}= 86.234\) y el coeficiente \(\hat{\beta_1} = 2.124\). Donde el modelo estimado seria la recta \(\hat{Y_i}=86.234 + 2.124*X_i\)
3.2 InterpretaciÓn de los estimadores
Para \(\beta_0\) no tienen sentido hacer una interpretación ya que en la muestra tomada no tenemos valores de \(X=0\), y no tendrá sentido hablar de 0 metros cuadrados construidos.
Para \(\beta_1\) si tiene sentido la interpretación, la cual será que, por cada metro cuadrado construido, se espera que se el precio aumente en un promedio de 2.124 millones de pesos
##
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
4.1 Significancia con el intervalo de confianza El intervalo de confianza al 95%, para el coeficiente \(\beta_1\) es \((1.740115,2.507885)\) De donde notamos que el cero no pertenece al intervalo y podemos decir que el coeficiente es significativo y por lo tanto interpretable para la regresión asociada a los datos de las ofertas de viviendas, además de que este intervalo también nos dice que el valor de \(\beta_1\) esta entre estos valores con un 95% de confianza.
4.2 Significancia con la prueba de Hipotesis t
\(H_0: \beta_1=0\) vs \(H_1:\beta_1 \neq 0\)
Con la prueba de hipótesis t, tenemos que el valor de \(t_0= 11.41935\) y el valor de mi \(t = 2.063899\)
Con estos valores tenemos que \(t_0 > t\), se rechaza \(H_0\). Por lo tanto \(\beta_1\) es diferente de cero, entonces el \(\beta_1\) es significativo e interpretable como se evidencia en el punto anterior de este informe.
## [1] "Intervalo de confianza: ( 1.74011486753719 , 2.50788513246281 )"
## [1] "t_0: 11.4193548387097 t: 2.06389856162803"
Del punto 3, en el cual tenemos la información del modelo podeos ver que el \(R^{2}\) para esta regresión es \(0.8446\).
Lo que quiere decir que \(84.5\%\) de la variabilidad total de los precios es explicado por el modelo (la regresión)
Primero hay que verificar que el valor de \(X=110\) no sea una extrapolación. Pero como tenemos que \(X\) toma valores en el rango de \((80, 195)\), podemos decir que se trata de una interpolación y tiene sentido hacer la interpretación.
## [1] 80 195
6.1 De acuerdo con el modelo de regresión lineal, el precio estimado promedio para un apartamento de \(110\) metros cuadrados es de \(319.8706\) millones de pesos COP
## 1
## 319.8706
6.2 Teniendo en cuenta que el precio estimado en promedio de un apartamento de \(110\) metros cuadrados está entre \(306.3133\) y \(333.4279\), se puede decir que solo teniendo en cuentas estas variables es una muy buena oferta ya que tiene un precio menor a comparación de otros y el precio que se esperara tener de acuerdo a su área construida. Además, sería correcto considerar también variables como: estrato, barrio, cantidad de habitaciones, el tipo de vivienda, posee parqueadero o no, etc. Para hacer un mejor análisis del problema.
## fit lwr upr
## 1 319.8706 306.3133 333.4279
Teniendo en cuenta que para hacer el modelo se tuvieron cuatros supuestos en el error, para mirar que tan adecuado es el modelo.
7.1 Los errores del modelo tienen media cero este supuesto se suele cumplir por defecto, aunque podemos comprobarlos como se muestra acá.
##Media cero
ei=modelo$residuals
Yi_mod=modelo$fitted.values
round(mean(ei),3)
## [1] 0
7.2 Los errores del modelo tienen una varianza constante u homogénea Esta validación suele hacerse de manera gráfica. Se puede observar en la \(Figura\: 1\) de residuales (\(e_i\)) vs ajustados (\(Y_imod\)), que el comportamiento es aleatorio y tiene una forma de parábola hacia abajo, lo que no nos permite concluir algo acerca de la varianza, pero sugiere que el modelo no es lineal
7.3 Los errores del modelo se distribuyen normal Normalmente la normalidad suele tener una relación con la varianza, por lo que se podrá intuir que no se va a cumplir el supuesto. Para poder mirar si se distribuye normal vamos a utilizar la validación gráfica y el \(Shapiro.test(e_i)\).
Gráficamente se puede observar en la \(Figura\: 2\) que se sugiere unas curvaturas en los datos, por lo que se sugiere que estos no se ajustan de la mejor manera a la gráfica, por lo que no existe evidencia de que esta se pueda distribuir normal.
Teniendo en cuenta el \(Shapiro.test(e_i)\), nos da que \(P=0.3009\), el cual es un valor muy grande lo que indica que el modelo se distribuye normal.
A pesar de que ambas pruebas no coinciden, es preferible creerle a la prueba grafica porque el test puede verse sesgado por falta de información. Lo que nos permite concluir que el Modelo no se distribuye normal.
##
## Shapiro-Wilk normality test
##
## data: ei
## W = 0.95489, p-value = 0.3009
7.4 Los errores del modelo son independientes Como para este conjunto de datos sobre las viviendas no tenemos un ordenamiento temporal o espacial, No tiene sentido realizar este gráfico.
Utilizando la prueba de bondad de ajuste para mirar la linealidad donde se plantean la hipótesis \(H_0: E[Y|X]=\beta_0+\beta_1*X\) vs \(H_1:E[Y|X] \neq \beta_0+\beta_1*X\) Nos da que el \(valorP=0.01305\) es chiquito, ya que \(0.01305<0.05\) por lo que se tiene que el modelo no sugiere linealidad, y por lo tanto no es adecuado y se debería hacer una transformación para mejorarlo.
## Analysis of Variance Table
##
## Model 1: precio_millon ~ Area_contruida
## Model 2: precio_millon ~ as.factor(Area_contruida)
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 24 26212.2
## 2 12 5363.4 12 20849 3.8872 0.01305 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En el punto anterior se pudo notar que varianza no es homogénea, y al tener una forma de parábola se sugiere que el modelo no es lineal, y por lo tanto no es adecuado. Además, la gráfica de lineal sugiere que no lo es, por estas cosas que es ideal hacer una transformación y así poder llegar a un mejor ajuste del modelo.
La transformación que se va a realizar va a ser \(X^* = 1/x\), donde la estimación para el modelo transformado va a estar dada por \(\hat{Y_i}=635.35 -32464.72 *X_i^*\), teniendo una Correlación \(0.9614495\) y un \(R^2=0.9244\) mayor al modelo anterior igual que la correlación entre las variables, que nos indica que este modelo explica mejor la variabilidad.
Interpretación de los estimadores
Para \(\beta_0\) no tienen sentido hacer una interpretación ya que en la muestra tomada no tenemos valores de \(X^*=0\), y no tendrá sentido hablar de 0 metros cuadrados construidos.
Para \(\beta_0\) si tiene sentido la interpretación, la cual será que, por cada \(1/metro-cuadrado- construido\), se espera que se el precio disminuya en un promedio de \(-32464.72\) millones de pesos.
Validación para supuestos del modelo transformado
Teniendo en cuenta que el supuesto de media cero se cumple por defecto y el de independencia en esta inferencia no tienen relevancia. se analizan el de varianza homogénea y normalidad.
8.1 Varianza Homogénea para la varianza homogénea, se ve una mejora, pero con esta cantidad de datos, se pueden generar sesgos para hacer la inferencia, y podemos ver que la gráfica tiene una pequeña curvatura, pero no representa tanta desviación, por lo que vamos a asumir la homogeneidad de la varianza.
8.2 Normalidad Para la normalidad pasa algo parecido a la varianza, debido a la cantidad de puntos que se tienen, se puede ver un desvíen la gráfica, pero al no ser tan grande asumimos normalidad.
##
## Call:
## lm(formula = precio_millon ~ lnx)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36.987 -16.743 -5.023 18.547 44.379
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 635.35 18.27 34.77 < 2e-16 ***
## lnx -32464.72 1895.32 -17.13 5.84e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared: 0.9244, Adjusted R-squared: 0.9212
## F-statistic: 293.4 on 1 and 24 DF, p-value: 5.839e-15
## [1] -0.9614495
Como se puede ver en las gráficas y supuestos del modelo inicial y modelo transformado, el modelo transformado tiene un mejor ajuste comparado con el modelo original, con un coeficiente de determinación de 0.9244, es decir, el 92.44% de la variabilidad de la variable respuesta es explicada por la regresión.
En la gráfica (modelo transformado) Normal cuantil-cuantil, se puede observar que los datos están más cercanas a la recta de regresión, lo que indica que los datos aparentemente se distribuyen normal, por lo que se hará uso de la prueba de shapiro.test que arroja un valor p grande, por lo que efectivamente los datos se distribuyen normal.
Para las gráficas de la varianza, también se nota que las gráficas mejoran notoriamente, ya que la del modelo inicial no sugiere que sea constante, mientras que en el transformado sí.
Utilizando la prueba de bondad de ajuste para mirar la linealidad donde se plantean la hipótesis \(H_0: E[Y|X]=\beta_0+\beta_1*X\) vs \(H_1:E[Y|X] \neq \beta_0+\beta_1*X\) Nos da que el \(valorP=0.2935\) es muy grande ya que \(0.2935>0.05\) por lo que se tiene que el modelo sugiere linealidad, siendo adecuado.
## Analysis of Variance Table
##
## Model 1: precio_millon ~ lnx
## Model 2: precio_millon ~ as.factor(lnx)
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 24 12755.6
## 2 12 5363.4 12 7392.2 1.3783 0.2935
La función \(intrs\) recibe como parámetros un vector de los valores de los metros cuadrados de las viviendas \(X\), uno de los precios de las viviendas \(Y\) y el porcentaje de confianza
intrs=function(x,y,alp){
modfun <- lm(y ~ x)
resum = summary(modfun)
##Intervalo de confianza para Beta 1
porc= (alp/100) + ((100-alp)/100)/2
beta1fun= round(resum$coefficients[2,1],3)
ee_beta1fun= round(resum$coefficients[2,2],3)
#alp% nivel de confianza
t=qt(porc,df = (length(x)-2))
LI=beta1fun-(t*ee_beta1fun)
LS=beta1fun+(t*ee_beta1fun)
return(c(LI,LS))
}
intrs(Area_contruida,precio_millon,95)
## [1] 1.740115 2.507885