Informe 1 - Regresión Lineal Simple

\(\hspace{1cm}\)Presentado por: Cristian Restrepo Morales
\(\hspace{1cm}\)Universidad Nacional de Colombia
\(\hspace{1cm}\)Estadística II
\(\hspace{1cm}\)Grupo: 2
\(\hspace{1cm}\)Correo:


Desarrollo del Informe


1. Análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados).

Se observa que la base de datos proporciona información sobre el precio en millones de pesos COP y el área construida de 26 viviendas.

Base de datos

Área construida (metros cuadrados) Precio (millones de pesos COP)
1 86 250
2 118 385
3 130 395
4 181 419
5 86 240
6 98 320
7 170 480
8 96 268
9 85 240
10 170 450
11 87 240
12 118.42 385
13 86 290
14 85 240
15 96 272
16 86 250
17 86 250
18 130 395
19 134 385
20 80 255
21 130 430
22 87 260
23 130 385
24 89 290
25 195 450
26 170 410

Histogramas

# Histograma del area construida y del precio
par(mfrow=c(1,2))
hist(Area_contruida,col="blue",main="Histograma Area Construida",xlab="Area (metros cuadrados)",ylab="Frecuencia")
hist(precio_millon,col="blue",main="Histograma del Precio",xlab="Precio (millones de pesos COP)",ylab="Frecuencia")

# Indicadores para la base de datos
summary(datos_vivienda)
##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

Con base en la información de la tabla y los gráficos de histograma sabemos que el promedio del área construida de una vivienda es 115.7 metros cuadrados y para esta base de datos contamos con áreas construidas desde los 80 metros cuadrados hasta los 195 metros cuadrados. El 50% de viviendas tienen un área construida con menos de 97 metros cuadrados y el el 50% de viviendas tienen un área construida con más de 97 metros cuadrados.

Por otro lado, según la base de datos, el promedio del precio en millones de pesos colombianos de una vivienda es de 332.1 millones de pesos, la vivienda con menor precio cuesta 240 millones y la que mas cuesta, vale 480 millones de pesos. El 50% de viviendas cuestan menos de 305 millones y el 50% de viviendas tienen un precio por encima de 305 millones.


2. Análisis exploratorio bivariado de datos enfocado en la relación entre el precio y el área.

Observando detenidamente la base de datos intuimos que posiblemente haya una relación entre el precio en millones (Y) y el área construida en metros cuadrados (X).

Establecemos como variable predictora el área construida de la vivienda y como variable de respuesta el precio de la vivienda ya que es sensato pensar en que el precio de una vivienda entre tantas razones, se ve afectado por su tamaño, o bien, área construida.

Gráfico de dispersión

# Gráfico de dispersión para el área construida y el precio de una vivienda
graf_dispersion=ggplot(data=datos_vivienda,aes(x=Area_contruida,y=precio_millon))+
  geom_point()+
  theme_bw()+
  ggtitle ("Area Construida vs. Precio")+
  labs(y = "Precio (millones de pesos COP)",x = "Area Construida (metros cuadrados)")
graf_dispersion

# Correlación entre el área construida y el precio de una vivienda
cor(Area_contruida,precio_millon)
## [1] 0.9190295

Cuando analizamos el gráfico de dispersión entre el área construida de una vivienda y su precio, es claro que hay una relación lineal con cierta curvatura, y cuando aumenta el área construida de una vivienda, también se ve un incremento en su precio, por lo que decimos que la relación lineal es creciente.

Además, el coeficiente de correlación de Pearson (0.9190295) nos indica que hay un alto grado de dependencia lineal positiva entre el precio y el área construida de la vivienda.


3. Estimación del modelo de regresión lineal simple e interpretación de los coeficientes del modelo \(\beta_0\), \(\beta_1\).

Planteamos el siguiente modelo de RLS:

\[y_i = \beta_0 + \beta_1x_i+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,26.\]

Pero lo que haremos será una estimación del modelo RLS de la forma:

\[\widehat{y_i} = \widehat{\beta_0} + \widehat{\beta_1}x_i\] Ajuste del modelo, estadísticos de resumen y tabla ANOVA para el modelo

# Modelo estimado
modelo=lm(precio_millon~Area_contruida)
# Tablas summary y ANOVA del modelo estimado
summary(modelo)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11
anova(modelo)
## Analysis of Variance Table
## 
## Response: precio_millon
##                Df Sum Sq Mean Sq F value   Pr(>F)    
## Area_contruida  1 142480  142480  130.46 3.45e-11 ***
## Residuals      24  26212    1092                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Con base a la información suministrada por la tabla summary que resume la información del modelo, el modelo estimado RLS es:

\[\widehat{y_i} = 86.234 + 2.124x_i\] Y a continuación observamos el gráfico de dispersión junto con la recta ajustada:

Gráfico de dispersión para el modelo junto con su recta ajustada

# Gráfico de dispersión + recta ajustada
graf1=graf_dispersion+ 
  geom_smooth(method="lm")
graf1
## `geom_smooth()` using formula 'y ~ x'

Interpretación de \(\beta_0\):

Planteamos las siguientes hipótesis:

\[H_0:\beta_0 = 0\] \[H_1:\beta_0 \not= 0\] Como el valor-p (0.000796) observado en la tabla summary para el estimador \(\beta_0\) es muy pequeño, entonces decimos que se tiene suficiente evidencia en contra de la hipótesis nula, se rechaza \(H_0\) y por ende el parámetro \(\beta_0\) es significativo, sin embargo, como en la base de datos no encontramos alguna área construida con cero metros cuadrados, no tiene sentido hablar del precio de una vivienda que no tenga área construida, entonces el parametro \(\beta_0\) no es interpretable.

Interpretación de \(\beta_1\):

Planteamos las siguientes hipótesis:

\[H_0:\beta_1 = 0\] \[H_1:\beta_1 \not= 0\] Dado que el valor-p (3.45e-11) extraído de la tabla summary para el estimador \(\beta_1\) es demasiado pequeño, rechazamos la hipótesis nula y decimos entonces que el parámetro \(\beta_1\) es distinto de cero, o sea, es significativo. Su interpretación es que por cada incremento unitario en los metros cuadrados del área construida de una vivienda, se espera que en promedio el precio aumente 2.124 millones de pesos.

Prueba de significancia para la regresión del modelo

Bajo la misma hipótesis considerada anteriormente para el parámetro \(\beta_1\) y en base a la tabla ANOVA del modelo, encontramos que el valor-p (3.45e-11) es pequeño y menor a 0.05 por lo tanto rechazo la hipótesis nula y se concluye que la regresión en el área construida es significativa.


4. Intervalo de confianza al 95% y prueba de hipótesis t para \(\beta_1\)

Un intervalo de confianza para observar el rango en que se encuentra el efecto del área construida de una vivienda sobre su precio (\(\beta_1\)) es de la forma:

\[\widehat{\beta_1} \pm t_{\alpha/2,n-2}*Se(\widehat{\beta_1})\]

# Cálculo t-student con alpha 0.025 y 24 grados de libertad
t=qt(p=0.025,df=24,lower.tail = FALSE)
# Cálculo intervalo de confianza al 95% para el parámetro b1
LI=2.124-(0.186*t)
LS=2.124+(0.186*t)
c(LI,LS)
## [1] 1.740115 2.507885

Reemplazando \(\widehat{\beta_1}=2.124\),\(Se(\widehat{\beta_1})=0.186\) (encontrado en tabla summary) y \(t_{0.025,24}=2.063899\) tenemos que con una confianza del 95%, el verdadero valor del parámetro \(\beta_1\) se encuentra en el intervarlo \((1.740115, 2.507885)\). Concluimos entonces que el efecto del área construida de una vivienda sobre el precio no es cero y se encuentra entre 1.740115 millones/m^2 y 2.507885 millones/m^2.

Consideremos las pruebas de hipótesis:

\[H_0:\beta_1 = 0\] \[H_1:\beta_1 \not= 0\] Y el estadístico de prueba:

\[t_0= \frac{\widehat{\beta_1}}{Se(\widehat{\beta_1})}\overset{}{\sim}t_{n-2}\] Reemplazando \(\widehat{\beta_1}=2.124\),\(Se(\widehat{\beta_1})=0.186\), tenemos que \(t_0=11.422\) y como \(|t_0|=11.422>2.063899=t_{0.025,24}\) rechazo la hipótesis nula y concluimos también para una significancia del 5% que el parámetro \(\beta_1\) es diferente de cero.


5. Indicador de bondad y ajuste \(R^2\)

En apoyo a la información de la tabla que resume la información del modelo, observamos que el valor del indicador \(R^2\) es 0.8446 lo que significa que el 84.46% de la variabilidad total del precio de una vivienda es explicado por la regresión, adicionalmente, teniendo en cuenta que el precio depende de otros factores, se puede pensar que es buena la predicción la que hace el área construida de una vivienda sobre su precio.


6. Queremos saber cuál seria el precio promedio estimado para un apartamento de 110 metros cuadrados y si entonces un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones es o no una buena oferta.

Primero que todo verificamos que haya interpolación para una área construida de 110 metros cuadrados porque de lo contrario es absurdo hacer inferencia sobre valores futuros. Del primer punto sabemos que las viviendas abarcan áreas de construcción desde los 80 metros cuadrados hasta los 195 metros cuadrados y entonces estamos en zona de interpolación.

El intervalo de confianza para la respuesta media esta dado por: \[\widehat{Y_0} \pm t_{\alpha/2,n-2}*Se(\widehat{Y_0})\]

# Intervalos de confianza al 95% para la respuesta media
predict(modelo,list(Area_contruida=110),interval="confidence",level=0.95)
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

De acuerdo al resultado anterior, con una confianza del 95% el valor promedio del precio estimado para un apartamento cuya área de construcción son 110 metros cuadrados se encuentra entre 306.3133 y 333.4279 millones de pesos COP, además, según el modelo, el precio promedio estimado para una vivienda construida con esta área es 319.8706 millones de pesos COP.

Teniendo en cuenta que una vivienda con una área construida de 110 metros cuadrados según el modelo en promedio cuesta entre 306.3133 y 333.4279 millones, se concluye que una vivienda de estas dimensiones por un precio de 200 millones de pesos COP es una buena oferta, sin embargo, como sugerimos anteriormente, el precio posiblemente no depende únicamente del área construida y ubicación de la vivienda, entonces debe verificarse consideraciones adicionales como las condiciones en que se encuentra la vivienda, la cantidad de pisos, los servicios con que cuenta (parqueadero, baños, habitaciones, etc.) y el tipo (casa o apartamento).

Nota: Adicionalmente, debe tenerse cuidado con las inferencias realizadas puesto que no se ha probado si el modelo lineal es apropiado para hacer estimaciones y predicciones y si cumple con los supuestos relacionados con los errores.


7. Validación de supuestos en el modelo.

a. Los errores del modelo tienen media cero

Se plantean las siguientes hipótesis: \[H_0:\text{Los errores del modelo tienen media cero}\] \[H_1:\text{Los errores del modelo no tienen media cero}\]

Usando los residuales del modelo, queremos calcaular \(\sum_{i=1}^{n}e_i\).

#Validación media cero para el modelo
ei=modelo$residuals
yi_modelo=modelo$fitted.values
round(mean(ei),3)
## [1] 0

\(\sum_{i=1}^{n}e_i=0\)

Se verifica que la media es cero, además, el supuesto de media cero se cumple por defecto.

b. Los errores del modelo tienen varianza constante

Se quiere verificar las siguientes hipotesis:

\[H_0:V[\epsilon_i]=\sigma^2\] \[H_1:V[\epsilon_i]\not=\sigma^2\] Gráfica de residuales vs. valores ajustados

# Gráfico de dispersión entre los residuales del modelo y sus valores ajustados + Curva de ajuste LOESS
ggplot(data.frame(yi_modelo,ei),aes(x=yi_modelo,y=ei))+
  geom_point()+
  geom_smooth(se=FALSE)+
  theme_bw()+
  ggtitle("Residuales vs. Valores ajustados")+
  labs(x="Valores ajustados",y="Residuales")
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Cuando observamos el gráfico con curva de ajuste LOESS de residuales vs. valores ajustados notamos un comportamiento no lineal de la varianza, analizando el gráfico de izquierda a derecha se observa un ancho de banda que aparentemente va creciendo a lo largo de los valores ajustados, lo que nos indica que la varianza tampoco es constante, además de que los datos observados no siguen una forma aleatoria sino que parece que forman un patron en forma de U invertida, por lo que se recomienda usar mínimos cuadrados ponderados o transformaciones que estabilicen la varianza y a su vez mejoren la linealidad del modelo, se concluye que el modelo puede ser mejor ajustado y no tiene varianza constante.

c. Los errores del modelo se distribuyen normal

Consideremos las hipótesis: \[H_0:\epsilon_i\overset{}{\sim}Normal\] \[H_1:\epsilon_i\overset{not}{\sim}Normal\] Gráfica de normalidad

# Validación normalidad
myQQnorm(modelo)

En el gráfico de normalidad se evidencia que varios puntos se encuentran oscilando al rededor de la recta ajustada, incluso, mucho mas del 5% de ellos se encuentran por fuera de la recta, por lo tanto concluimos que el modelo no cumple el supuesto de normalidad. De manera analitica, si damos un vistazo al test de Shapiro-Wilk a pesar de tener un valor-p relativamente pequeño (0.3009) no es lo suficientemente pequeño como para rechazar la hipotesis nula (esto es si comparamos el valor-p con una significancia del 5%), llegando a la conclusión de que se valida el supuesto de que lo errores se distribuyen normal, sin embargo, el test del gráfico es un criterio mas fuerte y por lo tanto los errores no tienen una distribución normal. Se sugiere de nuevo una transformación en las variables como posible solución.

d. Los errores del modelo son independientes

Se plantean las hipótesis: \[H_0:\text{Los errores del modelo son independientes}\] \[H_1:\text{Los errores del modelo no son independientes}\]

Puesto que de estos registros no se conoce el orden de la observaciones en el tiempo no tenemos forma de validar este supuesto por medio del gráfico residuales vs. tiempo. Asumimos como válido el supuesto, o bien, se valida por definición del tipo de datos de corte transversal.

e. Prueba de falta de ajuste

Se quiere probar: \[H_0:E[Y_i]=E[Y|X_i]=\beta_0+\beta_1X_i\] \[H_1:E[Y_i]=E[Y|X_i]\not=\beta_0+\beta_1X_i\] Con el estadístico de prueba: \[F_{ajuste}=\frac{MSLOF}{MSPE}\overset{}{\sim}F_{k-2,n-k}\] Donde \(n\) es el número de observaciones totales y \(k\) el número de observaciones sin replicas.

Es posible usar la prueba de bondad de ajuste asumiento que los valores \(y|x\) son independientes, se distribuyen normal y tienen varianza constante, y si hay replicas para los valores del area de la vivienda (hecho que validamos viendo la base de datos).

# Test de carencia de ajuste
summary(rsm(precio_millon ~ FO(Area_contruida)))$lof
## Analysis of Variance Table
## 
## Response: precio_millon
##                    Df Sum Sq Mean Sq  F value   Pr(>F)    
## FO(Area_contruida)  1 142480  142480 130.4552 3.45e-11 ***
## Residuals          24  26212    1092                      
## Lack of fit        12  20849    1737   3.8872  0.01305 *  
## Pure error         12   5363     447                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Calculo de f con alpha 0.05, 12 y 12 grados de libertad
qf(0.05,14-2,26-14,lower.tail = FALSE)
## [1] 2.686637

Se sabe que \(n=26\) y el valor de \(k\) lo calculamos observando la tabla de prueba de ajuste, pues: \(k-2=12\) y despejando \(k\), \(k=14\).

De la tabla sabemos que \(F_{ajuste}=3.8872\) y comparando con el valor de \(F_{0.05,12,12}=2.686637\), vemos que \(F_{ajuste}\) se encuentra en la región de rechazo,por lo tanto se tiene suficiente evidencia para rechazhar la hipotesis nula \(H_0\) y se concluye que para el modelo, el área construida de una vivienda y el precio no tienen una relación lineal. Una vez mas observamos que la solución podría ser emplear alguna transformación en los datos de manera que el modelo de regresión lineal sea apropiado a los datos transformados.


8. Transformación apropiada para mejorar el ajuste y supuestos del modelo.

En vista de que el modelo inicialmente propuesto no cumple con el supuesto de que los errores se distribuyen normal y tienen varianza constante, además, el modelo carece de ajuste; consideramos necesario realizar una transformación, para ello miraremos la curva de ajuste LOESS en el gráfico de dispersión entre el precio y área construida de una vivienda:

Gráfico de dispersión con curva de ajuste LOESS entre el precio de una vivienda y su respectiva área

# Gráfico de dispersión entre el precio y el área construida + curva de ajuste LOESS
graf_dispersion+
  geom_smooth(se=FALSE)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Cuando observamos la curva de ajuste de LOESS, se evidencia que la relación entre el área construida de una vivienda y su precio no era tan lineal como sospechabamos, la gráfica sugiere una transformación adecuada para intentar solucionar los errores presentados en la validación de supuestos y la linealidad del modelo.

Los mejores candidatos de las curvas para acercarnos mas a la curva de ajuste LOESS en el gráfico de dispersión son las del modelo logarítmico y el modelo recíproco. Después de un largo análisis decidimos seleccionar el modelo recíproco y veremos a continuación que sucede con la aplicación de esta transformación sobre los datos.

Realizamos el cambio de variable \(X^*=1/X\), observamos su gráfico de dispersión entre el recíproco del área construida y el precio de las viviendas junto con la recta ajustada y su respectivo modelo RLS.

Ajuste del modelo transformado, gráfico de dispersión con recta ajustada, estadísticos de resumen y tabla ANOVA para el modelo

# Transformación de variables X* = 1/X
xinv=1/Area_contruida
# Modelo transformado con X* = 1/X
modelo2=lm(precio_millon~xinv)
# Tablas summary y ANOVA del modelo estimado transformado
summary(modelo2)
## 
## Call:
## lm(formula = precio_millon ~ xinv)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.987 -16.743  -5.023  18.547  44.379 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    635.35      18.27   34.77  < 2e-16 ***
## xinv        -32464.72    1895.32  -17.13 5.84e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared:  0.9244, Adjusted R-squared:  0.9212 
## F-statistic: 293.4 on 1 and 24 DF,  p-value: 5.839e-15
anova(modelo2)
## Analysis of Variance Table
## 
## Response: precio_millon
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## xinv       1 155936  155936   293.4 5.839e-15 ***
## Residuals 24  12756     531                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Gráfico de dispersión entre el precio y el recíproco del área construida
graf2=ggplot(data=data.frame(precio_millon,xinv),aes(x=xinv,y=precio_millon))+
  geom_point()+geom_smooth(method="lm")+
  theme_bw()+
  ggtitle ("1/Area Construida vs. Precio")+
  labs(y = "Precio (millones de pesos COP)",x = "1/Area Construida (1/metros cuadrados)")
graf2
## `geom_smooth()` using formula 'y ~ x'

\[\widehat{y_i} = 635.35 - 32464.72x_i^*\text{ con } X^*=\frac{1}{X}\] Significancia e interpretación de parámetros \(\beta_0\) y \(\beta_1\) para el modelo transformado

Planteamos las siguientes hipótesis: \[H_0:\beta_0 = 0 \text{ vs. } H_1:\beta_0 \not= 0\] \[H_0:\beta_1 = 0 \text{ vs. } H_1:\beta_1 \not= 0\]

De la tabla summary observamos que el valor-p tanto del parametro \(\beta_0\) como de \(\beta_1\) son demasiado pequeños por lo que se tiene suficiente evidencia para rechazar la hipótesis nula y decimos que los parámetros son significativos. El parámetro \(\beta_0\) no es interpretable puesto que no sabemos el precio de una vivienda cuando el inverso del área construida es cero y el parámetro \(\beta_1\) nos dice que por un incremento unitario en el inverso del área construida se espera en promedio una disminución en el precio de 32464.72 millones de pesos COP.

Coeficiente de determinación para el modelo transformado

Para este modelo el valor de \(R^2\) es 0.9244, o sea que el 92.44% de la variabilidad total del precio de una vivienda es explicado por la regresión del modelo transformado.

Vamos a observar que sucede con los supuestos y el ajuste:

Validación de supuestos en el modelo transformado

a. Los errores del modelo tienen media cero

Planteamos las hipótesis: \[H_0:\text{Los errores del modelo tienen media cero}\] \[H_1:\text{Los errores del modelo no tienen media cero}\]

Este supuesto se válida por defecto por lo tanto los errores del modelo tienen media cero.

b. Los errores del modelo tienen varianza constante

Consideremos las hipótesis: \[H_0:V[\epsilon_i]=\sigma^2\] \[H_1:V[\epsilon_i]\not=\sigma^2\] Gráfica de residuales vs. valores ajustados

# Validación de varianza constante
ei2=modelo2$residuals
yi_modelo2=modelo2$fitted.values
# Gráfico de dispersión entre los residuales del modelo transformado y su respectivo valor ajustado
ggplot(data.frame(yi_modelo2,ei2),aes(x=yi_modelo2,y=ei2))+
  geom_point()+
  ggtitle("Residuales vs. Valores ajustados")+
  labs(x="Valores ajustados",y="Residuales")+
  theme_bw()

Podemos apreciar en el gráfico de residuales vs. valores ajustados que los puntos estan distribuidos de manera aleatoria y sin formar ningún patrón y por lo tanto concluimos que para este modelo transformado los errores tienen varianza constante.

c. Los errores del modelo se distribuyen normal

# Validación normalidad
myQQnorm(modelo2)

Comparando el gráfico de normalidad para los errores del modelo transformado (los puntos se encuentran mas ajustados a la recta) con respecto a los errores del modelo sin transformar notamos una mejoría en el supuesto de que los errores del modelo se distribuyen normal por lo que sin ser extremadamente rigurosos daremos por válido el supuesto. Para este caso la prueba de Shapiro-Wilk nos arroja una valor-p (0.5871) el cual no es muy pequeño y nos sugiere que no se tiene suficiente evidencia como para rechazar la hipótesis nula \(H_0\), por lo tanto ambos criterios nos llevan a concluir que los errores del modelo transformado se distribuyen normal.

d. Los errores del modelo son independientes

Consideremos las hipótesis: \[H_0:\text{Los errores del modelo son independientes}\] \[H_1:\text{Los errores del modelo no son independientes}\]

Mientras sea desconocido el orden de recolección u observación de los datos, asumimos como válido el supuesto de independencia.

e. Prueba de falta de ajuste

Se quiere verificar las siguientes hipótesis: \[H_0:E[Y_i]=E[Y|X_i^*]=\beta_0+\beta_1X_i^*\] \[H_1:E[Y_i]=E[Y|X_i^*]\not=\beta_0+\beta_1X_i^*\] Con el estadístico de prueba: \[F_{ajuste}=\frac{MSLOF}{MSPE}\overset{}{\sim}F_{k-2,n-k}\] Donde \(n\) es el número de observaciones totales y \(k\) el número de observaciones sin replicas.

Es posible usar la prueba de bondad de ajuste asumiento que los valores \(y|x^*\) son independientes, se distribuyen normal y tienen varianza constante, y si hay replicas para los valores del inverso del area de la vivienda.

# Test de carencia de ajuste
summary(rsm(precio_millon ~ FO(xinv)))$lof
## Analysis of Variance Table
## 
## Response: precio_millon
##             Df Sum Sq Mean Sq  F value    Pr(>F)    
## FO(xinv)     1 155936  155936 293.3981 5.839e-15 ***
## Residuals   24  12756     531                       
## Lack of fit 12   7392     616   1.3783    0.2935    
## Pure error  12   5363     447                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Calculo de f con alpha 0.05, 12 y 12 grados de libertad
qf(0.05,14-2,26-14,lower.tail = FALSE)
## [1] 2.686637

Se sabe que \(n=26\) y el valor de \(k\) lo calculamos observando la tabla de prueba de ajuste, pues: \(k-2=12\) y despejando \(k\), \(k=14\).

De la tabla sabemos que \(F_{ajuste}=1.3783\) y si comparamos este valor con el de \(F_{0.05,12,12}=2.686637\), notamos que \(F_{ajuste}\) no se encuentra en la región de rechazo, por lo tanto se tiene suficiente evidencia para no rechazar la hipótesis nula \(H_0\) y se concluye que para el modelo, el inverso del área construida de una vivienda y el precio si tienen una relación lineal.


9. Comparación del ajuste y supuestos del modelo inicial y el transformado.

Modelo sin transformar Modelo transformado
Ecuación de la regresión ajustada \(\widehat{y_i} = 86.234 + 2.124x_i\) \(\widehat{y_i} = 635.35 - 32464.72x_i^*\text{ con } X^*=\frac{1}{X}\)
Coeficiente de determinación \(R^2\) 0.8446 0.9244
Los errores del modelo tienen media cero Cumple Cumple
Los errores del modelo tienen varianza constante No cumple Cumple
Los errores del modelo se distribuyen normal No cumple Medianamente cumple
Los errores del modelo son independiente Cumple Cumple
El modelo ajustado tiene una relación lineal No Cumple Cumple

De acuerdo a la tabla anterior podemos concluir que a pesar de no satisfacer por completo los supuestos, el segundo modelo es mucho mejor que el primero puesto que cumple con la mayoría y explica mucho mejor la variabilidad total en el precio de las viviendas, debemos tener presente que para hacer algunas inferencias será necesario volver a la variable original.

Usando el modelo transformado, si quisieramos saber el valor promedio del precio de viviendas cuya área construida sea igual a 110 metros cuadrados, construimos un intervalo de confianza de la forma: \(\widehat{Y_0} \pm t_{\alpha/2,n-2}*Se(\widehat{Y_0})\):

# Intervalo de confianza al 95%  para la respuesta media del modelo transformado
predict(modelo2,list(xinv=1/110),interval="confidence",level=0.95)
##       fit      lwr      upr
## 1 340.216 330.8332 349.5988

Tenemos como resultado que con una confianza del 95% el valor promedio del precio de una vivienda cuando su área construida es de 110 metros cuadrados se encuentra entre 330.8332 millones de pesos COP y 349.5988 millones de pesos COP.


10. Función en R para calcular un intervalo de confianza para el parámetro beta 1.

#Crear función
icbeta1=function(x,y,confianza){
  modelo=lm(y~x)
  syy=sum((y-mean(y))^2)
  sxx=sum((x-mean(x))^2)
  sxy=sum(y*(x-mean(x)))
  sse=sum((y-modelo$fitted.values)^2)
  mse=sse/(length(x)-2)
  
  beta_1=sxy/sxx
  sebeta_1=sqrt(mse/sxx)
  beta_1
  sebeta_1
  t=qt((1-confianza)/2,length(x)-2,lower.tail=FALSE)
  
  LI=beta_1-(t*sebeta_1)
  LS=beta_1+(t*sebeta_1)
  resultado=paste("Para un nivel de confianza del",confianza*100,"% el valor real del parámetro beta 1 se encuentra entre:",LI,"y",LS)
  return(resultado)
}

#Ejemplo:
icbeta1(Area_contruida,precio_millon,0.95)
## [1] "Para un nivel de confianza del 95 % el valor real del parámetro beta 1 se encuentra entre: 1.74016951529895 y 2.50777147502603"