Introducción

El siguiente documento tiene como fin desarrollar la actividad de regresión lineal simple que sea plantea como entregable de de la unidad 3 del módulo 1 de la asignatura de métodos y simulación estadística.Para dar secuencialidad al documento se demarcará inicialmente cada pregunta de la actividad y posteriormente se desarrollará su solución.

Preparación del entorno

Carga de paquetes

Cargue de la base de datos “Viviendas”

viviendas<-read_excel("datos_vivienda1.xlsx")
glimpse(viviendas)
## Rows: 26
## Columns: 2
## $ Area_contruida <dbl> 86.00, 118.00, 130.00, 181.00, 86.00, 98.00, 170.00, 96…
## $ precio_millon  <dbl> 250, 385, 395, 419, 240, 320, 480, 268, 240, 450, 240, …

El set de datos bajo el cual se basa esta actividad cuenta con un total de 26 registros y dos variables las cuales corresponden al área construida de un conjunto de viviendas y a su precio expresado en millones de pesos.

Desarrollo de actividad

1.Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados

Como primera medida de análisis exploratorio se generarán dos tablas con estadísticos básicos de las variables con el fin de conocerlas con mayor detalle, si bien para este ejercicio se podria usar la función summary, en este caso a través de dplyr se llevará a cabo un summarise con el fin de poder aumentar los estadisticos generados para cada variable del set de datos.

Análisis de la variable área construida
tabla_estad_area<-data.frame(viviendas) %>% 
summarise(media=mean(Area_contruida),mediana=median(Area_contruida),máximo=max(Area_contruida),minimo=min(Area_contruida),varianza=var(Area_contruida),desv_est=sqrt(var(Area_contruida)),CV=(sqrt(var(Area_contruida))/mean(Area_contruida)),simetria= skewness(Area_contruida),Kurtosis=kurtosis(Area_contruida),Shapiro_value_W=shapiro.test(Area_contruida)[1],Shapiro_pvalue=shapiro.test(Area_contruida)[2])

tabla_estad_area
##      media mediana máximo minimo varianza desv_est        CV  simetria Kurtosis
## 1 115.7469      97    195     80 1263.328 35.54332 0.3070779 0.8624262 2.436188
##   Shapiro_value_W Shapiro_pvalue
## 1       0.8294927   0.0005839467
quantile(viviendas$Area_contruida)
##   0%  25%  50%  75% 100% 
##   80   86   97  130  195

Los estadísticos generados permiten evidenciar lo siguiente respecto a la variable:

  • En promedio las viviendas de esta muestra tienen un área de 115 metros cuadrados, a su vez la mediana permite establecer que el 50% de las viviendas tiene un área menor o igual a 97 metros cuadrados, esta diferencia entre media y mediana en donde la media resulta mayor da signos de que la distribución de esta variable presenta un sesgo a la derecha y por lo tanto es asimétrica positiva.

  • El coeficiente de variación de esta variable es 0.30 lo cual evidencia que aunque presenta un sesgo a la derecha, la muestra que se analiza no tiene una variabilidad tan amplia, cuando se contrasta esto con la desviación estandár gana fuerza este enunciado, al validar valores máximos y minimos se puede apreciar que el valor máximo está dos desviaciones estándar por encima de la media, si se calcula el valor del rango intercualitico se obtiene un valor de 44, el cual permite establecer que existirá zona de atipicos si y solo si hay valores que excedan 1.5 veces al tercer cuartil, al realizar este cálculo se obtiene un valor de frontera de 196 lo cual permite concluir que a pesar de su sesgo a la derecha la variable de área construida no cuenta con valores átipicos.

  • Finalmente al revisar los estadisticos de simetría y kurtosis se evidencia que los valores estan lejos de los valores ideales de simetria 0 y kurtosis 3 de la distribución normal confirmando asi el sesgo de la variable deducido anteriormente con la media y la mediana. A partir de lo anterior es posible establecer que nos encontramos ante una variable asimétrica de forma platicurtica y que no corresponde a una distribución normal, lo cual se ratifica al aplicar la prueba de Shapiro Wilk que bajo un alfa del 5% muestra un p valor menor a 0.05 que impide aceptar la hipotesis nula de normalidad.

Ahora validemos gráficamente lo anterior:

g1_histarea<- ggplot(data=viviendas,aes(x=Area_contruida))+geom_histogram()+theme_bw()+labs(y="Frecuencia",x="Área construida")+ggtitle("Histograma de la distribución de la variable área construida")+
              theme(plot.title = element_text(size = 8, face = "bold"))

g2_boxparea<-ggplot(data=viviendas,aes(x=Area_contruida))+geom_boxplot()+theme_bw()+labs(y="Frecuencia",x="Área construida")+ggtitle("Boxplot de la distribución de la variable área construida")+
             theme(plot.title = element_text(size = 8, face = "bold"))

arreglo1<- ggarrange(g1_histarea,g2_boxparea)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
arreglo1

Los gráficos anteriores permiten evidenciar lo establecido en el análisis de los estadísticos básicos confirmando de manera explicita el sesgo de la distribución de la variable, la ausencia de datos atipicos y además la forma particular de la distribución que muestra varios intervalos vacios lo cual puede ser atribuible al tamaño reducido de la muestra que resulta hasta cierto punto inconveniente ante la finalidad posterior del ejercicio que decanta en un proceso de estimación del precio de vivienda, el cual es una variable influida por muchos aspectos y factores y cuya estimación preferiblemente requiere una mayor cantidad de datos.

Análisis de la variable precio
tabla_estad_precio<-data.frame(viviendas)%>% 
summarise(media=mean(precio_millon),mediana=median(precio_millon),máximo=max(precio_millon),minimo=min(precio_millon),varianza=var(precio_millon),desv_est=sqrt(var(precio_millon)),CV=(sqrt(var(precio_millon))/mean(precio_millon)),simetria= skewness(precio_millon),Kurtosis=kurtosis(precio_millon),Shapiro_value_W=shapiro.test(precio_millon)[1],Shapiro_pvalue=shapiro.test(precio_millon)[2])


tabla_estad_precio
##      media mediana máximo minimo varianza desv_est        CV  simetria Kurtosis
## 1 332.0769     305    480    240 6747.674 82.14423 0.2473651 0.2525831 1.495015
##   Shapiro_value_W Shapiro_pvalue
## 1       0.8640023    0.002691469
quantile(viviendas$precio_millon)
##     0%    25%    50%    75%   100% 
## 240.00 251.25 305.00 395.00 480.00

Los estadísticos generados permiten evidenciar lo siguiente respecto a la variable:

  • El precio promedio de las viviendas es de 332 millones de pesos, y a su vez la mediana permite establecer que el 50% de las viviendas tiene un precio menor o igual a 305 millones de pesos; al igual que en el caso del área de la vivienda a partir de la media y la mediana es posible establecer que la distribución del precio cuenta con un sesgo a la derecha dado que la media es mayor a la mediana, este perfil de asimetria se refueza al revisar el coeficiente de simetria cuyo valor es 0.25.

  • Al revisar el coeficiente de variación se tiene un valor de 0.24 y una desviación estándar de 82.144, estos valores permiten establecer que la distribución no tiene una amplia variabilidad a pesar de su sesgo, y además los cuartiles permiten ratificar esto al no presentar amplias distancias entre si, de hecho al calcular el rango intercuartilico se obtiene un valor de 143,75 que al ser empleado para determinar la barrera a partir de la cual se demarcaran los atipicos permite concluir que tal barrera son los 610 millones, asi las cosas, dado que el máximo precio de la muestra es de 480 millones se puede concluir que la distribución carece de datos átipicos.

  • Finalmente al revisar los estadísticos de simetría y kurtosis para la variable se puede evidenciar que en términos de kurtosis esta fuertmente alejada del valor ideal de 3 mostrando un perfil platicúrtico y en términos de simetria se encuentra alejada del valor ideal de 0, este par de rasgos permiten demarcar que la variable precio no tiene una distribución normal lo cual se refuerza al revisar el p-valor del test de Shapiro Wilk que bajo un alfa del 5% muestra un p valor menor a 0.05 que impide aceptar la hipotesis nula de normalidad.

Al igual que en el caso anterior, validemos el análisis anterior gráficamente:

g1_histprecio<- ggplot(data=viviendas,aes(x=precio_millon))+geom_histogram()+theme_bw()+labs(y="Frecuencia",x="Precio (millones)")+ggtitle("Histograma de la distribución de la variable precio")+
                   theme(plot.title = element_text(size = 8, face = "bold"))
    
    
    
g2_boxprecio<-ggplot(data=viviendas,aes(x=precio_millon))+geom_boxplot()+theme_bw()+
            ggtitle("Boxplot de la distribución de la variable precio")+
            theme(plot.title = element_text(size = 8, face = "bold"))

arreglo2<- ggarrange(g1_histprecio,g2_boxprecio)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
arreglo2

Las gráficas anteriores permiten reforzar el análisis de los estadisticos básicos de la variable evidenciando que no hay formalmente datos atipicos y que al igual que el caso de area construida hay intervalos vacios, si se comparan los diagramas de caja e inclusive los histogramas de las dos variables es posible evidenciar que hay una mayor concentración de los valores a la derecha para precio respecto a área, esto signifca que hay una cantidad importante de viviendas por encima de los 370 millones de pesos mientras que la concentración en términos de área es mucho menor en viviendas con áreas superiores a 125 metros cuadrados.

2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir gráficos e indicadores apropiados interpretados.

para realizar este análisis bivariado se llevará a cabo un gráfico de coordenadas paralelas para validar si eventualmente hay una relación fuerte respecto a la proposición de que una mayor área se relaciona a un mayor precio, posteriormente se planteará un diagrama de dispersión y finalmente se hará un calculo de la correlación lineal con el fin de conocer la fuerza de la relación lineal entre las variables:

gráfico de coordenadas paralelas entre precio y área [Sin normalización y con normalización]:
library(GGally)
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
# sin normalizar

ggparcoord(viviendas,groupColumn=2,scale="globalminmax" )

ggparcoord(viviendas,groupColumn=2)

Los gráficos de coordenadas paralelas permiten evidenciar que la relación entre las variables no es perfecta,como puede observarse hay lineas asociadas áreas bajas y precios altos, asi como tambien areas amplias asociadas a precios menores; la imperfección en la relación comunica hasta cierto punto que el área no es la única que influye en la colocación el precio, no obstante lo ya observado en los diagramas de lineas paralelas es que en general la relación muestra un perfil de relacion positiva.

Vamos a profundizar en la visualización de la asociación entre las variables por medio de un diagrama de dispersión:

scatter1<- ggplot(viviendas,aes(x=Area_contruida,y=precio_millon))+
    geom_point(alpha=0.3,size=2)+
    labs(y="Precio vivienda",x="Área construida")+ggtitle("Scatterplot Precio vivienda vs Área construida")+theme(plot.title = element_text(size = 8, face = "bold",hjust=0.5))
    

scatter1

El diagrama de dispersión permite apreciar que efectivamente a medida que el área crece el precio tiene tendencia a aumentar, sin embargo la distancia entre los puntos permiten apreciar que el aumento marginal de un metro cuadrado en el área construida parece ser menor en áreas entre los 75 y los 100 metros cuadrados y tiende a aumentar cuando se pasa el umbral de los 120 metros cuadrados, no obstante estas afirmaciones son unicamente validas para esta muestra, de alguna forma los amplios espacios vacios entre zonas de área y precio nos dan cuenta de las falencias derivadas de la poca cantidad de registros. Más allá de los efectos “marginales” que parece tener el aumento de área en ciertos rangos, es posible apreciar que igualmente se perfila una relación positiva, sin embargo vamos a validarlo por medio del cálculo de la correlación:

ggpairs(viviendas)

Al calcular el coeficiente de correlación de Pearson se puede apreciar un valor de 0.919 el cual es un valor cercano a 1 e indica una correlación lineal positiva muy fuerte, la correlación existente perfila a que la implementación de un modelo de regresión lineal seria adecuado si se quisiera estimar o predecir el valor de la vivienda en función del área construida.

3.Estime el modelo de regresión lineal simple entre 𝑝𝑟𝑒𝑐𝑖𝑜 = 𝑓(𝑎𝑟𝑒𝑎) + 𝑒.Interprete los coeficientes del modelo 𝛽0, 𝛽1 en caso de ser correcto.

Para la estimación del modelo se hará uso de la función lm():

modreg1<-lm(precio_millon~Area_contruida,data=viviendas)
modreg1
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = viviendas)
## 
## Coefficients:
##    (Intercept)  Area_contruida  
##         86.234           2.124

b0= 86.234

Cuando B1 es igual a cero el precio promedio de la vivienda será de 86,234 millones, el valor de este intercepto es valido si se asume que cuando no hay área construida lo que se esta comprando es un lote baldío, no obstante en este caso ya no se estaría comprando una vivienda sino un terreno lo cual salé del contexto de la modelación y de los datos, ya que en el caso de un terreno el valor de su área tambien será relevante y en este caso no la conocemos, teniendo en cuenta estas consideraciones a pesar de que es posible generar supuestos alrededor de Bo es prudente omitir su interpretación en este caso puntual.

b1= 2.124

En este caso b1 nos dice que un aumento de 1 metro cuadrado en el área construida de la vivienda generará en promedio un aumento de 2.124 millones mientras los demás factores se mantienen constantes.

4.Construir un intervalo de confianza (95%) para el coeficiente 𝛽1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

Para la construcción del intervalo de confianza usaremos la función confint() la cual tiene como parámetros el modelo, el coeficiente y el nivel de confianza deseado para el intervalo

intervconfb1<- confint(modreg1,parm="Area_contruida",level=0.95)
intervconfb1
##                  2.5 %   97.5 %
## Area_contruida 1.74017 2.507771

Los intervalos de confianza sobre los coeficientes se calculan a partir del error estándar asociado a los mismos, se asume asi que dentro del rango del intervalo si el coeficiente es significativo se encuentran el valor B1 poblacional. A partir del error estándar del coeficiente es posible aplicar una prueba t para validar la significancia del coeficiente obtenido, esta prueba tiene como hipotesis nula que B1 es igual a 0 y como hipotesis alternativa que B1 es diferente de 0, bajo estas hipotesis se dirá que el coeficiente es significativo si hay suficiente evidencia para no aceptar la hipotesis nula, para validar la prueba se aprovecharán los cálculos ya realizados a en el summary del modelo:

summary(modreg1)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = viviendas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

El summary de la regresión ya contiene dentro de si los estadisticos t calculados y los p-valores derivados del contraste, para el caso de B1 se puede apreciar que el valor t es de 11.422 y que su p-valor es 3.45e-11 lo cual ante un alfa de 0.05 da pie para no aceptar la hipotesis nula y concluir que el coeficiente relacionado a Area_construida es estadisticamente significativo y contribuye a explicar el cambio en la variable precio_millon.

5.Calcule e interprete el indicador de bondad y ajuste R2

Por definición el coeficiente de determinación es:

Formula del coeficiente de determinación

#Replicando las operaciones de la formula  

Sumatoria_nume<- sum((modreg1$fitted.values-mean(viviendas$precio_millon))**2)  #Suma explicada de cuadrados
Sumatoria_denom<- sum((viviendas$precio_millon-mean(viviendas$precio_millon))**2) #suma total de cuadrados
coef_determinacion<- round(Sumatoria_nume/Sumatoria_denom,4) # Coeficiente de determinación 
coef_determinacion # la operación es correcta el valor es igual al reflejado en el summary
## [1] 0.8446

El R2 cuadrado calculado nos expresa que el modelo explica en un 84,46% la variación muestral de la variable precio de la vivienda, es importante resaltar que esta interpretación es valida para la muestra, asi mismo la existencia de significancia en el modelo no implica per se una relación de causalidad confirmada, seguramente si se incrementa la muestra el coeficiente de determinación podria tener variaciones significativas, en especial porque el valor de la vivienda no esta unicamente explicado por el área construida del predio.

Si gráficamos nuestra recta de regresión calculada obtenemos lo siguiente:

grafreg1<- ggplot(viviendas,aes(x=Area_contruida,y=precio_millon))+
    geom_point(alpha=0.3,size=2)+
    labs(y="Precio vivienda",x="Área construida")+geom_smooth(method = "lm", formula = y ~ x, level=0.95)
    

grafreg1

6.¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una buena oferta? ¿Qué consideraciones adicionales se deben tener?.

Para calcular el precio de una vivienda de 110 metros cuadrados debe hacerse uso de la función predict que tomará la función lineal del modelo y la aplicará sobre dataframe de valores que correspondan a la variable x, en este caso nuestro dataframe solo tendra un dato dado que solo queremos predecir el resultado respecto a un único valor de x:

predict(modreg1,newdata=data.frame("Area_contruida"=c(110)))
##        1 
## 319.8706

A partir de la estimación realizada es posible decir que el precio promedio de un apartamento de 110 metros cuadrados será de 319,87 millones de pesos. Si se consideran los intervalos de confianza del coeficiente b1 la banda de precios podria ser entre 277 millones de pesos y 361 millones, asi las cosas para efectos de la muestra analizada una oferta de 200 millones por un apartamento de esta área no seria muy buena, sin embargo como bien se menciona esta banda de precios es valida suponiendo que el precio general de las viviendas se comporta igual que la muestra analizada, no obstante una muestra de 26 observaciones no da pie para generalizar especialmente teniendo en cuenta que la definición del precio de una vivienda esta afectada por otros factores como:

  • Su localización [Efectos espaciales]
  • Antiguedad
  • Número de habitaciones
  • Número de baños
  • Amenities con los que cuenta en la zona circundante
  • Entre otras variables

Si se toma en cuenta el contexto completo una oferta de 200 millones es plausible para el área propuesta dependiendo de algunas de las variables mencionadas que podrian afectar su valor comercial final, por ejemplo una vivienda de tal área pero con mayor antiguedad y más inseguridad a su alrededor podria facilmente tener un valor menor en comparación a una que es nueva y esta en una zona segura.

7.Realice la validación de supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

Para abordar esta fase de validación de supuestos inicialmente se revisarán las gráficas de residuos y posteriormente para afianzar o confirmar las intuiciones derivadas de este proceso se realizarán los siguientes contrastes de espeficificación:

  • Prueba de Breusch Pagan para detección de heterocedasticidad

Este test realiza una regresión de los residuos al cuadrado respecto a las variables independientes, a partir de este modelo se calcula el estadistico F que confirmará la significancia o no de las variables. Este test parte de una hipotesis nula de homocedasticidad.

  • Pruebas de Jarque Bera para validación de normalidad en los residuos

La prueba de Jarque Bera busca validar si una muestra (en este caso los residuos) cuenta con la asimetría y la curtosis de una distribución normal, su hipotesis nula asume normalidad y su hipotesis alternativa asume la ausencia de la misma dado el hecho de que los valores de simetría y kurtosis no se ciñen a los de una distribución normal.

  • Prueba de Durbin Watson para detección de autocorrelación

La prueba de Durbin busca validar que no exista correlación entre residuos consecutivos, para esto suma los errores e-simos y sus rezagos y los eleva al cuadrado y divide este resultado entre el cuadrado de los errores a partir de esta operación se calcula el estadistico d con el cual se aplica la prueba cuya hipótesis nula es que no existe autocorrelación en los residuos.

residualPlots(modreg1,las=1)

##                Test stat Pr(>|Test stat|)    
## Area_contruida    -5.874        5.492e-06 ***
## Tukey test        -5.874        4.255e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
par(mfrow = c(2, 2))
plot(modreg1)

Las gráficas permiten apreciar que los residuales no parecen tener una varianza constante (homocedasticidad), como bien lo demarcan las lineas que se muestran en los gráficos la trayectoria parece ser parabolica o marcar un patrón lo cual no es adecuado dado que el ideal es que los errores tuvieran un comportamiento de ruido blanco, por otro lado al revisar la gráfica QQ se puede observar cierta convergencia no obstante se puede apreciar que algunos valores extremos generan distorsión. Para validar lo anterior se procede con los test:

Prueba de Breusch Pagan:

bptest(modreg1)
## 
##  studentized Breusch-Pagan test
## 
## data:  modreg1
## BP = 5.8737, df = 1, p-value = 0.01537

Teniendo en cuenta que este test parte de una hipotesis nula de homocedasticidad, es posible observar que el p-valor ante un alfa de 0.05 se encuentra por debajo del valor de referencia por lo tanto no hay evidencia suficiente para aceptar la hipotesis nula lo cual lleva a confirmar la presencia de heterocedasticidad que se habia observado gráficamente.

Prueba de Jarque Bera:

jarque.test(modreg1$residuals)
## 
##  Jarque-Bera Normality Test
## 
## data:  modreg1$residuals
## JB = 1.2644, p-value = 0.5314
## alternative hypothesis: greater

Partiendo del hecho de que el test de Jarque Bera tiene como hipótesis nula la normalidad de la muestra, además se parte de que el valor ideal del estadistico JB es 0 (lo cual significa que los datos tienen asimetria 0 y kurtosis 3), en este caso el p-valor indica que no hay evidencia suficiente para rechazar la hiptoesis nula y por lo tanto puede afirmarse que hay normalidad en los residuos

Prueba de Durbin Watson:

dwtest(modreg1)
## 
##  Durbin-Watson test
## 
## data:  modreg1
## DW = 1.8831, p-value = 0.3831
## alternative hypothesis: true autocorrelation is greater than 0

Teniendo en cuenta que la prueba de durbin watson parte de la hipotesis nula de ausencia de autocorrelación, el p-valor de la prueba permite establecer que no hay evidencia suficiente para rechazar la hipotesis nula y por lo tanto se puede concluir que no hay presencia de autocorrelación.

Los análisis realizados permiten concluir que el modelo estimado tiene problemas de heterocedasticidad, lo cual genera que los estimadores pierdan eficiencia lo cual se traduce en que los estimadores obtenidos no cumplen con el criterio de varianza minima bajo el cual deberia comportarse una estimación bajo MCO.

Cuando se presente heterocedasticidad suele ser recomendable ejecutar transformaciones en las variables del modelo para eventualmente corregir el problema, dado que las variables tiene escalas bastante diferentes se propone en el punto siguiente aplicar logaritmo sobre precio y area.

8.De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Se realizará una transformación logaritmica de las variables con el fin de revisar si esto mejora en alguna medida el problema de heterocedasticidad del modelo:

modreg2<-lm(log(precio_millon)~log(Area_contruida),data=viviendas)
summary(modreg2)
## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida), data = viviendas)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12

Con la aplicación de las transformaciones tanto en la variable dependiente como independiente se logra una mejora en el R2, esto teniendo en cuenta que el modelo 1 tenía un R2 equivalente a 0.84 y este modelo pasa a tener un R2 de 0.8767 conservando la significancia tanto en b1 como b0.

En este caso nuestro b1 cambia su interpretación y demarca que un cambio de un 1% en el área construida de la vivienda genera un aumento del 0.80% en el precio de la vivienda

9.De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado

Como pudo observarse en el punto anterior nuestro modelo transformado de la forma log-log presenta una mejora en la bondad del ajuste de 0.0367 pasando de 0.84 a 0.8767 conservando significancia individual de los coeficientes y significancia global respecto al modelo.

Ahora verifiquemos si las transformaciones realizadas surtieron efecto respecto a los problemas de heterocedasticidad del primer modelo:

par(mfrow = c(2, 2))
plot(modreg2)

Las gráficas de residuos no tuvieron cambios muy significativos, la gráfica residuals vs fitted sigue evidenciando un patrón en su distribución, y la gráfica de normalidad presenta mayor dispersión o divergencia en las colas.

Validemos a partir de pruebas:

bptest(modreg2) ##Prueba de breusch pagan para heterocedasticidad
## 
##  studentized Breusch-Pagan test
## 
## data:  modreg2
## BP = 2.9947, df = 1, p-value = 0.08354
jarque.test(modreg2$residuals) ## Prueba de shapiro Wilk - residuales
## 
##  Jarque-Bera Normality Test
## 
## data:  modreg2$residuals
## JB = 1.8157, p-value = 0.4034
## alternative hypothesis: greater
durbinWatsonTest(modreg2) ## Prueba de autorocorrelacion - Durbin Watson
##  lag Autocorrelation D-W Statistic p-value
##    1      0.07868721      1.773009   0.602
##  Alternative hypothesis: rho != 0

Al aplicar nuevamente las pruebas se puede apreciar que los test de normalidad y autocorrelación muestran el mismo resultado que el modelo 1, y en lo que respecta al test de Breusch Pagan es posible observar que el p-valor ante un alfa de 0.05 se encuentra por encima del valor de referencia lo cual da lugar a que no haya evidencia suficiente para rechazar la hipotesis nula lo cual da lugar a concluir que el problema de heterocedasticidad ha sido superado al aplicar transformaciones logaritmicas sobre la variable dependiente e independiente.

Validado lo anterior, se puede concluir que el modelo con mejor ajuste y especificación es el modelo modreg2 que conserva una forma log-log.