Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C require el apoyo de un cientifico de datos en la construcción de un modelo que lo oriente sobre los precios de inmuebles.

Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar

PRIMER PUNTO

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) incluir gráficos e indicadores apropiados interpretados.

Respuesta

data(vivienda4)
kable(summary(vivienda4))
zona estrato preciom areaconst tipo
Zona Centro : 8 3: 0 Min. : 78.0 Min. : 40.00 Apartamento:1363
Zona Norte : 288 4:1706 1st Qu.:160.0 1st Qu.: 60.00 Casa : 343
Zona Oeste : 60 5: 0 Median :210.0 Median : 75.00 NA
Zona Oriente: 6 6: 0 Mean :225.4 Mean : 87.63 NA
Zona Sur :1344 NA 3rd Qu.:265.0 3rd Qu.: 98.00 NA
NA NA Max. :760.0 Max. :200.00 NA

Esta base de datos cuenta 1706 observaciones de residencias inmobiliarias y 5 variables relacionadas con el mercado inmobiliario. De tipo cuantitativo (precio, area construida) y variables de tipo cualitativo (tipo de vivienda, zona de ubicación y estrato sociodemografico), la base no presenta valores faltantes por lo cual no se realiza ningun tipo de transformación de los datos.

Acontinuacion se mostrar un analisis exploratorios de las variables de interes:

Variables : Precio

media varianza desviacion Q1 Q4 P90
225.3746 7376.274 85.88524 160 185 340

Variables: area construida

media varianza desviacion Q1 Q4 P90
87.62954 1321.069 36.34651 60 70 144.5

Se mostrar a como esta representada el tipo de vivienda en la base da datos.

Donde el 78% de las inmuebles son apartamentos es decir que 1363 son obervaciones de apartamentos. la cual es la base de datos con la que se trabajaran.

En el grafico anterior representa que la mayoria de los apartamentos se encuentran en el sector sur y una menor proporcion en el sector norte, conformada en su mayoria por apartamentos.

En los histogramas anteriores se evidencia que en cuanto al precio tiene una distribucion sesgada hacia la izquierda, asi mismo la mayor frecuencia de los datos se encuentra en el rango de 160 a 180 milones de pesos.

En cunato al histograma de la drecha representa al área construida, se observa igualmente un sesgos hacia la izquierda y una mayor frecuencia de datos en el rango de 60 a 80 metros cuadrados construidos

SEGUNDO PUNTO

Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida) - incluir gráficos e indicadores apropiados interpretados

Respuesta

De la grafica anterior se observan una simetria hacia la izquierda en ambas graficas donde es predominante los apartamentos,En la grafica de distribucion precio los apartamentos presentan una mayor frecuencia en precios menosres a 200 millones y las casa presenta una distribucion mas centralizada pero con valores atipocos de mas 600 millones En la grafica del area construida se observa que los apartamentos tienen una frecuencia mayor entre 60 y 80 metros construidos, en cuanto a las casas la distribucion de la frecuencia es variable, con casa hasta de 200 metros construidos.

## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'

De acuerdo con la grafica anterior y al analizar la dispersión de los precios según el area construida, se evidencia una relacion proporcional entre el área construida y el precio de la vivienda, segun el modelo aparentemente es de tipo lineal, es decir que a mayor área mayor es el precio de la vivienda, sin emabargo vemos varios valores que no siguen este modelo, lo que nos indica que pueden estar influenciados por otras varibles.

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

En el graficos de casa se observa la misma tendencia lineal entre precio y área contruida, no obstante al ser las casas el 20% de los datos se evidencia mayor dispersión en los puntos y se observa un mayor numero de datos atipicos respecto a los apartamentos. como se envidencia en la siguente grafica donde las lineas de tendencia no se representan adecuadamente los puntos.

`geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'

Se hace la prueba de correlacion para confirmar relación entre area construida y el precio que se observa en los diagramas de disperión. Se procede a aplicar pruebas de correlación entre estas variables, encontrando una correlacion positiva debil de 0.7424.



    Pearson's product-moment correlation

data:  vivienda4$areaconst and vivienda4$preciom
t = 48.728, df = 1704, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.7424432 0.7821521
sample estimates:
      cor 
0.7630166 


TERCER PUNTO

Estime el modelo de regresión lineal simple entre precio=f(area)+ error. Interprete los coeficientes del modelo B0, B1 en caso de ser correcto.

Respuesta.

Dado que el 80% de la poblacion se concentra en la vivienda tipo apartamento, se procede a realizar el modelo de regresión lineal, teniendo en cuenta unicamente los apartamentos.


Call:
lm(formula = preciom ~ areaconst, data = apartamentos)

Residuals:
     Min       1Q   Median       3Q      Max 
-225.404  -23.902   -4.754   25.763  209.021 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 39.04679    4.09977   9.524   <2e-16 ***
areaconst    2.16473    0.05204  41.595   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 43.34 on 1361 degrees of freedom
Multiple R-squared:  0.5597,    Adjusted R-squared:  0.5594 
F-statistic:  1730 on 1 and 1361 DF,  p-value: < 2.2e-16



Aplicando el modelo de regresión lineal a los datos de los apartamentos, se observa que B0 (intercepto) es de 39 millones, es decir que ese sería el precio del lote sin área construida. Con relacion a β1 el cual es de 2.16 corresponde a la pendiente, es decir que por cada metro cuadrado que se aumente en el apartamento el precio aumentaría en 2.16 Millones.

Ahora se analizara para el otro 20% que son las casa


Call:
lm(formula = preciom ~ areaconst, data = casas)

Residuals:
    Min      1Q  Median      3Q     Max 
-158.71  -52.01  -17.93   40.25  414.54 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 153.2252    15.9174   9.626   <2e-16 ***
areaconst     1.2015     0.1123  10.701   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 83.87 on 341 degrees of freedom
Multiple R-squared:  0.2514,    Adjusted R-squared:  0.2492 
F-statistic: 114.5 on 1 and 341 DF,  p-value: < 2.2e-16


Aplicando el modelo de regresión lineal a los datos de las casas, se observa que β0 (intercepto) es de 153 millones, es decir corresponde al precio del terreno donde se construirá la casa. Con relacion a β1 el cual es de 1.20 corresponde a la pendiente, es decir que por cada metro cuadrado que se aumente en el apartamento el precio aumentaría en 1,20 Millones.

CUARTO PUNTO

Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

Respuesta

Para apartamentos

2.5 % 97.5 %
(Intercept) 31.00423 47.089340
areaconst 2.06264 2.266826

El intervalo de confianza para la pendiente β1 en el modelo de apartamentos se encuentra entre 2.06 y 2.26; es decir, por cada metro cuadrado adicional, el precio promedio del apartamento aumenta entre 2.06 y 2.26 millones con una confianza del 95%.

Para casa

2.5 % 97.5 %
(Intercept) 121.916592 184.533755
areaconst 0.980623 1.422293

El intervalo de confianza para la pendiente β1 en el modelo de apartamentos se encuentra entre 0.98 y 1.42; es decir, por cada metro cuadrado adicional, el precio promedio del apartamento aumenta entre 0.98 y 1.42 millones con una confianza del 95%.

La prueba de hipótesis nula (H0 = 𝛽1=0) La prueba de hipótesis Alternativa (H0 = 𝛽1≠0)

De la tabla de resumen estadistico del cuarto punto se evidencia que valor de el modelo 𝛽1 presentan un valor p-value: < 2.2e-16 lo cual es un valor general de 0, inferior al valor mínimo de 0.05 lo cual rechaza la hipótesis nula.

QUINTO PUNTO

Calcule e interprete el indicador de bondad R2

Respuesta

Para apartamentos

De la tabla de resumen estadistico del cuarto Con el modelo apartamento se encuentra que el indicador de ajuste R cuadrado es de 0.559, esto indica que el precio de los apartamentos influenciado por el área construida en un 56%, sin emabrgo existen otras variables (covariables) que influyen en el precio y que no han sido tenidas en cuenta para este modelo.

Para casas

De la tabla de resumen estadistico del cuarto para el modelo de casa nos indica que el modelo explica una variabilidad del área Construida del 24.92%. El restante no es explicado por el modelo, sino por variables externas que no se tienen en cuenta.a

SEXTO PUNTO

¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.

Respuesta.

fit lwr upr
277.1674 192.0449 362.2899

De acuerdo con el modelo, el precio promedio estimado para los apartamentos de 110 metros cuadrados sería de 277 Millones de pesos, con un limite inferior 192 Millones y limite superior de 362 Millones (IC 95%). Por lo anterior, se determina que el precio de 200 Millones por un apartamento de 110 metros cuadrados en la misma zona es una oferta muy atractiva para cualquier comprador sin embargo se deben tener en cunata otras variables como la zona, las condiciones de la vivienda, la parte legal que pueden estar afectando el precio de venta.

SEPTIMO PUNTO

Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.

Respuesta

Dado que no se conoce la media y la varianza, se debe utilizar la modificación test Lilliefors el cual permite que la media y varianza son desconocidas, permitiendo contrastar la normalidad.


    Lilliefors (Kolmogorov-Smirnov) normality test

data:  modeloap$residuals
D = 0.060955, p-value = 6.975e-13

    Shapiro-Wilk normality test

data:  modeloap$residuals
W = 0.96486, p-value < 2.2e-16


De acuerdo con los resultados del Test Lilliefors, se encuentra que la hipotesis nula (los datos de los residuos tienen una distribución normal) se rechaza y se acepta la hipotesis alterna, los datos de los residuos no siguen una distribucion normal.

Homocedasticidad .

La grafica representa la varianza de los residuos del modelo de apartamentos alrededor de la linea de regresión se distribuye de manera heterogenea se dispersan mas a medida que aumenta el valor de datos ajustados, esto es un signo revelador de que existe heterocedasticidad. Tambien se observa como la varianza aumenta a medida que lo hacen los valores ajustados, por lo tanto de determina que el modelo no cumple el supuesto de homocedasticidad.

Test de Breush-Pagan (homocedasticidad de los residuos)


    studentized Breusch-Pagan test

data:  modeloap
BP = 292.99, df = 1, p-value < 2.2e-16


Calculando un valor de 292.99 nos indica que hay diferencia entre el modelo que asume homocedasticidad y el modelo que permite heterocedasticidad, y siendo p un valor muy bajo casi cero, podemos decir que no satisface la suposición de Homocedasticidad lo que puede significar que las varianzas de los errores no es constante.

linealidad

## x must either be a summarytools object created with freq(), descr(), or a list of summarytools objects created using by()

De acuerdo con las obervaciones y al avalizar las graficas de los supuesto de linealidad se encuentran varios valores atípicos (outliers) los cuales pueden influir en la estimación del modelo y por lo tanto, requiere ser ajustado añadiendo otras covariables o dando algun tipo de tratamiento a estos datos atípicos.

Grafica de los residuos

De acuerdo a la grafica de los residuos y su posterior análisis de los residuos se detecta observaciones atípicas que pueden sesgar a los estimadores los coeficientes del modelo, las cuales se encuentran por encima de 100 y -100. Es decir que se encuentran varios apartamentos con precios y areas atípicos, representados por la diferencia de los residuos y la estimación del modelo, como se muestra en la gráfica.

OCTAVO Y NOVENO PUNTO

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

Respuesta

Se procede a calcular el valor de lambda optimo. El valor maximo de lan puede ayudar a orientar el tipo de transformación requerida en el modeloap.


De acuerdo con el gráfico, muestra que el 0 está dentro del intervalo de confiaza del λ óptimo y la estimación está realmente cerca del 0, en este caso la mejor opción es aplicar la transformación logarítmica:


Call:
lm(formula = nuevo_y ~ apartamentos$areaconst, data = apartamentos)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.48740 -0.06527 -0.00535  0.07957  0.32740 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)            3.4459708  0.0097192  354.55   <2e-16 ***
apartamentos$areaconst 0.0046628  0.0001234   37.79   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1027 on 1361 degrees of freedom
Multiple R-squared:  0.5121,    Adjusted R-squared:  0.5117 
F-statistic:  1428 on 1 and 1361 DF,  p-value: < 2.2e-16


Como se evidencia en los no se aumenta el valor de R cuadrado respecto al modelo inicial, de hecho disminuye a 51% y este resultado obtenido es significativamente estadístico (p valor menor 0.05).

El nuevo modelo nos da un R-squared: 51,63 % sin embargo aun es muy bajo para cumplir el modelo

Con la transformacion se genera un valor inferior al registrado con el modelo 1 en el cual se presento un R-squared: 55,97 %


    Shapiro-Wilk normality test

data:  ajuste_optimo$residuals
W = 0.98979, p-value = 3.766e-08

    studentized Breusch-Pagan test

data:  ajuste_optimo
BP = 130.48, df = 1, p-value < 2.2e-16


Con las pruebas realizadas anteriormente se determina que no hay Normalidad, tampoco Autocorrelacion y no se cumple la homocedasticidad.

DECIMO PUNTO

Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?

Respuesta

modelo1 = lm( preciom ~ areaconst, data = apartamentos)
modelo2 = lm( preciom ~ log ( areaconst ), data = apartamentos)
modelo3 = lm( log( preciom ) ~ areaconst, data = apartamentos)
modelo4 = lm( log(preciom) ~ log(areaconst), data = apartamentos)
library(stargazer)

Please cite as: 
 Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
 R package version 5.2.3. https://CRAN.R-project.org/package=stargazer 
stargazer(modelo1,modelo2,modelo3,modelo4, type = "text", title = "tabla comparativa de modelos")

tabla comparativa de modelos
===================================================================================
                                                Dependent variable:                
                                ---------------------------------------------------
                                         preciom                log(preciom)       
                                    (1)          (2)          (3)          (4)     
-----------------------------------------------------------------------------------
areaconst                         2.165***                  0.009***               
                                  (0.052)                   (0.0002)               
                                                                                   
log(areaconst)                                195.419***                 0.882***  
                                               (4.445)                   (0.020)   
                                                                                   
Constant                         39.047***   -635.532***    4.551***     1.484***  
                                  (4.100)      (19.092)     (0.019)      (0.087)   
                                                                                   
-----------------------------------------------------------------------------------
Observations                       1,363        1,363        1,363        1,363    
R2                                 0.560        0.587        0.520        0.582    
Adjusted R2                        0.559        0.587        0.519        0.582    
Residual Std. Error (df = 1361)    43.339       41.982       0.205        0.191    
F Statistic (df = 1; 1361)      1,730.157*** 1,933.199*** 1,473.424*** 1,894.288***
===================================================================================
Note:                                                   *p<0.1; **p<0.05; ***p<0.01


Despues de realizar las transformaciones de las variables independiente (areaconst) y dependiente (Preciom) para el tipo de vivienda apartamentos y comparalos entre sí, se encuentra que el modelo conmejor resultado es el 4 donde se utilizo logaritmo para la variable dependiente (preciom) tal como se expresó al encontrar el valor de lambda de -0.1313 con la transformación BoxCox. En el modelo 4, se aumenta ligeramente el valor de R2 a un 58.2% que explica que el area construida influye en el precio , es decir un 3% mas que en el modelo lineal 1 propuesto anteriormente. tambien es el modelo el que presenta un error estandar de los residuos mas cercano de cero. Los demás modelos presentaron mayor debilidad en los resultados de R²( Rcuadrado), p-value y Residual Std.

UNDECIMO PUNTO

Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores

Resultado

INFORME SOBRE EL ANALISIS DE MODELOS DE REGRESION PARA PREDICCION DE PRECIOS DE APARTAMENTOS.

Nos complace presentar los resultados del análisis de modelos de regresión para predecir los precios de apartamentos. A continuación, se detallan los hallazgos principales y las recomendaciones basadas en los resultados obtenidos:

Descripción del Problema y Metodología:

A partir de los datos proporcionados, se aplicaron diferentes modelos de regresión lineal a las ofertas de vivienda para apartamentos de estrato 4 con un área construida menor a 200 m². El objetivo fue encontrar un modelo apropiado que predijera el precio de los apartamentos en millones de pesos en función del área construida en metros cuadrados.

Resultados del Análisis:

Se identificó que el Modelo 4, definido como Log_Lin=lm(log(precio) ~ area_construida, data=vivienda4), mostró un mejor comportamiento de predicción con un coeficiente de determinación (R²) del 58.68%. Los demás modelos presentaron una mayor debilidad en los resultados de R², p-value y Error Estándar Residual. Ningún modelo cumplió completamente con los supuestos esperados en el modelo de regresión, lo que resalta la necesidad de incluir más variables para mejorar la precisiónde la predicción.

Recomendaciones y Consideraciones:

  • Se recomienda incluir más variables que apoyen la identificación y selección de apartamentos, como antigüedad, calidad de materiales de construcción, si es o no conjunto cerrado, valor de administración, entre otros. El conocimiento de estas variables adicionales incide en el precio final de los apartamentos, por lo que se sugiere generar esta información para crear un modelo predictivo más confiable.

  • Se identificaron datos atípicos en los precios y áreas construidas de los apartamentos, lo que sugiere considerar su exclusión en futuros modelos o generar modelos por rangos de precios y áreas para optimizar la precisión.

*Aunque se realizaron transformaciones en el modelo inicial para mejorar los supuestos, solo se observó mejora en la linealidad y los valores atípicos. Por lo tanto, se sugiere explorar otros tipos de modelos que no exijan normalidad de las observaciones.

*No se recomienda excluir observaciones influyentes, ya que puede afectar sustancialmente la estimación de los coeficientes de regresión. En su lugar, se sugiere aumentar el tamaño del conjunto de datos para reducir la posibilidad de influencia de observaciones individuales.

Conclusiones

En resumen, los resultados del análisis indican que el área construida, aunque tiene una correlación positiva con el precio de los apartamentos, no es la única variable explicativa. Se necesitan más variables para mejorar la precisión del modelo de predicción de precios de apartamentos. El desarrollo de este análisis ha identificado una necesidad interna en la organización para generar más datos y variables relevantes que respalden la toma de decisiones en el mercado inmobiliario.

Anexos

Se adjuntan evidencias y gráficos relevantes del análisis realizado, incluyendo gráficos de residuos, diagnósticos de los modelos y otras visualizaciones importantes para respaldar los resultados presentados en este informe.



#==================================== # CODIGO R #====================================

library(moments)
library(knitr)
library(kableExtra)
library(tidyverse)
library(devtools)
library(paqueteMETODOS)
library(gridExtra)
library(knitr)


# PRIMER PUNTO 

data(vivienda4)
kable(summary(vivienda4))

kable(vivienda4 |> summarise(media = mean(preciom),
  varianza = var(preciom),
  desviacion = sd(preciom),
  Q1 = quantile(preciom, probs = 0.25),
  Q4 = quantile(preciom, probs = 0.40),
  P90 = quantile(preciom, probs = 0.90)
))

kable(vivienda4 |>summarise(media = mean(areaconst),
  varianza = var(areaconst),
  desviacion = sd(areaconst),
  Q1 = quantile(areaconst, probs = 0.25),
  Q4 = quantile(areaconst, probs = 0.40),
  P90 = quantile(areaconst, probs = 0.90)
))

pie(table(vivienda4$tipo), 
  col = c("blue","red"),
  main="Distribucion por tipo de vivienda"
)

ggplot(vivienda4,
  aes(x = zona, fill = tipo))+ 
  geom_bar()+ 
  ggtitle ( "Distribucion de las viviendas por zonas")

h1 <- ggplot ( vivienda4, aes ( x = preciom ))+
  geom_histogram(bins = 30)+
  theme_grey()+
  ggtitle("   Distribucion del precio")

h2 <- ggplot ( vivienda4, aes ( x = areaconst ))+ 
  geom_histogram(bins = 30)+ 
  theme_grey()+
  ggtitle("   Distribucion del area")

gridExtra::grid.arrange(h1,h2, nrow = 1)


# SEGUNDO PUNTO 

## Respuesta

h4 <- ggplot(vivienda4, aes( x = preciom, fill = tipo ))+
  geom_histogram(bins = 30)+
  labs(title = "   Distribucion de precio segun ", legend = FALSE)
h5 <- ggplot(vivienda4, aes( x=areaconst, fill = tipo ))+
  geom_histogram(bins = 30)+
  labs(title = " Distibucion de area construida ")


apartamentos <- subset(vivienda4, vivienda4$tipo == "Apartamento")

casas <- subset(vivienda4, tipo == "Casa" )

ggplot(apartamentos, aes( x= areaconst, y = preciom))+
  geom_point(color ="blue")+
  geom_smooth()+
  labs(title = "Distribucion de los precios de los apartamentos segun area contruida")


ggplot(casas, aes( x= areaconst, y = preciom))+
  geom_point(color ="blue")+
  geom_smooth()+
  labs(title = "Distribucion de los precios de los casas segun area contruida")


ggplot ( vivienda4,
  aes ( x = preciom, y = areaconst, color = tipo ))+
  geom_point ( aes ( color = tipo ))+
  geom_smooth ( aes(color = tipo ))+
  ggtitle("Relacion entre el area construida con el valor de la vivienda")

cor.test(x = vivienda4$areaconst, y = vivienda4$preciom, method = "pearson", digits = 3)


# TERCER PUNTO


modeloap = lm(preciom ~ areaconst, apartamentos)
summary(modeloap)


modelocasa = lm ( preciom ~ areaconst, casas)
summary(modelocasa)


# CUARTO PUNTO 


kable(confint(modeloap, level = 0.95))


kable(confint(modelocasa, level = 0.95))


# SEXTO PUNTO


kable(prediccion_110 <-  predict(modeloap,data.frame(areaconst =110), interval = "prediction",level = 0.95))


# SEPTIMO PUNTO  

library(nortest)
lillie.test(modeloap$residuals)
shapiro.test(modeloap$residuals)


res.estudentizados <- studres(modeloap)
plot( modeloap$fitted.values,
  res.estudentizados, 
  ylab = "residuos Estudentizados",
  xlab = "Valores Ajustados ") 
abline(h = 0 , lty = 2)


#### Test de Breush-Pagan (homocedasticidad de los residuos)

library(lmtest)
bptest(modeloap)


plot(modeloap)
view(plot)


ggplot(apartamentos,
  aes(x = seq_along(modeloap$residuals),
    y = modeloap$residuals ))+
  geom_point( aes(color = modeloap$residuals))+
  scale_color_gradient2(low = "blue", mid = "green", high = "red")+
  geom_line(linewidth= 0.5)+
  geom_hline(yintercept = 0)+
  labs(title = "            Distribucion de los Residuos", x = "indicador de apartamento", y = "Residuos ")+
  theme(legend.position = "none")


# OCTAVO Y NOVENO PUNTO  


boxcox(lm(apartamentos$preciom~apartamentos$areaconst), lambda = -3:3)

boxcox(lm(apartamentos$preciom~apartamentos$areaconst), lambda = -1:1)

resultado_lambda <- boxcox(lm(apartamentos$preciom~apartamentos$areaconst), lambda = -1:1)

lambda_optimmo <- resultado_lambda$x[which.max(resultado_lambda$y)]



nuevo_y <- ((apartamentos$preciom^lambda_optimmo) - 1)/lambda_optimmo

ajuste_optimo <- lm(nuevo_y ~ apartamentos$areaconst, apartamentos)

summary(ajuste_optimo)

shapiro.test(ajuste_optimo$residuals)
bptest(ajuste_optimo)


# DECIMO PUNTO

modelo1 = lm( preciom ~ areaconst, data = apartamentos)
modelo2 = lm( preciom ~ log ( areaconst ), data = apartamentos)
modelo3 = lm( log( preciom ) ~ areaconst, data = apartamentos)
modelo4 = lm( log(preciom) ~ log(areaconst), data = apartamentos)
library(stargazer)
stargazer(modelo1,modelo2,modelo3,modelo4, type = "text", title = "tabla comparativa de modelos")