Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C require el apoyo de un cientifico de datos en la construcción de un modelo que lo oriente sobre los precios de inmuebles.
Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar
Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) incluir gráficos e indicadores apropiados interpretados.
data(vivienda4)
kable(summary(vivienda4))
| zona | estrato | preciom | areaconst | tipo | |
|---|---|---|---|---|---|
| Zona Centro : 8 | 3: 0 | Min. : 78.0 | Min. : 40.00 | Apartamento:1363 | |
| Zona Norte : 288 | 4:1706 | 1st Qu.:160.0 | 1st Qu.: 60.00 | Casa : 343 | |
| Zona Oeste : 60 | 5: 0 | Median :210.0 | Median : 75.00 | NA | |
| Zona Oriente: 6 | 6: 0 | Mean :225.4 | Mean : 87.63 | NA | |
| Zona Sur :1344 | NA | 3rd Qu.:265.0 | 3rd Qu.: 98.00 | NA | |
| NA | NA | Max. :760.0 | Max. :200.00 | NA |
Esta base de datos cuenta 1706 observaciones de residencias inmobiliarias y 5 variables relacionadas con el mercado inmobiliario. De tipo cuantitativo (precio, area construida) y variables de tipo cualitativo (tipo de vivienda, zona de ubicación y estrato sociodemografico), la base no presenta valores faltantes por lo cual no se realiza ningun tipo de transformación de los datos.
Acontinuacion se mostrar un analisis exploratorios de las variables de interes:
Variables : Precio
| media | varianza | desviacion | Q1 | Q4 | P90 |
|---|---|---|---|---|---|
| 225.3746 | 7376.274 | 85.88524 | 160 | 185 | 340 |
Variables: area construida
| media | varianza | desviacion | Q1 | Q4 | P90 |
|---|---|---|---|---|---|
| 87.62954 | 1321.069 | 36.34651 | 60 | 70 | 144.5 |
Se mostrar a como esta representada el tipo de vivienda en la base da datos.
Donde el 78% de las inmuebles son apartamentos es decir que 1363 son
obervaciones de apartamentos. la cual es la base de datos con la que se
trabajaran.
En el grafico anterior representa que la mayoria de los apartamentos se encuentran en el sector sur y una menor proporcion en el sector norte, conformada en su mayoria por apartamentos.
En los histogramas anteriores se evidencia que en cuanto al precio tiene
una distribucion sesgada hacia la izquierda, asi mismo la mayor
frecuencia de los datos se encuentra en el rango de 160 a 180 milones de
pesos.
En cunato al histograma de la drecha representa al área construida, se observa igualmente un sesgos hacia la izquierda y una mayor frecuencia de datos en el rango de 60 a 80 metros cuadrados construidos
Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida) - incluir gráficos e indicadores apropiados interpretados
De la grafica anterior se observan una simetria hacia la izquierda en ambas graficas donde es predominante los apartamentos,En la grafica de distribucion precio los apartamentos presentan una mayor frecuencia en precios menosres a 200 millones y las casa presenta una distribucion mas centralizada pero con valores atipocos de mas 600 millones En la grafica del area construida se observa que los apartamentos tienen una frecuencia mayor entre 60 y 80 metros construidos, en cuanto a las casas la distribucion de la frecuencia es variable, con casa hasta de 200 metros construidos.
## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'
De acuerdo con la grafica anterior y al analizar la dispersión de los
precios según el area construida, se evidencia una relacion proporcional
entre el área construida y el precio de la vivienda, segun el modelo
aparentemente es de tipo lineal, es decir que a mayor área mayor es el
precio de la vivienda, sin emabargo vemos varios valores que no siguen
este modelo, lo que nos indica que pueden estar influenciados por otras
varibles.
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
En el graficos de casa se observa la misma tendencia lineal entre precio
y área contruida, no obstante al ser las casas el 20% de los datos se
evidencia mayor dispersión en los puntos y se observa un mayor numero de
datos atipicos respecto a los apartamentos. como se envidencia en la
siguente grafica donde las lineas de tendencia no se representan
adecuadamente los puntos.
`geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'
Se hace la prueba de correlacion para confirmar relación entre area construida y el precio que se observa en los diagramas de disperión. Se procede a aplicar pruebas de correlación entre estas variables, encontrando una correlacion positiva debil de 0.7424.
Pearson's product-moment correlation
data: vivienda4$areaconst and vivienda4$preciom
t = 48.728, df = 1704, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7424432 0.7821521
sample estimates:
cor
0.7630166
Estime el modelo de regresión lineal simple entre precio=f(area)+ error. Interprete los coeficientes del modelo B0, B1 en caso de ser correcto.
Dado que el 80% de la poblacion se concentra en la vivienda tipo apartamento, se procede a realizar el modelo de regresión lineal, teniendo en cuenta unicamente los apartamentos.
Call:
lm(formula = preciom ~ areaconst, data = apartamentos)
Residuals:
Min 1Q Median 3Q Max
-225.404 -23.902 -4.754 25.763 209.021
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.04679 4.09977 9.524 <2e-16 ***
areaconst 2.16473 0.05204 41.595 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 43.34 on 1361 degrees of freedom
Multiple R-squared: 0.5597, Adjusted R-squared: 0.5594
F-statistic: 1730 on 1 and 1361 DF, p-value: < 2.2e-16
Aplicando el modelo de regresión lineal a los datos de los
apartamentos, se observa que B0 (intercepto) es de 39 millones, es decir
que ese sería el precio del lote sin área construida. Con relacion a β1
el cual es de 2.16 corresponde a la pendiente, es decir que por cada
metro cuadrado que se aumente en el apartamento el precio aumentaría en
2.16 Millones.
Ahora se analizara para el otro 20% que son las casa
Call:
lm(formula = preciom ~ areaconst, data = casas)
Residuals:
Min 1Q Median 3Q Max
-158.71 -52.01 -17.93 40.25 414.54
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 153.2252 15.9174 9.626 <2e-16 ***
areaconst 1.2015 0.1123 10.701 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 83.87 on 341 degrees of freedom
Multiple R-squared: 0.2514, Adjusted R-squared: 0.2492
F-statistic: 114.5 on 1 and 341 DF, p-value: < 2.2e-16
Aplicando el modelo de regresión lineal a los datos de las
casas, se observa que β0 (intercepto) es de 153 millones, es decir
corresponde al precio del terreno donde se construirá la casa. Con
relacion a β1 el cual es de 1.20 corresponde a la pendiente, es decir
que por cada metro cuadrado que se aumente en el apartamento el precio
aumentaría en 1,20 Millones.
Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
Para apartamentos
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | 31.00423 | 47.089340 |
| areaconst | 2.06264 | 2.266826 |
El intervalo de confianza para la pendiente β1 en el modelo de apartamentos se encuentra entre 2.06 y 2.26; es decir, por cada metro cuadrado adicional, el precio promedio del apartamento aumenta entre 2.06 y 2.26 millones con una confianza del 95%.
Para casa
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | 121.916592 | 184.533755 |
| areaconst | 0.980623 | 1.422293 |
El intervalo de confianza para la pendiente β1 en el modelo de apartamentos se encuentra entre 0.98 y 1.42; es decir, por cada metro cuadrado adicional, el precio promedio del apartamento aumenta entre 0.98 y 1.42 millones con una confianza del 95%.
La prueba de hipótesis nula (H0 = 𝛽1=0) La prueba de hipótesis Alternativa (H0 = 𝛽1≠0)
De la tabla de resumen estadistico del cuarto punto se evidencia que valor de el modelo 𝛽1 presentan un valor p-value: < 2.2e-16 lo cual es un valor general de 0, inferior al valor mínimo de 0.05 lo cual rechaza la hipótesis nula.
Calcule e interprete el indicador de bondad R2
De la tabla de resumen estadistico del cuarto Con el modelo apartamento se encuentra que el indicador de ajuste R cuadrado es de 0.559, esto indica que el precio de los apartamentos influenciado por el área construida en un 56%, sin emabrgo existen otras variables (covariables) que influyen en el precio y que no han sido tenidas en cuenta para este modelo.
De la tabla de resumen estadistico del cuarto para el modelo de casa nos indica que el modelo explica una variabilidad del área Construida del 24.92%. El restante no es explicado por el modelo, sino por variables externas que no se tienen en cuenta.a
¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.
| fit | lwr | upr |
|---|---|---|
| 277.1674 | 192.0449 | 362.2899 |
De acuerdo con el modelo, el precio promedio estimado para los apartamentos de 110 metros cuadrados sería de 277 Millones de pesos, con un limite inferior 192 Millones y limite superior de 362 Millones (IC 95%). Por lo anterior, se determina que el precio de 200 Millones por un apartamento de 110 metros cuadrados en la misma zona es una oferta muy atractiva para cualquier comprador sin embargo se deben tener en cunata otras variables como la zona, las condiciones de la vivienda, la parte legal que pueden estar afectando el precio de venta.
Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
Dado que no se conoce la media y la varianza, se debe utilizar la modificación test Lilliefors el cual permite que la media y varianza son desconocidas, permitiendo contrastar la normalidad.
Lilliefors (Kolmogorov-Smirnov) normality test
data: modeloap$residuals
D = 0.060955, p-value = 6.975e-13
Shapiro-Wilk normality test
data: modeloap$residuals
W = 0.96486, p-value < 2.2e-16
De acuerdo con los resultados del Test Lilliefors, se encuentra
que la hipotesis nula (los datos de los residuos tienen una distribución
normal) se rechaza y se acepta la hipotesis alterna, los datos de los
residuos no siguen una distribucion normal.
La grafica representa la varianza de los residuos del modelo de
apartamentos alrededor de la linea de regresión se distribuye de manera
heterogenea se dispersan mas a medida que aumenta el valor de datos
ajustados, esto es un signo revelador de que existe heterocedasticidad.
Tambien se observa como la varianza aumenta a medida que lo hacen los
valores ajustados, por lo tanto de determina que el modelo no cumple el
supuesto de homocedasticidad.
studentized Breusch-Pagan test
data: modeloap
BP = 292.99, df = 1, p-value < 2.2e-16
Calculando un valor de 292.99 nos indica que hay diferencia
entre el modelo que asume homocedasticidad y el modelo que permite
heterocedasticidad, y siendo p un valor muy bajo casi cero, podemos
decir que no satisface la suposición de Homocedasticidad lo que puede
significar que las varianzas de los errores no es constante.
## x must either be a summarytools object created with freq(), descr(), or a list of summarytools objects created using by()
De acuerdo con las obervaciones y al avalizar las graficas de los supuesto de linealidad se encuentran varios valores atípicos (outliers) los cuales pueden influir en la estimación del modelo y por lo tanto, requiere ser ajustado añadiendo otras covariables o dando algun tipo de tratamiento a estos datos atípicos.
De acuerdo a la grafica de los residuos y su posterior análisis de los residuos se detecta observaciones atípicas que pueden sesgar a los estimadores los coeficientes del modelo, las cuales se encuentran por encima de 100 y -100. Es decir que se encuentran varios apartamentos con precios y areas atípicos, representados por la diferencia de los residuos y la estimación del modelo, como se muestra en la gráfica.
De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
Se procede a calcular el valor de lambda optimo. El valor maximo de lan puede ayudar a orientar el tipo de transformación requerida en el modeloap.
De acuerdo con el gráfico, muestra que el 0 está dentro del
intervalo de confiaza del λ óptimo y la estimación está realmente cerca
del 0, en este caso la mejor opción es aplicar la transformación
logarítmica:
Call:
lm(formula = nuevo_y ~ apartamentos$areaconst, data = apartamentos)
Residuals:
Min 1Q Median 3Q Max
-0.48740 -0.06527 -0.00535 0.07957 0.32740
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.4459708 0.0097192 354.55 <2e-16 ***
apartamentos$areaconst 0.0046628 0.0001234 37.79 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.1027 on 1361 degrees of freedom
Multiple R-squared: 0.5121, Adjusted R-squared: 0.5117
F-statistic: 1428 on 1 and 1361 DF, p-value: < 2.2e-16
Como se evidencia en los no se aumenta el valor de R cuadrado
respecto al modelo inicial, de hecho disminuye a 51% y este resultado
obtenido es significativamente estadístico (p valor menor 0.05).
El nuevo modelo nos da un R-squared: 51,63 % sin embargo aun es muy bajo para cumplir el modelo
Con la transformacion se genera un valor inferior al registrado con el modelo 1 en el cual se presento un R-squared: 55,97 %
Shapiro-Wilk normality test
data: ajuste_optimo$residuals
W = 0.98979, p-value = 3.766e-08
studentized Breusch-Pagan test
data: ajuste_optimo
BP = 130.48, df = 1, p-value < 2.2e-16
Con las pruebas realizadas anteriormente se determina que no hay
Normalidad, tampoco Autocorrelacion y no se cumple la
homocedasticidad.
Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
modelo1 = lm( preciom ~ areaconst, data = apartamentos)
modelo2 = lm( preciom ~ log ( areaconst ), data = apartamentos)
modelo3 = lm( log( preciom ) ~ areaconst, data = apartamentos)
modelo4 = lm( log(preciom) ~ log(areaconst), data = apartamentos)
library(stargazer)
Please cite as:
Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
stargazer(modelo1,modelo2,modelo3,modelo4, type = "text", title = "tabla comparativa de modelos")
tabla comparativa de modelos
===================================================================================
Dependent variable:
---------------------------------------------------
preciom log(preciom)
(1) (2) (3) (4)
-----------------------------------------------------------------------------------
areaconst 2.165*** 0.009***
(0.052) (0.0002)
log(areaconst) 195.419*** 0.882***
(4.445) (0.020)
Constant 39.047*** -635.532*** 4.551*** 1.484***
(4.100) (19.092) (0.019) (0.087)
-----------------------------------------------------------------------------------
Observations 1,363 1,363 1,363 1,363
R2 0.560 0.587 0.520 0.582
Adjusted R2 0.559 0.587 0.519 0.582
Residual Std. Error (df = 1361) 43.339 41.982 0.205 0.191
F Statistic (df = 1; 1361) 1,730.157*** 1,933.199*** 1,473.424*** 1,894.288***
===================================================================================
Note: *p<0.1; **p<0.05; ***p<0.01
Despues de realizar las transformaciones de las variables
independiente (areaconst) y dependiente (Preciom) para el tipo de
vivienda apartamentos y comparalos entre sí, se encuentra que el modelo
conmejor resultado es el 4 donde se utilizo logaritmo para la variable
dependiente (preciom) tal como se expresó al encontrar el valor de
lambda de -0.1313 con la transformación BoxCox. En el modelo 4, se
aumenta ligeramente el valor de R2 a un 58.2% que explica que el area
construida influye en el precio , es decir un 3% mas que en el modelo
lineal 1 propuesto anteriormente. tambien es el modelo el que presenta
un error estandar de los residuos mas cercano de cero. Los demás modelos
presentaron mayor debilidad en los resultados de R²( Rcuadrado), p-value
y Residual Std.
Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores
Nos complace presentar los resultados del análisis de modelos de regresión para predecir los precios de apartamentos. A continuación, se detallan los hallazgos principales y las recomendaciones basadas en los resultados obtenidos:
A partir de los datos proporcionados, se aplicaron diferentes modelos de regresión lineal a las ofertas de vivienda para apartamentos de estrato 4 con un área construida menor a 200 m². El objetivo fue encontrar un modelo apropiado que predijera el precio de los apartamentos en millones de pesos en función del área construida en metros cuadrados.
Se identificó que el Modelo 4, definido como Log_Lin=lm(log(precio) ~ area_construida, data=vivienda4), mostró un mejor comportamiento de predicción con un coeficiente de determinación (R²) del 58.68%. Los demás modelos presentaron una mayor debilidad en los resultados de R², p-value y Error Estándar Residual. Ningún modelo cumplió completamente con los supuestos esperados en el modelo de regresión, lo que resalta la necesidad de incluir más variables para mejorar la precisiónde la predicción.
Se recomienda incluir más variables que apoyen la identificación y selección de apartamentos, como antigüedad, calidad de materiales de construcción, si es o no conjunto cerrado, valor de administración, entre otros. El conocimiento de estas variables adicionales incide en el precio final de los apartamentos, por lo que se sugiere generar esta información para crear un modelo predictivo más confiable.
Se identificaron datos atípicos en los precios y áreas construidas de los apartamentos, lo que sugiere considerar su exclusión en futuros modelos o generar modelos por rangos de precios y áreas para optimizar la precisión.
*Aunque se realizaron transformaciones en el modelo inicial para mejorar los supuestos, solo se observó mejora en la linealidad y los valores atípicos. Por lo tanto, se sugiere explorar otros tipos de modelos que no exijan normalidad de las observaciones.
*No se recomienda excluir observaciones influyentes, ya que puede afectar sustancialmente la estimación de los coeficientes de regresión. En su lugar, se sugiere aumentar el tamaño del conjunto de datos para reducir la posibilidad de influencia de observaciones individuales.
En resumen, los resultados del análisis indican que el área construida, aunque tiene una correlación positiva con el precio de los apartamentos, no es la única variable explicativa. Se necesitan más variables para mejorar la precisión del modelo de predicción de precios de apartamentos. El desarrollo de este análisis ha identificado una necesidad interna en la organización para generar más datos y variables relevantes que respalden la toma de decisiones en el mercado inmobiliario.
Se adjuntan evidencias y gráficos relevantes del análisis realizado, incluyendo gráficos de residuos, diagnósticos de los modelos y otras visualizaciones importantes para respaldar los resultados presentados en este informe.
#==================================== # CODIGO R #====================================
library(moments)
library(knitr)
library(kableExtra)
library(tidyverse)
library(devtools)
library(paqueteMETODOS)
library(gridExtra)
library(knitr)
# PRIMER PUNTO
data(vivienda4)
kable(summary(vivienda4))
kable(vivienda4 |> summarise(media = mean(preciom),
varianza = var(preciom),
desviacion = sd(preciom),
Q1 = quantile(preciom, probs = 0.25),
Q4 = quantile(preciom, probs = 0.40),
P90 = quantile(preciom, probs = 0.90)
))
kable(vivienda4 |>summarise(media = mean(areaconst),
varianza = var(areaconst),
desviacion = sd(areaconst),
Q1 = quantile(areaconst, probs = 0.25),
Q4 = quantile(areaconst, probs = 0.40),
P90 = quantile(areaconst, probs = 0.90)
))
pie(table(vivienda4$tipo),
col = c("blue","red"),
main="Distribucion por tipo de vivienda"
)
ggplot(vivienda4,
aes(x = zona, fill = tipo))+
geom_bar()+
ggtitle ( "Distribucion de las viviendas por zonas")
h1 <- ggplot ( vivienda4, aes ( x = preciom ))+
geom_histogram(bins = 30)+
theme_grey()+
ggtitle(" Distribucion del precio")
h2 <- ggplot ( vivienda4, aes ( x = areaconst ))+
geom_histogram(bins = 30)+
theme_grey()+
ggtitle(" Distribucion del area")
gridExtra::grid.arrange(h1,h2, nrow = 1)
# SEGUNDO PUNTO
## Respuesta
h4 <- ggplot(vivienda4, aes( x = preciom, fill = tipo ))+
geom_histogram(bins = 30)+
labs(title = " Distribucion de precio segun ", legend = FALSE)
h5 <- ggplot(vivienda4, aes( x=areaconst, fill = tipo ))+
geom_histogram(bins = 30)+
labs(title = " Distibucion de area construida ")
apartamentos <- subset(vivienda4, vivienda4$tipo == "Apartamento")
casas <- subset(vivienda4, tipo == "Casa" )
ggplot(apartamentos, aes( x= areaconst, y = preciom))+
geom_point(color ="blue")+
geom_smooth()+
labs(title = "Distribucion de los precios de los apartamentos segun area contruida")
ggplot(casas, aes( x= areaconst, y = preciom))+
geom_point(color ="blue")+
geom_smooth()+
labs(title = "Distribucion de los precios de los casas segun area contruida")
ggplot ( vivienda4,
aes ( x = preciom, y = areaconst, color = tipo ))+
geom_point ( aes ( color = tipo ))+
geom_smooth ( aes(color = tipo ))+
ggtitle("Relacion entre el area construida con el valor de la vivienda")
cor.test(x = vivienda4$areaconst, y = vivienda4$preciom, method = "pearson", digits = 3)
# TERCER PUNTO
modeloap = lm(preciom ~ areaconst, apartamentos)
summary(modeloap)
modelocasa = lm ( preciom ~ areaconst, casas)
summary(modelocasa)
# CUARTO PUNTO
kable(confint(modeloap, level = 0.95))
kable(confint(modelocasa, level = 0.95))
# SEXTO PUNTO
kable(prediccion_110 <- predict(modeloap,data.frame(areaconst =110), interval = "prediction",level = 0.95))
# SEPTIMO PUNTO
library(nortest)
lillie.test(modeloap$residuals)
shapiro.test(modeloap$residuals)
res.estudentizados <- studres(modeloap)
plot( modeloap$fitted.values,
res.estudentizados,
ylab = "residuos Estudentizados",
xlab = "Valores Ajustados ")
abline(h = 0 , lty = 2)
#### Test de Breush-Pagan (homocedasticidad de los residuos)
library(lmtest)
bptest(modeloap)
plot(modeloap)
view(plot)
ggplot(apartamentos,
aes(x = seq_along(modeloap$residuals),
y = modeloap$residuals ))+
geom_point( aes(color = modeloap$residuals))+
scale_color_gradient2(low = "blue", mid = "green", high = "red")+
geom_line(linewidth= 0.5)+
geom_hline(yintercept = 0)+
labs(title = " Distribucion de los Residuos", x = "indicador de apartamento", y = "Residuos ")+
theme(legend.position = "none")
# OCTAVO Y NOVENO PUNTO
boxcox(lm(apartamentos$preciom~apartamentos$areaconst), lambda = -3:3)
boxcox(lm(apartamentos$preciom~apartamentos$areaconst), lambda = -1:1)
resultado_lambda <- boxcox(lm(apartamentos$preciom~apartamentos$areaconst), lambda = -1:1)
lambda_optimmo <- resultado_lambda$x[which.max(resultado_lambda$y)]
nuevo_y <- ((apartamentos$preciom^lambda_optimmo) - 1)/lambda_optimmo
ajuste_optimo <- lm(nuevo_y ~ apartamentos$areaconst, apartamentos)
summary(ajuste_optimo)
shapiro.test(ajuste_optimo$residuals)
bptest(ajuste_optimo)
# DECIMO PUNTO
modelo1 = lm( preciom ~ areaconst, data = apartamentos)
modelo2 = lm( preciom ~ log ( areaconst ), data = apartamentos)
modelo3 = lm( log( preciom ) ~ areaconst, data = apartamentos)
modelo4 = lm( log(preciom) ~ log(areaconst), data = apartamentos)
library(stargazer)
stargazer(modelo1,modelo2,modelo3,modelo4, type = "text", title = "tabla comparativa de modelos")