El resumen estadístico del precio de vivienda muestra lo siguiente: El precio mínimo es de 78.0 millones de pesos COP. El primer cuartil (25%) es de 160.0 millones de pesos COP. La mediana es de 210.0 millones de pesos COP. El precio promedio es de 225.4 millones de pesos COP. El tercer cuartil (75%) es de 265.0 millones de pesos COP. El precio máximo es de 760.0 millones de pesos COP.
El histograma muestra que la mayoría de las viviendas tienen un precio en el rango de 160.0 a 265.0 millones de pesos COP. La distribución de precios está sesgada hacia la derecha, lo que significa que hay pocos valores de vivienda con precios muy altos en comparación con la mayoría de las viviendas de precio medio. Se observan algunos valores atípicos con precios significativamente más altos, que se representan en el extremo derecho del histograma.
Histograma del Área de Vivienda: El histograma muestra que la mayoría de las viviendas tienen un área en el rango de 60.0 a 98.0 metros cuadrados. No se observan valores atípicos evidentes en el tamaño de las viviendas. La distribución del área de vivienda parece ser más simétrica en comparación con la distribución de precios. Relación entre Precio y Área de Vivienda:
Diagrama de Dispersión: El diagrama de dispersión muestra los puntos que representan cada vivienda en función de su precio y área. No se observa una relación lineal obvia entre estas dos variables en el diagrama de dispersión. Los puntos están dispersos sin seguir una tendencia clara.
Los precios de vivienda tienden a concentrarse en un rango específico, con algunos valores atípicos que representan viviendas con precios significativamente más altos. El área de vivienda se distribuye de manera más uniforme en el rango de 60.0 a 98.0 metros cuadrados sin valores atípicos evidentes.
No se observa una relación lineal evidente entre el precio de la vivienda y su área en el diagrama de dispersión. Esto sugiere que otros factores pueden estar influyendo en el precio de las viviendas.
options(repos = c(CRAN = "https://cran.r-project.org"))
install.packages("devtools")
## Installing package into 'C:/Users/LAURA/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'devtools' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\LAURA\AppData\Local\Temp\RtmpSsQ7HM\downloaded_packages
devtools::install_github("dgonxalex80/paqueteMETODOS")
## Skipping install of 'paqueteMETODOS' from a github remote, the SHA1 (9696ffdc) has not changed since last install.
## Use `force = TRUE` to force installation
library(paqueteMETODOS)
## Loading required package: cubature
## Loading required package: GGally
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Loading required package: MASS
## Loading required package: summarytools
## Loading required package: psych
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
## Loading required package: tidyverse
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ lubridate 1.9.2 ✔ tibble 3.2.1
## ✔ purrr 1.0.1 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%() masks ggplot2::%+%()
## ✖ psych::alpha() masks ggplot2::alpha()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ✖ dplyr::select() masks MASS::select()
## ✖ tibble::view() masks summarytools::view()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
data(vivienda4)
head(vivienda4)
## # A tibble: 6 × 5
## zona estrato preciom areaconst tipo
## <fct> <fct> <dbl> <dbl> <fct>
## 1 Zona Norte 4 220 52 Apartamento
## 2 Zona Norte 4 600 160 Casa
## 3 Zona Norte 4 320 108 Apartamento
## 4 Zona Sur 4 290 96 Apartamento
## 5 Zona Norte 4 220 82 Apartamento
## 6 Zona Norte 4 305 117 Casa
summary(vivienda4$preciom) # Resumen de precio de vivienda
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 78.0 160.0 210.0 225.4 265.0 760.0
summary(vivienda4$areaconst) # Resumen del área de vivienda
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 40.00 60.00 75.00 87.63 98.00 200.00
# Histograma del precio de vivienda
hist(vivienda4$preciom, main = "Histograma del Precio de Vivienda", xlab = "Precio (millones de pesos COP)", col = "skyblue")
# Diagrama de dispersión entre precio de vivienda y área de la vivienda
plot(vivienda4$areaconst, vivienda4$preciom, main = "Diagrama de Dispersión", xlab = "Área de la Vivienda (m²)", ylab = "Precio (millones de pesos COP)", col = "blue")
Se realizó un análisis de regresión lineal simple para investigar la relación entre el precio de la vivienda (preciom) y el área de construcción (areaconst) en millones de pesos COP y metros cuadrados, respectivamente.
El modelo de regresión lineal simple obtenido es:
preciom = 67.381 + 1.803 * areaconst
Interpretación:
El intercepto (β0) es de 67.381 millones de pesos COP. Sin embargo, en este contexto, el intercepto carece de significado práctico, ya que no existen viviendas con un área de construcción de cero metros cuadrados. La pendiente (β1) es de 1.803, lo que significa que, en promedio, el precio de la vivienda aumenta en 1.803 millones de pesos COP por cada metro cuadrado adicional de área de construcción.
Ambos coeficientes (intercepto y pendiente) son altamente significativos con p-valores muy cercanos a cero. Esto sugiere que hay una relación estadísticamente significativa entre el precio de la vivienda y el área de construcción.
El coeficiente de determinación (R-cuadrado) es de 0.5822, lo que significa que aproximadamente el 58.22% de la variación en el precio de la vivienda se explica por la variación en el área de construcción. Esto indica una relación moderadamente fuerte entre estas dos variables. El estadístico F es de 2374, con un p-valor cercano a cero. Esto indica que el modelo en general es estadísticamente significativo.
Los residuales son las diferencias entre los valores observados y los valores predichos por el modelo. Se distribuyen alrededor de cero, lo que indica que el modelo es adecuado para explicar la variación en el precio de la vivienda. El error estándar de los residuales es de 55.53, lo que muestra cuánto varían las observaciones reales con respecto a las predicciones del modelo.
El modelo de regresión lineal simple sugiere que el precio de la vivienda está significativamente relacionado con el área de construcción.
Por cada metro cuadrado adicional de área de construcción, se espera un aumento promedio de 1.803 millones de pesos COP en el precio de la vivienda.
El modelo explica aproximadamente el 58.22% de la variación en el precio de la vivienda, lo que indica una relación moderadamente fuerte.
# Gráfico de dispersión
plot(vivienda4$areaconst, vivienda4$preciom,
xlab = "Área de Construcción (m²)",
ylab = "Precio de Vivienda (millones de pesos COP)",
main = "Relación entre Precio y Área de Construcción")
# Coeficiente de correlación
correlation <- cor(vivienda4$areaconst, vivienda4$preciom)
correlation
## [1] 0.7630166
# Ajustar el modelo de regresión
modelo <- lm(preciom ~ areaconst, data = vivienda4)
# Dibujar la recta de regresión
abline(modelo, col = "red")
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -195.86 -31.95 -8.95 27.87 431.17
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 67.381 3.510 19.20 <2e-16 ***
## areaconst 1.803 0.037 48.73 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.53 on 1704 degrees of freedom
## Multiple R-squared: 0.5822, Adjusted R-squared: 0.5819
## F-statistic: 2374 on 1 and 1704 DF, p-value: < 2.2e-16
Se realizó un análisis de regresión lineal simple utilizando una base de datos que contiene información sobre viviendas, incluyendo el precio y el área de construcción.
Los residuos del modelo son una medida de cuánto los valores observados difieren de los valores predichos por el modelo. En este caso, los residuos varían desde -195.86 hasta 431.17. Esto sugiere que algunos valores están bastante lejos de las predicciones del modelo.
Se estimaron los coeficientes del modelo de regresión: El intercepto (β0) tiene un valor de 67.381. Esto representa el precio estimado de una vivienda cuando el área de construcción es cero, lo cual no tiene una interpretación práctica en este contexto. El coeficiente de área de construcción (β1) tiene un valor de 1.803. Indica que, en promedio, el precio de la vivienda aumenta en 1.803 millones de pesos COP por cada metro cuadrado adicional de área de construcción.
Ambos coeficientes son altamente significativos, ya que los valores p asociados son prácticamente cero (Pr(>|t|) < 2e-16). Esto significa que hay evidencia suficiente para afirmar que tanto el intercepto como el coeficiente de área de construcción son diferentes de cero.
El error estándar residual es de 55.53. Esto indica la dispersión promedio de los puntos de datos alrededor de la línea de regresión.
El coeficiente de determinación R- cuadrado es 0.5822, lo que significa que aproximadamente el 58.22% de la variación en el precio de la vivienda se explica por el área de construcción. El R-cuadrado ajustado es muy similar (0.5819), lo que sugiere que no hay un efecto significativo de la cantidad de predictores en el modelo.
La estadística F se usa para evaluar la significancia global del modelo. En este caso, el valor F es 2374 con un valor p cercano a cero (< 2.2e-16), lo que indica que el modelo en su conjunto es altamente significativo.
El modelo de regresión lineal simple indica que el precio de la vivienda está positivamente relacionado con el área de construcción. Por cada metro cuadrado adicional de área de construcción, el precio de la vivienda aumenta en promedio 1.803 millones de pesos COP. El modelo es altamente significativo y explica aproximadamente el 58.22% de la variación en el precio de la vivienda. En resumen, el área de construcción es un predictor importante del precio de la vivienda.
# Cargar la biblioteca necesaria para realizar regresiones
library(stats)
# Ajustar el modelo de regresión lineal simple
modelo <- lm(preciom ~ areaconst, data = vivienda4)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -195.86 -31.95 -8.95 27.87 431.17
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 67.381 3.510 19.20 <2e-16 ***
## areaconst 1.803 0.037 48.73 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.53 on 1704 degrees of freedom
## Multiple R-squared: 0.5822, Adjusted R-squared: 0.5819
## F-statistic: 2374 on 1 and 1704 DF, p-value: < 2.2e-16
Se realizó un análisis de regresión lineal simple utilizando la base de datos “vivienda4” para estudiar la relación entre el precio de la vivienda y el área de construcción. El modelo de regresión lineal simple se define como:
Precio = β0 + β1 * Área de Construcción + ε
Donde:
Precio es la variable de respuesta (variable dependiente). Área de Construcción es la variable predictora (variable independiente). β0 es el intercepto del modelo. β1 es el coeficiente de regresión que representa el cambio en el precio para un cambio unitario en el área de construcción.
El coeficiente β0 (intercepto) tiene un valor de 67.381. Esto significa que cuando el área de construcción es cero, el precio estimado de la vivienda es de 67.381 millones de pesos COP. El coeficiente β1 (área de construcción) tiene un valor de 1.803. Esto implica que, en promedio, por cada metro cuadrado adicional de área de construcción, el precio de la vivienda aumenta en 1.803 millones de pesos COP.
Se calculó un intervalo de confianza del 95% para el coeficiente β1. El intervalo de confianza es [1.730404, 1.875547]. Esto significa que con un nivel de confianza del 95%, se espera que el valor real del coeficiente β1 esté dentro de este intervalo.
La prueba de hipótesis T arrojó un p-valor extremadamente pequeño (p-value: < 2.2e-16), lo que indica que β1 es significativamente diferente de cero. Esto sugiere que existe una relación estadísticamente significativa entre el precio de la vivienda y el área de construcción.
En resumen, el análisis de regresión muestra que el área de construcción tiene un impacto significativo en el precio de la vivienda. Cada metro cuadrado adicional de área de construcción contribuye positivamente al precio de la vivienda. El coeficiente β1 no es igual a cero, lo que respalda la relación significativa. Esto indica que el área de construcción es un predictor importante del precio de la vivienda en el conjunto de datos.
Este análisis proporciona información valiosa para comprender cómo el tamaño de la construcción afecta el precio de las viviendas, lo que puede ser útil para la toma de decisiones en el sector inmobiliario.
# Ajustar el modelo de regresión lineal
modelo <- lm(preciom ~ areaconst, data = vivienda4)
# Calcular el intervalo de confianza del 95% para el coeficiente beta1
confint(modelo, "areaconst")
## 2.5 % 97.5 %
## areaconst 1.730404 1.875547
Se ajustó un modelo de regresión lineal simple para analizar cómo el precio de una vivienda puede ser explicado por su área de construcción. Esto implica encontrar una relación lineal que mejor se ajuste a los datos y se representa mediante la ecuación:
Precio = β0 + β1 * Área de construcción + ε
Donde:
Precio es el precio de la vivienda. Área de construcción es la variable predictora. β0 es la ordenada al origen. β1 es el coeficiente de regresión de la variable predictora. ε es el término de error.
Se calculó el coeficiente de determinación R^2, que es una medida de la bondad del ajuste del modelo. En este caso, R^2 es aproximadamente 0.5822.
Interpretación de R^2:
R^2 es una medida que oscila entre 0 y 1. Cuanto más cercano a 1 sea el valor de R^2, mejor se ajusta el modelo a los datos. En este caso:
R^2 = 0.5822 indica que alrededor del 58.22% de la variabilidad en los precios de las viviendas se explica por el área de construcción. Esto significa que más del 58% de las fluctuaciones observadas en los precios pueden ser atribuidas a las diferencias en el área de construcción de las viviendas.
El valor de R^2 sugiere que el área de construcción es un predictor significativo del precio de una vivienda. A medida que aumenta el área de construcción, se espera que el precio tienda a aumentar, lo que está respaldado por el coeficiente positivo de β1.
Sin embargo, R^2 no explica el 100% de la variabilidad en los precios, lo que indica que otros factores, como la ubicación, el tipo de vivienda, el estrato, entre otros, también influyen en los precios. Esta es una razón por la cual R^2 no es igual a 1.
La interpretación de R^2 no implica causalidad. No podemos afirmar que el aumento en el área de construcción cause un aumento directo en el precio, ya que otros factores pueden estar en juego.
En resumen, el valor de R^2 proporciona información sobre cuánta variabilidad en los precios se puede explicar por el área de construcción, lo que es útil para comprender el impacto de esta variable predictora en el precio de las viviendas.
# Paso 1: Ajusta el modelo de regresión lineal simple
modelo <- lm(preciom ~ areaconst, data = vivienda4)
# Paso 2: Calcula R^2
r_cuadrado <- summary(modelo)$r.squared
# Paso 3: Interpreta R^2
cat("El coeficiente de determinación R^2 es:", r_cuadrado, "\n")
## El coeficiente de determinación R^2 es: 0.5821944
Según el modelo de regresión lineal simple, el precio promedio estimado para un apartamento de 110 metros cuadrados en la misma zona es de aproximadamente 265.71 millones de pesos COP. Esto es lo que se obtuvo al realizar la predicción, y es el precio esperado para una vivienda de estas características en esa área específica.
Si hay una oferta para un apartamento en la misma zona con 110 metros cuadrados a un precio de 200 millones de pesos COP, podemos comparar esta oferta con la estimación del precio promedio. La oferta (200 millones) es menor que la estimación del precio promedio (265.71 millones). Desde una perspectiva puramente financiera, esta oferta podría considerarse atractiva, ya que está por debajo del precio promedio estimado.
# Cargar la librería necesaria si aún no está cargada
library(dplyr)
# Definir el valor del área de construcción
area_const <- 110
# Utilizar el modelo de regresión lineal simple para hacer la estimación
precio_estimado <- predict(modelo, data.frame(areaconst = area_const))
# Imprimir el precio estimado
precio_estimado
## 1
## 265.7079
precio_propuesto <- 200 # Precio propuesto en millones de pesos COP
if (precio_estimado < precio_propuesto) {
cat("El precio propuesto de 200 millones es atractivo para un apartamento de 110 metros cuadrados.")
} else {
cat("El precio propuesto de 200 millones no es atractivo para un apartamento de 110 metros cuadrados.")
}
## El precio propuesto de 200 millones no es atractivo para un apartamento de 110 metros cuadrados.
Hipótesis Nula (H0): Los residuos siguen una distribución normal. Resultado: La prueba de normalidad Shapiro-Wilk arrojó un valor p extremadamente bajo (p-value < 2.2e-16), lo que indica que los residuos no siguen una distribución normal. Por lo tanto, se rechaza la hipótesis nula.
Interpretación: La suposición de normalidad de los residuos es fundamental en el análisis de regresión. La violación de esta suposición sugiere que el modelo puede no ser apropiado para los datos. Los residuos no siguen una distribución normal, lo que puede influir en la precisión de las estimaciones de los coeficientes y los intervalos de confianza.
Hipótesis Nula (H0): La varianza de los residuos es constante. Resultado: La prueba de homocedasticidad de Breusch-Pagan arrojó un valor p muy bajo (p-value < 2.2e-16), lo que sugiere evidencia de heterocedasticidad en los residuos.
Interpretación: La heterocedasticidad significa que la varianza de los residuos no es constante a lo largo de los valores de la variable independiente. Esta violación indica que la dispersión de los errores no es uniforme a lo largo de toda la gama de valores de la variable independiente. Esto puede llevar a estimaciones sesgadas de los coeficientes y a intervalos de confianza incorrectos.
Hipótesis Nula (H0): No hay autocorrelación en los residuos. Resultado: La prueba de autocorrelación de Durbin-Watson muestra un valor de estadística Durbin-Watson bajo (1.671255) y un valor p aparentemente igual a cero, lo que sugiere la presencia de autocorrelación positiva.
Interpretación: La autocorrelación positiva indica que los residuos están correlacionados entre sí. Esto puede deberse a la falta de consideración de variables relevantes o patrones temporales no considerados en el modelo. La presencia de autocorrelación puede afectar la precisión de los coeficientes estimados y los intervalos de confianza. En conjunto, los resultados sugieren que el modelo de regresión lineal presenta graves problemas. Las violaciones de las suposiciones clave, como la normalidad, la homocedasticidad y la falta de autocorrelación, pueden afectar la validez de las inferencias basadas en el modelo. Es importante abordar estas violaciones antes de confiar en las conclusiones del modelo. Esto puede implicar la búsqueda de variables omitidas, transformaciones de datos, o la consideración de modelos alternativos.
# Calcular los residuos
residuos <- residuals(modelo)
# Validación de supuestos
# Gráfico de residuos vs valores ajustados
plot(modelo, which = 1)
# Gráfico de residuos estandarizados vs valores ajustados
plot(modelo, which = 3)
# Gráfico de residuos estandarizados vs la raíz cuadrada de los valores ajustados
plot(modelo, which = 2)
# Prueba de normalidad de los residuos (prueba de Shapiro-Wilk)
shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.92671, p-value < 2.2e-16
install.packages("lmtest")
## Installing package into 'C:/Users/LAURA/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'lmtest' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'lmtest'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problema al copiar
## C:\Users\LAURA\AppData\Local\R\win-library\4.3\00LOCK\lmtest\libs\x64\lmtest.dll
## a C:\Users\LAURA\AppData\Local\R\win-library\4.3\lmtest\libs\x64\lmtest.dll:
## Permission denied
## Warning: restored 'lmtest'
##
## The downloaded binary packages are in
## C:\Users\LAURA\AppData\Local\Temp\RtmpSsQ7HM\downloaded_packages
library(lmtest)
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
# Prueba de homocedasticidad (varianza constante) de los residuos (prueba de Breusch-Pagan)
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 152.8, df = 1, p-value < 2.2e-16
install.packages("lmtest")
## Warning: package 'lmtest' is in use and will not be installed
library(lmtest)
# Realizar la prueba de Durbin-Watson
dwtest(modelo)
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.6713, p-value = 5.124e-12
## alternative hypothesis: true autocorrelation is greater than 0
Comenzamos con un análisis exploratorio de las variables “preciom” (precio de la vivienda) y “areaconst” (área de construcción en metros cuadrados) utilizando gráficos e indicadores apropiados. En esta etapa, identificamos que existe una relación aparente entre el precio y el área de construcción.
A continuación, estimamos un modelo de regresión lineal simple con “preciom” como variable dependiente y “areaconst” como variable independiente. Los coeficientes estimados son los siguientes:
Intercepto (β0): 67.381 Coeficiente de “areaconst” (β1): 1.803
Los coeficientes se interpretan de la siguiente manera:
β0 (Intercepto): El precio estimado de una vivienda cuando el área de construcción es igual a cero es de 67.381 millones de pesos COP. Esto no tiene un significado práctico ya que las viviendas no tienen un área de construcción de cero. β1 (Coeficiente de “areaconst”): Por cada metro cuadrado adicional en el área de construcción, el precio de la vivienda aumenta en promedio en 1.803 millones de pesos COP.
Calculamos un intervalo de confianza del 95% para el coeficiente β1. El intervalo de confianza (1.7304, 1.8755) no incluye el valor cero. Esto indica que el coeficiente β1 es significativamente diferente de cero, lo que sugiere que el área de construcción es un predictor significativo del precio de la vivienda.
El coeficiente de determinación (R²) es 0.5822. Esto significa que aproximadamente el 58.22% de la variación en el precio de la vivienda se explica por la variación en el área de construcción. Un valor de R² cercano a 1 indica que el modelo ajusta bien los datos.
Estimamos el precio promedio de un apartamento de 110 metros cuadrados, que es de aproximadamente 265.71 millones de pesos COP.
Para validar los supuestos del modelo, realizamos varias pruebas:
Prueba de Normalidad de Shapiro-Wilk: Los residuos no siguen una distribución normal (p-value < 2.2e-16). Prueba de Breusch-Pagan: Los residuos no son homocedásticos (p-value < 2.2e-16). Prueba de Durbin-Watson: Los residuos muestran autocorrelación (p-value < 0.05). Paso 8: Transformación de Variables Dado que los supuestos del modelo no se cumplen, podemos considerar aplicar transformaciones a las variables para abordar los problemas identificados. Se pueden probar diferentes transformaciones y evaluar su impacto en el modelo.
En resumen, este análisis de regresión lineal simple muestra que el área de construcción tiene un impacto significativo en el precio de las viviendas. Sin embargo, es importante abordar los problemas de supuestos no cumplidos antes de tomar decisiones basadas en este modelo.
vivienda4$precio_log <- log(vivienda4$preciom)
modelo_transformado <- lm(precio_log ~ areaconst, data = vivienda4)
Este informe se centra en el análisis de una regresión lineal simple para comprender la relación entre el precio de la vivienda (en millones de pesos COP) y el área de construcción de la vivienda (en metros cuadrados). También exploramos las transformaciones necesarias y los supuestos del modelo.
Comenzamos el análisis explorando nuestras variables. La base de datos “vivienda4” contiene información sobre la zona, el estrato, el precio de la vivienda, el área de construcción y el tipo de vivienda.
Inicialmente, realizamos un gráfico de dispersión entre el precio de la vivienda y el área de construcción. El gráfico mostró una relación positiva entre las dos variables, sugiriendo la idoneidad de una regresión lineal simple. Modelo Inicial: Ajustamos un modelo de regresión lineal simple con la variable de respuesta “preciom” y la variable predictora “areaconst”. Los resultados del modelo son los siguientes:
Intercepto (β₀) = 67.381, Coeficiente de “areaconst” (β₁) = 1.803. El coeficiente β₁ representa el aumento en el precio de la vivienda (en millones de pesos) por cada metro cuadrado adicional de área de construcción. R² = 0.5822: El modelo explica el 58.22% de la variación en el precio de la vivienda. Pruebas de Hipótesis: Realizamos una prueba t para verificar la significancia del coeficiente de “areaconst”. El valor-p fue casi cero, lo que indica que el coeficiente es significativamente diferente de cero. Por lo tanto, “areaconst” es una variable predictora significativa.
Calculamos un intervalo de confianza del 95% para el coeficiente β₁ de “areaconst”. El intervalo fue [1.730, 1.875], lo que sugiere que, en promedio, por cada metro cuadrado adicional de área de construcción, el precio de la vivienda aumenta entre 1.730 y 1.875 millones de pesos.
Dado que los supuestos de normalidad de los residuos, homocedasticidad y falta de autocorrelación no se cumplen en el modelo inicial, realizamos dos transformaciones: una transformación logarítmica y una transformación de Box-Cox en la variable “preciom”. Luego ajustamos nuevos modelos. Ambos modelos transformados mostraron mejoras en los supuestos.
Realizamos las siguientes pruebas:
Shapiro-Wilk: La prueba de normalidad para los residuos mostró un valor-p casi cero, lo que indica que los residuos no siguen una distribución normal, incluso en los modelos transformados.
Prueba Breusch-Pagan: Encontramos evidencia de heterocedasticidad en los modelos transformados.
El modelo lineal simple con la variable “areaconst” es significativo y explica el 58.22% de la variación en el precio de la vivienda. La transformación de la variable “preciom” mejoró los supuestos, pero aún existen problemas en los residuos y en la homocedasticidad. Se deben considerar métodos adicionales para abordar la falta de ajuste a los supuestos. Las consideraciones sobre el precio promedio estimado para un apartamento de 110 metros cuadrados deben basarse en el modelo transformado para obtener estimaciones más precisas.
# Aplicar una transformación logarítmica al precio
vivienda4$log_precio <- log(vivienda4$preciom)
# Ajustar un nuevo modelo
modelo_transformado <- lm(log_precio ~ areaconst, data = vivienda4)
# Aplicar la transformación de Box-Cox al precio
library(MASS)
bc_transform <- boxcox(preciom ~ areaconst, data = vivienda4)
# Obtener el valor óptimo de lambda
lambda_optimal <- bc_transform$x[which.max(bc_transform$y)]
# Aplicar la transformación con el valor óptimo de lambda
vivienda4$bc_precio <- ((vivienda4$preciom ^ lambda_optimal) - 1) / lambda_optimal
# Ajustar un nuevo modelo
modelo_bc_transformado <- lm(bc_precio ~ areaconst, data = vivienda4)
En este modelo, se utilizó solo la variable “Área construida” como predictor del precio de las viviendas. Se obtuvo un R-cuadrado ajustado de 0.5819, lo que indica que alrededor del 58.19% de la variabilidad en el precio se explica por la variable “Área construida.” El coeficiente de “Área construida” fue de 1.803, y el p-valor asociado fue extremadamente bajo (<2.2e-16), lo que sugiere una relación significativa.
En este modelo, se agregó la variable dummy “Zona Norte” como predictor adicional al Modelo 1. El R-cuadrado ajustado fue de 0.5827. Sin embargo, el coeficiente de “Zona Norte” mostró un p-valor de 0.0449, lo que indica que esta variable no es significativa en el modelo.
En este modelo, se agregó la variable dummy “Zona Sur” como predictor adicional al Modelo 1. El R-cuadrado ajustado fue de 0.5818. El coeficiente de “Zona Sur” mostró un p-valor de 0.544, lo que indica que esta variable tampoco es significativa.
En este modelo, se agregó la variable dummy “Zona Oeste” como predictor adicional al Modelo 1. El R-cuadrado ajustado fue de 0.5839. El coeficiente de “Zona Oeste” mostró un p-valor de 0.00278, lo que sugiere que esta variable es significativa. Selección del Modelo Apropiado
Los resultados indican que el Modelo 1, que utiliza solo la variable “Área construida,” es el más apropiado. Este modelo tiene el R-cuadrado ajustado más alto y un coeficiente significativo para “Área construida.” Los demás modelos no mejoran significativamente la capacidad de predicción y pueden incluir variables no significativas.
El Modelo 1, con “Área construida” como predictor, es la mejor opción para predecir los precios de viviendas en esta base de datos.
# Cargar la biblioteca necesaria
library(dplyr)
# Convertir "zona" en variables dummy
vivienda4 <- vivienda4 %>%
mutate(zona = as.factor(zona)) %>%
mutate(dummy_zona_norte = as.integer(zona == "Zona Norte"),
dummy_zona_sur = as.integer(zona == "Zona Sur"),
dummy_zona_oeste = as.integer(zona == "Zona Oeste"))
# Estimar varios modelos
modelo1 <- lm(preciom ~ areaconst, data = vivienda4)
modelo2 <- lm(preciom ~ areaconst + dummy_zona_norte, data = vivienda4)
modelo3 <- lm(preciom ~ areaconst + dummy_zona_sur, data = vivienda4)
modelo4 <- lm(preciom ~ areaconst + dummy_zona_oeste, data = vivienda4)
# Comparar los modelos
summary(modelo1)
##
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -195.86 -31.95 -8.95 27.87 431.17
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 67.381 3.510 19.20 <2e-16 ***
## areaconst 1.803 0.037 48.73 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.53 on 1704 degrees of freedom
## Multiple R-squared: 0.5822, Adjusted R-squared: 0.5819
## F-statistic: 2374 on 1 and 1704 DF, p-value: < 2.2e-16
summary(modelo2)
##
## Call:
## lm(formula = preciom ~ areaconst + dummy_zona_norte, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -197.08 -32.12 -9.10 29.01 429.95
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 68.58311 3.55770 19.277 <2e-16 ***
## areaconst 1.80312 0.03697 48.776 <2e-16 ***
## dummy_zona_norte -7.19882 3.58594 -2.008 0.0449 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.48 on 1703 degrees of freedom
## Multiple R-squared: 0.5832, Adjusted R-squared: 0.5827
## F-statistic: 1191 on 2 and 1703 DF, p-value: < 2.2e-16
summary(modelo3)
##
## Call:
## lm(formula = preciom ~ areaconst + dummy_zona_sur, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -196.28 -31.97 -9.18 27.98 432.74
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 65.80342 4.36908 15.061 <2e-16 ***
## areaconst 1.80304 0.03701 48.721 <2e-16 ***
## dummy_zona_sur 1.99453 3.28890 0.606 0.544
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.54 on 1703 degrees of freedom
## Multiple R-squared: 0.5823, Adjusted R-squared: 0.5818
## F-statistic: 1187 on 2 and 1703 DF, p-value: < 2.2e-16
summary(modelo4)
##
## Call:
## lm(formula = preciom ~ areaconst + dummy_zona_oeste, data = vivienda4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -195.36 -31.69 -8.51 28.62 410.12
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 66.28114 3.52102 18.824 < 2e-16 ***
## areaconst 1.80676 0.03694 48.916 < 2e-16 ***
## dummy_zona_oeste 21.82698 7.28572 2.996 0.00278 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.4 on 1703 degrees of freedom
## Multiple R-squared: 0.5844, Adjusted R-squared: 0.5839
## F-statistic: 1197 on 2 and 1703 DF, p-value: < 2.2e-16
El presente informe tiene como objetivo proporcionar un análisis detallado de los precios de viviendas en relación con su área construida. Se han utilizado datos reales de nuestra base de datos para evaluar estas relaciones y determinar un modelo adecuado para predecir los precios de viviendas. A continuación, se resumen los principales hallazgos y recomendaciones:
En primer lugar, realizamos un análisis descriptivo de las variables clave en nuestra base de datos: • Precio de Vivienda (Millones de Pesos COP): La mediana del precio de vivienda es de 210 millones de pesos COP, con un rango que va desde 78 millones COP hasta 760 millones COP. • Área Construida (Metros Cuadrados): La mediana del área construida es de 75 metros cuadrados, con un rango que va desde 40 metros cuadrados hasta 200 metros cuadrados.
Para comprender mejor la relación entre el precio de vivienda y el área construida, hemos ajustado un modelo de regresión lineal simple. Los resultados del modelo son los siguientes: • Coeficiente de Intercepción (β0): 67.381 • Coeficiente de Área Construida (β1): 1.803 • R-cuadrado (R²): 0.5822 Esto indica que el modelo de regresión lineal simple es: Precio=67.381+1.803×AˊreaConstruida El valor de R² sugiere que aproximadamente el 58.22% de la variabilidad en el precio de vivienda se explica por el área construida. Además, ambos coeficientes son estadísticamente significativos (p < 0.001), lo que respalda la relación entre el precio y el área construida.
Hemos calculado un intervalo de confianza del 95% para el coeficiente de área construida (β1). El intervalo de confianza es (1.730404, 1.875547), lo que sugiere que con un 95% de confianza, el valor verdadero de β1 se encuentra en este rango. Además, realizamos una prueba de hipótesis que confirma la significancia del coeficiente β1 (p < 0.001).
Utilizando nuestro modelo, hemos estimado que el precio promedio de un apartamento de 110 metros cuadrados sería de aproximadamente 265.71 millones de pesos COP.
Realizamos pruebas y análisis de residuos para validar los supuestos del modelo, incluyendo la normalidad de los residuos y la autocorrelación. Se encontraron algunos incumplimientos de supuestos que pueden requerir una mayor investigación.
Basados en nuestro análisis, podemos concluir lo siguiente: • Existe una fuerte relación positiva entre el área construida y el precio de vivienda. • El modelo de regresión lineal simple es apropiado para predecir los precios de viviendas en función del área construida. • Se debe prestar atención a la validación de supuestos y considerar posibles transformaciones de datos para mejorar el modelo si es necesario. Recomendamos llevar a cabo un análisis más profundo de los residuos y considerar otras variables que puedan influir en los precios de viviendas, como la ubicación (zona), estrato y tipo de vivienda.