1 INTRODUCCIÓN

El objetivo de este informe es realizar un análisis exploratorio y modelamiento estadístico de las variables precio de vivienda (en millones de pesos COP) y área construida (en metros cuadrados) para identificar la relación entre estas dos variables clave en el mercado inmobiliario. A través de técnicas de análisis univariado y bivariado, se busca describir el comportamiento individual y conjunto de las variables, empleando gráficos y métricas descriptivas que proporcionen una comprensión profunda de la dinámica del mercado.

Posteriormente, se estima un modelo de regresión lineal simple para examinar la influencia del área de la vivienda sobre el precio, interpretando los coeficientes del modelo y evaluando su significancia mediante intervalos de confianza y pruebas de hipótesis. Se analiza la bondad de ajuste del modelo a través del coeficiente de determinación (R²) y se validan los supuestos del modelo mediante métodos gráficos y pruebas estadísticas, sugiriendo ajustes o transformaciones en caso de incumplimiento de los supuestos.

Además, se estima el precio promedio para un apartamento con un área específica y se evalúa la atractividad de una oferta de mercado comparativa. Por último, se presentan los resultados de los modelos ajustados, destacando el modelo más adecuado y sus implicaciones para la toma de decisiones estratégicas. Este informe proporciona a los directivos de la inmobiliaria una guía informada y basada en datos para optimizar la oferta y valoración de propiedades en función del tamaño y precio de las viviendas, con un respaldo detallado de los análisis realizados en los anexos.

2 INVESTIGACIÓN

2.1 ANÁLISIS EXPLORATORIO

Tras realizar una revisión exhaustiva de la base de datos proporcionada, no se detectaron errores. Por lo tanto, no es necesario ejecutar los procesos de normalización y estandarización de la tabla.

Zona Estrato Precio Millones Área Construida Tipo
Zona Centro : 8 3: 0 Min. :207.4 Min. : 40.00 Apartamento:1363
Zona Norte : 288 4:1706 1st Qu.:230.7 1st Qu.: 60.00 Casa : 343
Zona Oeste : 60 5: 0 Median :238.8 Median : 75.00 NA
Zona Oriente: 6 6: 0 Mean :243.7 Mean : 87.63 NA
Zona Sur :1344 NA 3rd Qu.:251.5 3rd Qu.: 98.00 NA
NA NA Max. :309.7 Max. :200.00 NA

Tabla 1: Resumen Estadístico de las Variables de Vivienda

Se puede informar que las zonas presentan una variabilidad considerable en términos de precios y áreas, sugiriendo que tanto la ubicación como el tipo de propiedad juegan un papel crucial en la determinación del valor de las viviendas. Esta diversidad ofrece opciones para diferentes segmentos del mercado, desde apartamentos más accesibles hasta casas más amplias y exclusivas.

Fig 1. Diagrama de precio de vivienda

En el diagrama de precio de la vivienda muestra la dispersión de los precios en millones de COP, destacando que la mediana se encuentra alrededor de los 250 millones de COP. Esto indica que la mitad de las viviendas tienen un precio inferior a este valor y la otra mitad lo supera. La concentración de la mayoría de los precios se ubica entre 235 y 260 millones de COP, reflejando una distribución relativamente simétrica.

Sin embargo, se observan valores atípicos hacia la derecha, con precios que superan los 275 millones de COP, llegando incluso hasta los 300 millones o más. Estos valores indican la presencia de algunas propiedades con precios significativamente más altos, posiblemente debido a factores como la ubicación o características exclusivas.

Fig 2. Diagrama de área construida

En el diagrama de área construida de las viviendas muestra cómo se distribuye el tamaño de las propiedades en metros cuadrados. La mediana, representada por la línea roja dentro de la caja, se encuentra alrededor de los 75 m², lo que indica que la mitad de las viviendas tiene un área menor a este valor y la otra mitad mayor.

El rango intercuartílico, que comprende desde aproximadamente 60 m² hasta 100 m², sugiere que la mayoría de las viviendas tienen un tamaño moderado. La caja del boxplot revela una concentración significativa de viviendas en este rango, lo cual es consistente con la demanda de propiedades de tamaño medio.

Existen varios valores atípicos hacia la derecha, lo que indica la presencia de algunas viviendas con áreas mucho mayores, superando los 150 m² y llegando hasta 200 m². Estos valores atípicos sugieren que, aunque menos comunes, existen viviendas de mayor tamaño en la muestra, posiblemente ubicadas en zonas más exclusivas o destinadas a familias numerosas.

Fig 3. Distribución precio de vivienda

La gráfica de distribución del precio de vivienda revela varios aspectos importantes del mercado. En primer lugar, la distribución muestra una asimetría positiva, lo que indica que la mayoría de las viviendas tienen precios más bajos, mientras que los precios más altos son menos frecuentes. La mayor concentración de viviendas se encuentra entre los 225 y 250 millones de pesos, que representan el rango de precios más común.

Además, se observa que a medida que los precios aumentan más allá de este rango, la cantidad de viviendas disminuye significativamente, lo que sugiere que las viviendas de mayor precio son menos comunes en el mercado. Sin embargo, existen algunas propiedades que superan los 300 millones de pesos, aunque en menor proporción.

Este análisis sugiere que el mercado inmobiliario está predominantemente compuesto por viviendas accesibles, con menos oferta en los rangos de precios elevados, lo que refleja la variabilidad y la distribución general de los precios en el mercado. La gráfica también refleja que los precios por encima de los 260 millones de pesos son menos frecuentes, lo que puede indicar una oferta limitada de viviendas en estos rangos más exclusivos.

Fig 4. Distribución área de la vivienda

La gráfica muestra la distribución del área de las viviendas, destacando que la mayoría de las propiedades tienen tamaños entre 40 y 60 m², con una concentración significativa alrededor de los 50 m², lo que sugiere que predominan las viviendas pequeñas a medianas. La distribución presenta una sesgo a la derecha, indicando que existen viviendas de mayor tamaño, aunque son menos frecuentes. A partir de los 100 m², la cantidad de viviendas disminuye notablemente, mostrando una tendencia hacia áreas más pequeñas. Esta distribución refleja una posible preferencia o necesidad del mercado por viviendas de menor tamaño, probablemente impulsada por factores económicos o urbanísticos que favorecen espacios más reducidos en comparación con viviendas de gran tamaño, las cuales son menos comunes pero aún presentes en la muestra analizada.

2.2 ANÁLISIS EXPLORATORIO BIVARIADO

Fig 5. Relación entre Área Construida y Precio en Millones COP

La gráfica muestra la relación entre el área construida de las viviendas y su precio en millones de COP, diferenciada por zonas de la ciudad. Se observa una tendencia general positiva: a medida que el área construida aumenta, el precio de la vivienda también incrementa, lo que indica una correlación directa entre el tamaño de la vivienda y su valor en el mercado.

Los datos se agrupan en torno a una línea ascendente, lo que refleja que las viviendas más grandes tienden a ser más caras. Sin embargo, existe cierta variabilidad en los precios dentro de las mismas áreas de tamaño, posiblemente influenciada por la ubicación (diferenciada por las zonas: Centro, Norte, Oeste, Oriente y Sur) y otros factores adicionales como la calidad de construcción o el estado del mercado.

Particularmente, las viviendas ubicadas en la Zona Centro y Zona Norte parecen tener precios ligeramente más altos en comparación con otras zonas, sugiriendo un posible efecto de la localización sobre los precios, además del tamaño.

Después de un análisis exhaustivo relacionado con la cantidad de propiedades, descrito en los anexos, se han tomado en consideración las siguientes decisiones:

  • La zona centro no será objeto de trabajo.

  • La zona norte será trabajada.

  • En la zona oeste, solo se llevará a cabo trabajo en relación con los apartamentos.

  • La zona oriente no se considerará para el trabajo.

  • La zona sur será trabajada.

Tipo Correlación Zona
Apartamento 0.8734318 Zona Norte
Casa 0.9324049 Zona Norte
Apartamento 0.8362821 Zona Sur
Casa 0.9442470 Zona Sur

Tabla 2: Correlación entre Área Construida y Precio en Millones por Zona y Tipo

Correlación Positiva Alta: Todos los valores de correlación son positivos y relativamente altos, lo que indica una relación fuerte entre el área construida y el precio en todas las zonas y tipos de propiedades. Esto significa que, en general, a mayor área construida, mayor es el precio.

Comparación entre Zonas:

Zona Norte: Las casas tienen una correlación más alta (0.9324) en comparación con los apartamentos (0.8734), lo que sugiere que el precio de las casas en esta zona está más fuertemente relacionado con el área construida que los apartamentos. Zona Sur: De manera similar, las casas muestran una correlación mayor (0.9442) que los apartamentos (0.8363), lo que también implica que el precio de las casas en esta zona está más influenciado por el área construida. Zonas Comparadas entre Sí:

Apartamentos: Los apartamentos en la Zona Norte tienen una correlación ligeramente mayor (0.8734) que los de la Zona Sur (0.8363), lo que puede indicar que en la Zona Norte el tamaño del apartamento tiene una mayor influencia en el precio que en la Zona Sur. Casas: Las casas en la Zona Sur presentan una correlación más alta (0.9442) que en la Zona Norte (0.9324), lo que implica que en la Zona Sur el tamaño de las casas tiene un impacto aún más fuerte en los precios. Generalización: Las casas tienden a tener una relación más fuerte entre el área construida y el precio en comparación con los apartamentos, tanto en la Zona Norte como en la Zona Sur.

Correlación Zona Tipo
0.8386346 Zona Oeste Apartamento

Tabla 3: Correlación entre Área Construida y Precio en Millones para Apartamentos en la Zona Oeste

Comparación con otras zonas para apartamentos:

La correlación de 0.8386 en la Zona Oeste es bastante cercana a la correlación de los apartamentos en la Zona Sur (0.8363), y algo menor que la correlación de los apartamentos en la Zona Norte (0.8734).

Esto sugiere que el impacto del área construida sobre el precio de los apartamentos en la Zona Oeste es similar al de la Zona Sur, pero ligeramente menor que en la Zona Norte.

Fuerte relación: El valor de 0.8386 sigue indicando una fuerte relación entre el área construida y el precio en la Zona Oeste para apartamentos, lo que significa que, en esta zona, el precio de los apartamentos depende en gran medida del tamaño.

Consistencia: Todas las zonas (Norte, Sur y Oeste) muestran una correlación fuerte para apartamentos, lo que indica que el área construida es un factor importante en la determinación del precio, independientemente de la zona.

2.3 MODELO DE REGRESIÓN LINEAL SIMPLE

2.3.1 Zona Norte

2.3.1.1 Apartamentos

Término Estimación Error Estándar Estadístico t Valor p
(Intercept) 200.6376916 1.4659565 136.86469 0
Área Construida 0.4886514 0.0177712 27.49677 0

Tabla 4: Modelo Lineal para Apartamentos en la Zona Norte

Intercepto:

El valor del intercepto es 200.6376916, lo que indica que, cuando el área construida es 0, el precio estimado es 200.64 millones. Aunque no tiene un significado directo en términos prácticos (ya que un apartamento con área 0 no tiene sentido), es parte de la fórmula del modelo.

Área Construida:

El coeficiente de Área Construida es 0.4886514, lo que significa que por cada unidad adicional de área construida (probablemente metros cuadrados), el precio de un apartamento en la Zona Norte aumentará en 0.488 millones (488,651 pesos o 488.65 miles de pesos).

Errores Estándar:

El error estándar asociado al coeficiente del área construida es 0.0177712, lo que indica que las estimaciones son bastante precisas, dado el pequeño tamaño del error estándar.

Estadístico t:

El valor del estadístico t para el área construida es 27.49677, lo que indica una relación muy fuerte y significativa entre el área construida y el precio.

Valor p:

El valor p es 0 (o prácticamente 0), lo que indica que la relación entre el área construida y el precio es estadísticamente significativa, es decir, no es producto del azar.

2.3.1.2 Casas

Término Estimación Error Estándar Estadístico t Valor p
(Intercept) 192.3380952 4.1714442 46.10827 0
Área Construida 0.5567875 0.0308314 18.05909 0

Tabla 5: Modelo Lineal para Casas en la Zona Norte

Intercepto:

El valor del intercepto es 192.3380952, lo que indica que, cuando el área construida es 0, el precio estimado sería 192.34 millones. Al igual que en el modelo anterior, este valor no tiene un significado práctico directo, pero es importante para la fórmula del modelo.

Área Construida:

El coeficiente de Área Construida es 0.5567875, lo que significa que por cada unidad adicional de área construida, el precio de una casa en la Zona Norte aumentará en 0.556 millones (o 556,787 pesos).

Errores Estándar:

El error estándar del coeficiente para el área construida es 0.0308314, lo que indica una estimación precisa, aunque es algo más alto en comparación con el modelo de apartamentos.

Estadístico t:

El valor del estadístico t es 18.05909, lo que sigue indicando una relación muy fuerte entre el área construida y el precio, aunque este valor es menor que el del modelo para apartamentos.

Valor p:

El valor p es 0, lo que indica que la relación entre el área construida y el precio es estadísticamente significativa, es decir, no es un resultado debido al azar.

2.3.2 Zona Oeste

2.3.2.1 Apartamentos

Término Estimación Error Estándar Estadístico t Valor p
(Intercept) 203.7899418 3.415266 59.67031 0
Área Construida 0.4695195 0.043127 10.88692 0

Tabla 6: Modelo Lineal para Apartamentos en la Zona Oeste

Intercepto:

El valor del intercepto es 203.7899418, lo que significa que, cuando el área construida es 0, el precio estimado es 203.79 millones. Al igual que en los modelos anteriores, este valor no tiene un significado directo en la realidad práctica, pero es parte de la ecuación del modelo.

Área Construida:

El coeficiente de Área Construida es 0.4695195, lo que indica que por cada unidad adicional de área construida, el precio de un apartamento en la Zona Oeste aumentará en 0.469 millones (469,519 pesos).

Errores Estándar:

El error estándar del coeficiente para el área construida es 0.043127, lo que refleja una estimación razonablemente precisa, aunque este error estándar es mayor que el de los modelos de otras zonas.

Estadístico t:

El valor del estadístico t para el área construida es 10.88692, lo que indica una relación significativa y fuerte entre el área construida y el precio, aunque este valor es menor que en los modelos para la Zona Norte.

Valor p:

El valor p es 0, lo que indica que la relación entre el área construida y el precio es estadísticamente significativa, es decir, no es producto del azar.

2.3.3 Zona Sur

2.3.3.1 Apartamentos

Término Estimación Error Estándar Estadístico t Valor p
(Intercept) 199.729685 0.7840423 254.74350 0
Área Construida 0.502293 0.0101008 49.72808 0

Tabla 7: Modelo Lineal para Apartamentos en la Zona Sur

Intercepto:

El intercepto tiene un valor de 199.729685, lo que indica que, cuando el área construida es 0, el precio estimado es 199.73 millones. Este valor, aunque no tiene un significado directo en la realidad práctica, es parte del modelo para ajustar la relación entre el área y el precio.

Área Construida:

El coeficiente de Área Construida es 0.502293, lo que indica que por cada unidad adicional de área construida, el precio de un apartamento en la Zona Sur aumentará en 0.502 millones (502,293 pesos).

Errores Estándar:

El error estándar asociado al coeficiente del área construida es muy bajo, con un valor de 0.0101008, lo que indica que las estimaciones son extremadamente precisas en este modelo.

Estadístico t:

El valor del estadístico t para el área construida es 49.72808, lo que muestra una relación muy fuerte entre el área construida y el precio. Este estadístico es el mayor que hemos visto hasta ahora en comparación con las otras zonas. Valor p:

El valor p es 0, lo que indica que la relación entre el área construida y el precio es estadísticamente significativa.

2.3.3.2 Casas

Término Estimación Error Estándar Estadístico t Valor p
(Intercept) 198.9172012 1.5173215 131.09759 0
Área Construida 0.5056278 0.0105929 47.73268 0

Tabla 8: Modelo Lineal para Apartamentos en la Zona Sur

Intercepto:

El intercepto tiene un valor de 198.9172012, lo que indica que, cuando el área construida es 0, el precio estimado sería 198.92 millones. Como en los otros modelos, este valor no tiene un significado práctico directo, pero es un componente clave en la ecuación del modelo.

Área Construida:

El coeficiente de Área Construida es 0.5056278, lo que implica que por cada unidad adicional de área construida, el precio de un apartamento en la Zona Sur aumenta en 0.505 millones (505,627 pesos). Este valor es muy similar al que vimos en la tabla anterior de la misma zona.

Errores Estándar:

El error estándar del coeficiente del área construida es extremadamente bajo, 0.0105929, lo que sugiere que la estimación es precisa y confiable.

Estadístico t:

El estadístico t para el área construida es 47.73268, lo que indica una relación extremadamente fuerte y significativa entre el área construida y el precio.

Valor p:

El valor p es 0, lo que indica que esta relación es altamente significativa y no es producto del azar.

2.4 INDICADOR DE R² Y ESTADÍSTICA F

2.4.1 Zona Norte

2.4.1.1 Apartamentos

Indicador Valor
0.762883
R² Ajustado 0.761874
Estadística F 756.073

Tabla 9: Métricas del Modelo para Apartamentos en la Zona Norte

R² (0.762883):

Este valor indica que el 76.29% de la variabilidad en el precio de los apartamentos en la Zona Norte puede explicarse por el área construida. Es un valor alto, lo que sugiere que el modelo lineal está capturando una parte significativa de la relación entre estas dos variables.

R² Ajustado (0.761874):

El valor de R² ajustado es 0.761874, lo que significa que, al ajustar por el número de predictores en el modelo, todavía se explica aproximadamente el 76.19% de la variabilidad. Este valor es muy cercano al R², lo que indica que la inclusión del área construida como único predictor es adecuada para este modelo.

Estadística F (756.073):

El valor de la Estadística F es 756.073, lo cual es muy alto y sugiere que el modelo es altamente significativo. Esta métrica mide la relación entre la variabilidad explicada por el modelo y la variabilidad no explicada, y un valor alto indica que el modelo es mucho mejor que un modelo sin predictores.

2.4.1.2 Casas

Indicador Valor
0.869379
R² Ajustado 0.866713
Estadística F 326.131

Tabla 10: Métricas del Modelo para Casas en la Zona Norte

R² (0.869379):

El valor de R² indica que el 86.94% de la variabilidad en el precio de las casas en la Zona Norte puede ser explicado por el área construida. Este es un valor bastante alto, lo que sugiere que el modelo tiene un buen ajuste y que el área construida es un fuerte predictor del precio.

R² Ajustado (0.866713):

El R² ajustado es 0.866713, lo que significa que, al ajustar por el número de variables en el modelo, todavía se explica aproximadamente el 86.67% de la variabilidad en el precio. La pequeña diferencia entre el R² y el R² ajustado indica que el modelo sigue siendo robusto con solo una variable (área construida).

Estadística F (326.131):

La Estadística F es 326.131, lo que indica una alta significancia estadística del modelo. Este valor tan elevado sugiere que el área construida es un predictor muy relevante para explicar las diferencias de precio de las casas en esta zona, y que el modelo es mejor que uno sin predictores.

2.4.2 Zona Oeste

2.4.2.1 Apartamentos

Indicador Valor
0.703308
R² Ajustado 0.697374
Estadística F 118.525

Tabla 11: Métricas del Modelo para Apartamentos en la Zona Oeste

R² (0.703308):

El valor de R² indica que el 70.33% de la variabilidad en el precio de los apartamentos en la Zona Oeste puede explicarse por el área construida. Aunque es un valor menor que en la Zona Norte, sigue siendo un valor bastante aceptable, lo que sugiere que el modelo captura de manera razonable la relación entre el área construida y el precio.

R² Ajustado (0.697374):

El valor del R² ajustado es 0.697374, lo que muestra que, incluso ajustando por el número de predictores (en este caso, solo el área construida), el modelo sigue explicando aproximadamente el 69.74% de la variabilidad. La diferencia con el R² es pequeña, lo que indica que el ajuste es sólido.

Estadística F (118.525):

La Estadística F es 118.525, lo que indica una alta significancia del modelo. Aunque es menor que los valores en las otras zonas, sigue siendo lo suficientemente alta como para concluir que el modelo es significativo y que el área construida es un factor relevante para explicar el precio de los apartamentos en la Zona Oeste.

2.4.3 Zona Sur

2.4.3.1 Apartamentos

Indicador Valor
0.699368
R² Ajustado 0.699085
Estadística F 2472.88

Tabla 12: Métricas del Modelo para Apartamentos en la Zona Sur

R² (0.699368):

El valor de R² indica que el 69.94% de la variabilidad en el precio de los apartamentos en la Zona Sur puede ser explicada por el área construida. Este valor es similar al de la Zona Oeste, lo que indica que el área construida tiene una influencia significativa pero no total sobre el precio en esta zona.

R² Ajustado (0.699085):

El R² ajustado es 0.699085, lo que muestra que, incluso ajustando por el número de predictores, el modelo sigue explicando el 69.91% de la variabilidad en los precios. La diferencia mínima entre el R² y el R² ajustado sugiere que el modelo es sólido.

Estadística F (2472.88):

La estadística F es 2472.88, un valor extremadamente alto, lo que indica que el modelo es altamente significativo. Esto sugiere que la relación entre el área construida y el precio es muy relevante en esta zona, aunque el R² sea menor que en la Zona Norte.

2.4.3.2 Casas

Indicador Valor
0.891602
R² Ajustado 0.891211
Estadística F 2278.41

Tabla 13: Métricas del Modelo para Casa en la Zona Sur

R² (0.891602):

El valor de R² indica que el 89.16% de la variabilidad en el precio de las casas en la Zona Sur puede explicarse por el área construida. Este es un valor muy alto, lo que sugiere que el área construida tiene una influencia muy fuerte en el precio de las casas en esta zona.

R² Ajustado (0.891211):

El valor de R² ajustado es 0.891211, lo que implica que, incluso ajustando por el número de predictores, el modelo sigue explicando el 89.12% de la variabilidad en los precios. La pequeña diferencia entre el R² y el R² ajustado indica que el modelo es muy estable y sólido.

Estadística F (2278.41):

El valor de la Estadística F es 2278.41, lo que sugiere una alta significancia del modelo. Este valor tan elevado indica que el área construida es un predictor extremadamente importante para determinar el precio de las casas en la Zona Sur.

2.5 PRECIO ESTIMADO PARA UN APARTAMENTO DE 110 m², OFERTA Y CONSIDERACIONES

¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.

Zona Precio Estimado (millones) Oferta (millones) Diferencia (millones) Oferta Atractiva
Zona Norte 254.39 200 54.39
Zona Oeste 255.44 200 55.44
Zona Sur 254.98 200 54.98

Tabla 14: Comparación de Precios Estimados y Oferta de Apartamentos de 110 m² en Diferentes Zonas

2.6 MODELO DE REGRESIÓN LINEAL SIMPLE

2.6.1 Zona norte

2.6.1.1 Apartamentos

Fig 6. Gráficos para la Zona Norte: Apartamentos

Gráfico de Residuos vs. Valores Ajustados

En este caso, la dispersión de los puntos parece estar distribuida de manera aleatoria alrededor del eje horizontal (cero), lo cual sugiere que no hay una violación evidente del supuesto de homocedasticidad.

Histograma de Residuos

Idealmente, los residuos deberían seguir una distribución normal. En este gráfico, la distribución parece relativamente simétrica, lo cual es una buena señal de normalidad de los residuos.

Gráfico Q-Q (Quantile-Quantile)

En este caso, la mayoría de los puntos se alinean bien con la línea diagonal, lo que indica que los residuos tienen una distribución cercana a la normal.

Gráfico de Precio Real vs Ajustado

Una línea cercana a la identidad (línea diagonal) sugiere que el modelo predice bien los valores. En este gráfico, hay una buena alineación, lo cual indica que el modelo está funcionando adecuadamente en términos de predicciones.

Prueba Tipo de Prueba p-valor
Normalidad Shapiro-Wilk 0.6873103
Homoscedasticidad Breusch-Pagan 0.5752994
Independencia Durbin-Watson 0.8776889

Tabla 15: Resultados de los Supuestos del Modelo para Apartamentos de la Zona Norte

p-valor Normalidad: El valor de 0.687 indica que no se puede rechazar la hipótesis nula de normalidad de los residuos, lo cual es una buena señal.

p-valor Homocedasticidad: El valor de 0.575 sugiere que no hay evidencia suficiente para rechazar la homocedasticidad, es decir, la varianza de los errores parece ser constante.

p-valor Independencia: El valor de 0.877 indica que no hay problemas de autocorrelación en los residuos, lo que significa que los errores son independientes entre sí.

Fig 7. Gráficos para la Zona Norte: Casas

Gráfico de Residuos vs. Valores Ajustados

Los residuos parecen estar distribuidos de manera más dispersa en ciertas áreas, lo que podría indicar una ligera heterocedasticidad (es decir, varianza no constante), aunque no es extremadamente grave.

Histograma de Residuos

El histograma muestra que la distribución de los residuos es aproximadamente simétrica, lo cual es un buen indicio de normalidad. Sin embargo, se observa una ligera asimetría hacia la izquierda, pero no es muy pronunciada.

Gráfico Q-Q (Quantile-Quantile)

Este gráfico nos muestra que la mayoría de los puntos siguen la línea diagonal, lo que sugiere que los residuos se distribuyen de manera cercana a una distribución normal. Aunque hay algunos puntos que se desvían ligeramente en los extremos, en general, la normalidad de los residuos es aceptable.

Gráfico de Precio Real vs Ajustado

En este gráfico, la relación entre los valores ajustados y los valores reales parece ser bastante lineal, lo cual indica que el modelo se ajusta razonablemente bien a los datos observados.

Prueba Tipo de Prueba p-valor
Normalidad Shapiro-Wilk 0.7410327
Homoscedasticidad Breusch-Pagan 0.7231250
Independencia Durbin-Watson 0.3279019

Tabla 16: Resultados de los Supuestos del Modelo para Casas de la Zona Norte

p-valor Normalidad: El valor de 0.741 indica que no se puede rechazar la hipótesis nula de normalidad de los residuos, lo cual es una buena señal.

p-valor Homocedasticidad: Con un valor de 0.723, no hay evidencia suficiente para rechazar la homocedasticidad, sugiriendo que la varianza de los errores es relativamente constante.

p-valor Independencia: El valor de 0.327 indica una posible preocupación, ya que es relativamente bajo en comparación con el modelo anterior, lo que podría sugerir alguna autocorrelación leve en los residuos. Sin embargo, no es concluyente de un problema grave.

2.6.2 Zona Oeste

2.6.2.1 Apartamentos

Fig 8. Gráficos para la Zona Oeste: Apartamentos

Gráfico de Residuos vs. Valores Ajustados

Este gráfico indica una posible presencia de heterocedasticidad, ya que la dispersión de los residuos no es completamente aleatoria y muestra cierta tendencia en el eje horizontal. Específicamente, hay una tendencia a dispersarse más hacia valores más altos, lo cual podría ser un indicio de varianza no constante en los residuos.

Histograma de Residuos

El histograma muestra una distribución que parece estar sesgada hacia la derecha, lo cual sugiere que la normalidad de los residuos podría estar comprometida. La asimetría en la distribución indica que los residuos no siguen perfectamente una distribución normal.

Gráfico Q-Q (Quantile-Quantile)

El gráfico Q-Q muestra una desviación considerable en los extremos, con varios puntos alejándose de la línea diagonal. Esto es una clara señal de que los residuos no se ajustan bien a una distribución normal, lo cual podría afectar la validez de los resultados del modelo.

Gráfico de Precio Real vs Ajustado

La relación entre los valores ajustados y los valores reales no es tan lineal como en los modelos anteriores. Se observa una mayor dispersión de los puntos alrededor de la línea de identidad, lo que sugiere que el modelo no está ajustando de manera tan precisa los valores reales.

Prueba Tipo de Prueba p-valor
Normalidad Shapiro-Wilk 0.1121397
Homoscedasticidad Breusch-Pagan 0.4666445
Independencia Durbin-Watson 0.2284972

Tabla 17: Resultados de los Supuestos del Modelo para Apartamentos de la Zona Oeste

p-valor Normalidad: El valor de 0.112 sugiere que podríamos rechazar la hipótesis nula de normalidad a niveles de significancia más bajos (como 0.05), lo que indica que los residuos podrían no ser normales.

p-valor Homocedasticidad: El valor de 0.466 indica que no hay evidencia fuerte para rechazar la homocedasticidad, aunque, como se observa en el gráfico de residuos, hay indicios de cierta heterocedasticidad.

p-valor Independencia: El valor de 0.228 es bajo en comparación con los modelos anteriores, lo que sugiere que podría haber una autocorrelación en los residuos.

2.6.3 Zona Sur

2.6.3.1 Apartamentos

Fig 9. Gráficos para la Zona Sur: Apartamentos

Gráfico de Residuos vs. Valores Ajustados

El gráfico muestra una dispersión relativamente homogénea de los residuos en torno a la línea horizontal, lo que sugiere que la varianza de los residuos es constante, cumpliendo el supuesto de homocedasticidad. Sin embargo, hay una ligera acumulación de puntos en ciertas áreas, pero no es lo suficientemente significativa como para indicar problemas graves de heterocedasticidad.

Histograma de Residuos

La distribución de los residuos es bastante simétrica y muestra una forma que se aproxima a la campana de una distribución normal. Este es un buen indicio de que los residuos del modelo pueden estar distribuidos normalmente.

Gráfico Q-Q (Quantile-Quantile)

La mayoría de los puntos se alinean bien con la línea diagonal, lo cual es una indicación positiva de que los residuos siguen una distribución normal. Este es uno de los mejores gráficos Q-Q de los que hemos analizado hasta ahora, lo que refuerza la idea de la normalidad de los residuos.

Gráfico de Precio Real vs Ajustado

Este gráfico muestra una fuerte alineación entre los valores ajustados y los valores reales, lo que sugiere que el modelo predice bastante bien los precios de los apartamentos. La tendencia lineal es clara, lo cual indica un buen ajuste del modelo.

Prueba Tipo de Prueba p-valor
Normalidad Shapiro-Wilk 0.7480527
Homoscedasticidad Breusch-Pagan 0.5992836
Independencia Durbin-Watson 0.5208838

Tabla 18: Resultados de los Supuestos del Modelo para Apartamentos de la Zona Sur

p-valor Normalidad: El valor de 0.748 indica que no se puede rechazar la hipótesis nula de normalidad de los residuos, lo que respalda la evidencia de normalidad observada en el gráfico Q-Q.

p-valor Homocedasticidad: El valor de 0.599 sugiere que no hay evidencia suficiente para rechazar la homocedasticidad, lo cual es una buena señal de que la varianza de los errores es constante.

p-valor Independencia: Con un valor de 0.520, no hay indicios fuertes de autocorrelación en los residuos, lo que indica que los errores son independientes entre sí.

2.6.3.2 Casas

Fig 10. Gráficos para la Zona Sur: Casas

Gráfico de Residuos vs. Valores Ajustados

En este gráfico, la dispersión de los residuos es relativamente homogénea alrededor de la línea horizontal, aunque hay ciertas áreas con una mayor concentración de puntos. Esto sugiere que, en general, la varianza de los residuos es constante, cumpliendo el supuesto de homocedasticidad, aunque no de manera perfecta.

Histograma de Residuos

El histograma muestra una distribución que es casi simétrica y con una forma que se asemeja a la de una campana, lo cual es un buen indicio de normalidad en los residuos. La simetría es bastante aceptable, lo que sugiere que los residuos están cerca de seguir una distribución normal.

Gráfico Q-Q (Quantile-Quantile)

El gráfico Q-Q muestra que la mayoría de los puntos están alineados a lo largo de la línea diagonal, lo cual indica que los residuos se distribuyen aproximadamente de forma normal. Aunque hay algunas desviaciones menores en los extremos, la tendencia general es bastante buena y consistente con la normalidad.

Gráfico de Precio Real vs Ajustado

El gráfico muestra una buena alineación entre los valores ajustados y los valores reales, lo que indica que el modelo predice de manera razonablemente precisa los precios. La tendencia lineal es clara, lo cual es una señal de que el modelo se ajusta bien a los datos.

Prueba Tipo de Prueba p-valor
Normalidad Shapiro-Wilk 0.6074066
Homoscedasticidad Breusch-Pagan 0.3929732
Independencia Durbin-Watson 0.8374248

Tabla 19: Resultados de los Supuestos del Modelo para Casas de la Zona Sur

p-valor Normalidad: El valor de 0.607 indica que no se puede rechazar la hipótesis nula de normalidad de los residuos, lo cual es positivo y consistente con lo observado en el gráfico Q-Q.

p-valor Homocedasticidad: El valor de 0.392 sugiere que no hay evidencia suficiente para rechazar la homocedasticidad, aunque el valor es más bajo que en otros modelos, lo que indica que podría existir una ligera heterocedasticidad.

p-valor Independencia: El valor de 0.837 es alto, lo que indica que no hay problemas de autocorrelación en los residuos, lo cual es una excelente señal de independencia de los errores.

2.7 TRANSFORMACIÓN Y COMPARACIÓN APROPIADA PARA MEJORAR EL AJUSTE Y SUPUESTOS DEL MODELO

2.7.1 Zona Norte

2.7.1.1 Apartamentos

Modelo R² Ajustado Mejor R²
Lin-Lin 0.7618742 Mejor
Log-Log 0.7193606
Log-Lin 0.7411215
Lin-Log 0.7283072
Modelo Shapiro-Wilk (Normalidad) Breusch-Pagan (Homoscedasticidad) Durbin-Watson (Independencia) Suma de p-valores Mejor Modelo
BP Lin-Lin 0.6873103 0.5752994 0.8776889 2.140299
BP1 Log-Log 0.8848674 0.9354657 0.5073191 2.327652 Mejor
BP2 Log-Lin 0.6864094 0.1609221 0.9133661 1.760698
BP3 Lin-Log 0.8330113 0.0828820 0.3612452 1.277138

Tabla 20: Comparación de Modelos de Regresión para Apartamentos en la Zona Norte

Ajuste del Modelo (R² ajustado)

La tabla muestra los resultados del R² ajustado para cuatro modelos de regresión distintos:

Lin-Lin: 0.7618 (marcado como el mejor modelo)

Interpretación:

El modelo Lin-Lin tiene el mejor ajustado (0.7618), lo que indica que este modelo explica mejor la variabilidad de los datos en comparación con los otros modelos. Los otros modelos (Log-Log, Log-Lin, y Lin-Log) tienen un ajuste ligeramente inferior, lo que sugiere que la transformación logarítmica no mejora significativamente el ajuste en este caso específico.

Análisis de Supuestos Estadísticos

La segunda tabla analiza los supuestos de los residuos de los modelos utilizando tres pruebas estadísticas:

Lin-Lin: Aunque no destaca en todas las pruebas, el modelo Lin-Lin cumple razonablemente con los supuestos estadísticos, ya que no se observa un problema claro de violación de los supuestos.

Log-Log: (marcado como el mejor modelo) Este modelo destaca en la suma de p-valores, indicando un buen cumplimiento de los supuestos estadísticos, lo que lo posiciona como una opción sólida desde el punto de vista de la validez del modelo.

Log-Lin: Este modelo muestra una menor adecuación en la prueba de homocedasticidad, lo que sugiere posibles problemas de heterocedasticidad en los residuos.

Lin-Log: El modelo Lin-Log también presenta dificultades con la homocedasticidad, lo que podría afectar la validez de las inferencias.

2.7.1.2 Casas

Modelo R² Ajustado Mejor R²
Lin-Lin 0.8667131 Mejor
Log-Log 0.8642308
Log-Lin 0.8606890
Lin-Log 0.8595484
Modelo Shapiro-Wilk (Normalidad) Breusch-Pagan (Homoscedasticidad) Durbin-Watson (Independencia) Suma de p-valores Mejor Modelo
BP Lin-Lin 0.7410327 0.7231250 0.3279019 1.792060
BP1 Log-Log 0.6684120 0.5515724 0.3709868 1.590971
BP2 Log-Lin 0.9178380 0.6055475 0.3056312 1.829017 Mejor
BP3 Lin-Log 0.7150461 0.6841266 0.3536195 1.752792

Tabla 21: Comparación de Modelos de Regresión para Casas en la Zona Norte

Ajuste del Modelo (R² ajustado)

Lin-Lin: 0.8667 (marcado como el mejor modelo)

Interpretación:

El modelo Lin-Lin tiene el mejor R² ajustado (0.8667), lo que indica que este modelo explica mejor la variabilidad de los datos en comparación con los otros modelos. Los otros modelos (Log-Log, Log-Lin y Lin-Log) tienen un ajuste ligeramente inferior, lo que sugiere que, en este caso, las transformaciones logarítmicas no mejoran significativamente el ajuste.

Análisis de Supuestos Estadísticos

Lin-Lin: Aunque cumple razonablemente con los supuestos estadísticos, muestra un p-valor algo bajo para la independencia, lo que podría indicar una ligera autocorrelación.

Log-Log: Este modelo presenta una menor adecuación en las pruebas de normalidad y homocedasticidad en comparación con otros modelos.

Log-Lin: (marcado como el mejor modelo) Este modelo es el que mejor cumple con los supuestos estadísticos, ya que tiene la mayor suma de p-valores, lo que indica una mayor validez del modelo en términos de normalidad, homocedasticidad e independencia.

Lin-Log: Aunque presenta un buen cumplimiento de los supuestos estadísticos, no es el mejor modelo en comparación con el Log-Lin.

2.7.2 Zona Oeste

2.7.2.1 Apartamentos

Modelo R² Ajustado Mejor R²
Lin-Lin 0.6973742
Log-Log 0.6980788
Log-Lin 0.6814716
Lin-Log 0.7089091 Mejor
Modelo Shapiro-Wilk (Normalidad) Breusch-Pagan (Homoscedasticidad) Durbin-Watson (Independencia) Suma de p-valores Mejor Modelo
BP Lin-Lin 0.1121397 0.4666445 0.2284972 0.8072814
BP1 Log-Log 0.4457689 0.3850490 0.2756333 1.1064512
BP2 Log-Lin 0.1746677 0.2998435 0.2091792 0.6836904
BP3 Lin-Log 0.3971320 0.6398576 0.2948226 1.3318122 Mejor

Tabla 22: Modelos para Apartamentos en la Zona Oeste

Ajuste del Modelo (R² ajustado)

Lin-Log: 0.7089 (marcado como el mejor modelo)

Interpretación:

El modelo Lin-Log tiene el mejor R² ajustado, lo que indica que este modelo explica mejor la variabilidad de los datos en comparación con los otros modelos. Los otros modelos (Lin-Lin, Log-Log, y Log-Lin) tienen un ajuste ligeramente inferior, lo que sugiere que, en este caso, las transformaciones logarítmicas en una de las variables mejoran el ajuste del modelo.

Análisis de Supuestos Estadísticos

Lin-Lin: Aunque cumple razonablemente con los supuestos estadísticos, muestra un problema significativo con la normalidad de los residuos, lo cual es indicado por el bajo p-valor en la prueba de Shapiro-Wilk.

Log-Log: Este modelo muestra una menor adecuación en las pruebas de normalidad y homocedasticidad en comparación con otros modelos.

Log-Lin: Este modelo también tiene problemas de normalidad y muestra el menor ajuste a los supuestos en comparación con los otros modelos.

Lin-Log (marcado como el mejor modelo): Este modelo es el que mejor cumple con los supuestos estadísticos, ya que tiene la mayor suma de p-valores, lo que indica una mayor validez del modelo en términos de normalidad, homocedasticidad e independencia.

2.7.3 Zona Sur

2.7.3.1 Apartamentos

Modelo R² Ajustado Mejor R²
Lin-Lin 0.6990849 Mejor
Log-Log 0.6552380
Log-Lin 0.6780833
Lin-Log 0.6630689
Modelo Shapiro-Wilk (Normalidad) Breusch-Pagan (Homoscedasticidad) Durbin-Watson (Independencia) Suma de p-valores Mejor Modelo
BP Lin-Lin 0.7480527 0.5992836 0.5208838 1.868220 Mejor
BP1 Log-Log 0.3949041 0.9965592 0.2142956 1.605759
BP2 Log-Lin 0.7531938 0.0448004 0.5297935 1.327788
BP3 Lin-Log 0.0361157 0.0001958 0.1415336 0.177845

Tabla 23: Modelos para Apartamentos en la Zona Sur

Ajuste del Modelo (R² ajustado)

Lin-Lin: 0.6991 (marcado como el mejor modelo)

Interpretación:

El modelo Lin-Lin tiene el mejor R² ajustado, lo que indica que este modelo explica mejor la variabilidad de los datos en comparación con los otros modelos. Los otros modelos (Log-Log, Log-Lin y Lin-Log) tienen un ajuste inferior, lo que sugiere que, en este caso, las transformaciones logarítmicas no mejoran significativamente el ajuste.

Análisis de Supuestos Estadísticos

Lin-Lin (marcado como el mejor modelo): Este modelo cumple razonablemente con los supuestos estadísticos, con una suma de p-valores más alta, lo que indica un mejor ajuste a los supuestos de normalidad, homocedasticidad e independencia.

Log-Log: Este modelo muestra una menor adecuación en la prueba de normalidad y homocedasticidad en comparación con otros modelos, lo que puede indicar problemas en el ajuste de los residuos.

Log-Lin: Este modelo presenta dificultades significativas con la homocedasticidad, lo que sugiere que la variabilidad de los residuos no es constante.

Lin-Log: Este modelo muestra problemas con todos los supuestos estadísticos, especialmente con la normalidad, lo que lo hace menos adecuado en comparación con los otros modelos.

2.7.3.2 Casas

Modelo R² Ajustado Mejor R²
Lin-Lin 0.8912111 Mejor
Log-Log 0.8766214
Log-Lin 0.8885505
Lin-Log 0.8694587
Modelo Shapiro-Wilk (Normalidad) Breusch-Pagan (Homoscedasticidad) Durbin-Watson (Independencia) Suma de p-valores Mejor Modelo
BP Lin-Lin 0.6074066 0.3929732 0.8374248 1.837805 Mejor
BP1 Log-Log 0.5988243 0.0053738 0.6815328 1.285731
BP2 Log-Lin 0.4325852 0.0171556 0.8561174 1.305858
BP3 Lin-Log 0.5666842 0.0711251 0.6525953 1.290405

Tabla 24: Modelos para Casas en la Zona Sur

Ajuste del Modelo (R² ajustado)

Lin-Lin: 0.8911 (marcado como el mejor modelo)

Interpretación:

El modelo Lin-Lin tiene el mejor ajustado, lo que indica que este modelo explica mejor la variabilidad de los datos en comparación con los otros modelos. Los otros modelos (Log-Log, Log-Lin y Lin-Log) tienen un ajuste ligeramente inferior, lo que sugiere que, en este caso, las transformaciones logarítmicas no mejoran significativamente el ajuste.

Análisis de Supuestos Estadísticos

Lin-Lin (marcado como el mejor modelo): Este modelo es el que mejor cumple con los supuestos estadísticos, mostrando una buena adecuación en términos de normalidad, homocedasticidad e independencia, lo que lo convierte en una opción sólida.

Log-Log: Este modelo muestra problemas significativos con la homocedasticidad, lo que indica que la variabilidad de los residuos no es constante, afectando la validez del modelo.

Log-Lin: Aunque cumple razonablemente con los supuestos, su desempeño es inferior en comparación con el modelo Lin-Lin, especialmente en la prueba de homocedasticidad.

Lin-Log: Este modelo también presenta dificultades con la homocedasticidad y no supera al modelo Lin-Lin en términos de cumplimiento de los supuestos estadísticos.

2.8 COMPARACIÓN DE MODELOS

2.8.1 Zona Norte

2.8.1.1 Apartamentos

Modelo Término Estimación Error Estándar Estadístico t Valor p
(Intercept) Lin-Lin (Intercept) 200.6377 1.4660 136.8647 0.0000
Área Construida Lin-Lin Área Construida 0.4887 0.0178 27.4968 0.0000
(Intercept)1 Log-Log (Intercept) 4.6912 0.0319 147.0231 0.0000
log(Área Construida) Log-Log log(Área Construida) 0.1812 0.0074 24.6158 0.0000
(Intercept)2 Log-Lin (Intercept) 5.3221 0.0062 862.6026 0.0000
Área Construida1 Log-Lin Área Construida 0.0019 0.0001 26.0120 0.0000
(Intercept)3 Lin-Log (Intercept) 43.6570 7.7777 5.6131 0.0000
log(Área Construida)1 Lin-Log log(Área Construida) 45.1664 1.7943 25.1720 0.0000

Tabla 25: Comparación de modelos para Apartamentos en la Zona Norte

Comparación de Modelos de Regresión para Apartamentos en la Zona Norte

Ecuación del Modelo Lin-Lin

Esta es una ecuación de regresión lineal directa que indica una relación positiva entre el área construida y el precio del apartamento, con un intercepto de 200.6377.

Ecuación del Modelo Log-Log

El modelo Log-Log se interpreta como una relación elástica. Un cambio porcentual en el área construida resulta en un cambio porcentual proporcional en el precio. Este tipo de modelo es útil para identificar relaciones no lineales de escala.

Ecuación del Modelo Lin-Lin

Precio Millones = 200.6377 + 0.4887 × Área Construida

Ecuación del Modelo Log-Log

log(Precio Millones) = 4.6912 + 0.1812 × log(Área Construida)

Forma Exponencial del Modelo Log-Log:

Precio Millones = exp(4.6912) × (Área Construida)0.1812

Mejor Modelo en términos de Ajuste y Supuestos: Los modelos Lin-Lin y Log-Log son las mejores opciones, según se destaca en la tabla y las ecuaciones presentadas.

Lin-Lin: Proporciona una relación directa y fácil de interpretar entre el área construida y el precio.

Log-Log: Ofrece una perspectiva diferente basada en elasticidades, útil para análisis en escalas logarítmicas.

2.8.1.2 Casas

Modelo Término Estimación Error Estándar Estadístico t Valor p
(Intercept) Lin-Lin (Intercept) 192.3381 4.1714 46.1083 0.0000
Área Construida Lin-Lin Área Construida 0.5568 0.0308 18.0591 0.0000
(Intercept)1 Log-Log (Intercept) 4.2964 0.0717 59.9048 0.0000
log(Área Construida) Log-Log log(Área Construida) 0.2650 0.0148 17.8682 0.0000
(Intercept)2 Log-Lin (Intercept) 5.3021 0.0161 328.4094 0.0000
Área Construida1 Log-Lin Área Construida 0.0021 0.0001 17.6042 0.0000
(Intercept)3 Lin-Log (Intercept) -72.1778 19.2690 -3.7458 0.0005
log(Área Construida)1 Lin-Log log(Área Construida) 69.8126 3.9845 17.5213 0.0000

Tabla 26: Comparación de modelos para Casas en la Zona Norte

Ecuación del Modelo Lin-Lin:

Esta ecuación representa una relación lineal directa, donde el precio en millones incrementa de forma constante con el aumento del área construida.

Ecuación del Modelo Log-Lin:

Este modelo implica una relación exponencial entre el área construida y el precio, lo que sugiere que el precio aumenta de manera exponencial a medida que crece el área construida.

Ecuación del Modelo Lin-Lin

Precio Millones = 192.3381 + 0.5568 × Área Construida

Ecuación del Modelo Log-Lin

log(Precio Millones) = 5.3021 + 0.0021 × Área Construida

Forma Exponencial del Modelo Log-Lin:

Precio Millones = exp(5.3021) × exp(0.0021 × Área Construida)

Mejor Modelo Identificado: Ambos modelos, Lin-Lin y Log-Lin, ofrecen buenas interpretaciones para diferentes enfoques del análisis:

Lin-Lin es ideal para relaciones lineales directas y es fácil de interpretar.

Log-Lin es útil cuando se busca analizar la relación en términos de cambios porcentuales o exponenciales.

2.8.2 Zona Oeste

2.8.2.1 Apartamentos

Modelo Término Estimación Error Estándar Estadístico t Valor p
(Intercept) Lin-Lin (Intercept) 203.7899 3.4153 59.6703 0.0000
Área Construida Lin-Lin Área Construida 0.4695 0.0431 10.8869 0.0000
(Intercept)1 Log-Log (Intercept) 4.7691 0.0648 73.5478 0.0000
log(Área Construida) Log-Log log(Área Construida) 0.1653 0.0152 10.9050 0.0000
(Intercept)2 Log-Lin (Intercept) 5.3307 0.0145 367.9618 0.0000
Área Construida1 Log-Lin Área Construida 0.0019 0.0002 10.4934 0.0000
(Intercept)3 Lin-Log (Intercept) 67.0670 15.3991 4.3552 0.0001
log(Área Construida)1 Lin-Log log(Área Construida) 40.2908 3.6008 11.1894 0.0000

Tabla 27: Comparación de modelos para Apartamentos en la Zona Oeste

Ecuación del Modelo Lin-Log

Esta ecuación del modelo Lin-Log indica una relación logarítmica entre el área construida y el precio de los apartamentos. La forma logarítmica sugiere que un incremento en el área construida tiene un impacto decreciente en el precio, capturando mejor las relaciones no lineales.

Ecuación del Modelo Lin-Log

Precio Millones = 67.0670 + 40.2908 × log(Área Construida)

Mejor Modelo Identificado: El modelo Lin-Log es el mejor modelo para apartamentos en la Zona Oeste, según el análisis de ajuste y los supuestos estadísticos.

El modelo Lin-Log se destaca por su capacidad para manejar relaciones no lineales y proporciona una mejor interpretación económica en términos de cambios porcentuales.

2.8.3 Zona Sur

2.8.3.1 Apartamentos

Modelo Término Estimación Error Estándar Estadístico t Valor p
(Intercept) Lin-Lin (Intercept) 199.7297 0.7840 254.7435 0.0000
Área Construida Lin-Lin Área Construida 0.5023 0.0101 49.7281 0.0000
(Intercept)1 Log-Log (Intercept) 4.7290 0.0164 287.6033 0.0000
log(Área Construida) Log-Log log(Área Construida) 0.1726 0.0038 44.9799 0.0000
(Intercept)2 Log-Lin (Intercept) 5.3162 0.0033 1599.8157 0.0000
Área Construida1 Log-Lin Área Construida 0.0020 0.0000 47.3519 0.0000
(Intercept)3 Lin-Log (Intercept) 55.9267 3.9668 14.0985 0.0000
log(Área Construida)1 Lin-Log log(Área Construida) 42.3700 0.9257 45.7702 0.0000

Tabla 28: Comparación de modelos para Apartamentos en la Zona Sur

Ecuación del Modelo Lin-Lin

Esta ecuación indica una relación lineal directa entre el área construida y el precio de los apartamentos. Es un modelo simple y directo donde el precio aumenta de manera constante a medida que el área construida crece.

Ecuación del Modelo Lin-Lin

Precio Millones = 199.7297 + 0.5023 × Área Construida

Mejor Modelo Identificado: El modelo Lin-Lin es el mejor modelo para apartamentos en la Zona Sur, ya que proporciona el mejor ajuste en términos de R² y cumple adecuadamente con los supuestos estadísticos.

2.8.3.2 Casas

Modelo Término Estimación Error Estándar Estadístico t Valor p
(Intercept) Lin-Lin (Intercept) 198.9172 1.5173 131.0976 0.0000
Área Construida Lin-Lin Área Construida 0.5056 0.0106 47.7327 0.0000
(Intercept)1 Log-Log (Intercept) 4.4216 0.0263 168.0423 0.0000
log(Área Construida) Log-Log log(Área Construida) 0.2395 0.0054 44.4548 0.0000
(Intercept)2 Log-Lin (Intercept) 5.3289 0.0058 925.3016 0.0000
Área Construida1 Log-Lin Área Construida 0.0019 0.0000 47.0893 0.0000
(Intercept)3 Lin-Log (Intercept) -41.6695 7.2174 -5.7735 0.0000
log(Área Construida)1 Lin-Log log(Área Construida) 63.6168 1.4780 43.0418 0.0000

Tabla 29: Comparación de modelos para Casas en la Zona Sur

Ecuación del Modelo Lin-Lin

Esta ecuación representa una relación lineal directa, donde el precio de las casas aumenta de manera constante a medida que crece el área construida.

Ecuación del Modelo Lin-Lin

Precio Millones = 198.9172 + 0.5056 × Área Construida

Debido a su claridad y facilidad de interpretación, el modelo Lin-Lin es una excelente opción para modelar la relación entre el área construida y el precio de las casas.

3 INFORME

INFORME DE MODELOS DE REGRESIÓN PARA LA PREDICCIÓN DE PRECIOS DE VIVIENDA

RESUMEN EJECUTIVO

En este informe se presenta el análisis detallado de los modelos de regresión lineal y no lineal aplicados a los datos de precios de viviendas en diferentes zonas. El objetivo es identificar el modelo más apropiado para predecir el precio de las propiedades en función del área construida.

ZONAS ANALIZADAS

Zona Norte:

Apartamentos: El modelo Lin-Lin obtuvo el mejor R² ajustado (0.7618). La ecuación del modelo es:

Precio Millones = 200.6377 + 0.4887×Área Construida

Casas: El modelo Log-Lin fue identificado como el más adecuado para cumplir con los supuestos estadísticos y presentó un R² ajustado alto (0.8667). La ecuación del modelo es:

log(Precio Millones) = 5.3021 + 0.0021×Área Construida

Forma Exponencial: Precio Millones = 𝑒5.3021×𝑒0.0021×Área Construida

Zona Oeste:

Apartamentos: El modelo Lin-Log presentó el mejor R² ajustado (0.7089) y se destacó en el cumplimiento de los supuestos estadísticos. La ecuación del modelo es:

Precio Millones = 67.0670 + 40.2908×log(Área Construida)

Zona Sur:

Apartamentos: El modelo Lin-Lin fue el mejor modelo con un R² ajustado de 0.6991, sugiriendo que la relación lineal directa es más adecuada para esta zona. La ecuación del modelo es:

Precio Millones = 199.7297 + 0.5023×Área Construida

Casas: Se observó que el modelo Lin-Lin es nuevamente el más adecuado con un R² ajustado de 0.8911. La ecuación del modelo es:

Precio Millones = 198.9172 + 0.5056×Área Construida

PRINCIPALES CARACTERÍSTICAS DE LOS MODELOS SELECCIONADOS

Modelos Lineales (Lin-Lin):

Se aplican de manera efectiva a zonas donde la relación entre el precio y el área construida es proporcional.

Presentan un buen ajuste en la mayoría de las zonas, demostrando ser confiables y fáciles de interpretar. Modelos Logarítmicos (Log-Lin y Lin-Log):

Aunque los modelos logarítmicos no fueron los predominantes, mostraron un desempeño adecuado en ciertas zonas específicas. Se recomiendan para casos donde el crecimiento del precio no es estrictamente lineal respecto al área construida.

ANÁLISIS DE SUPUESTOS ESTADÍSTICOS

Se evaluaron los supuestos de normalidad, homocedasticidad e independencia para todos los modelos utilizando pruebas estadísticas como Shapiro-Wilk, Breusch-Pagan y Durbin-Watson:

Zona Norte:

Lin-Lin: Cumple razonablemente con los supuestos estadísticos.

Log-Lin: Supera a otros modelos en el cumplimiento de los supuestos, especialmente en homocedasticidad e independencia.

Zona Oeste:

Lin-Log: Es el modelo que mejor cumple con todos los supuestos estadísticos, validando su elección como el más apropiado.

Zona Sur:

Lin-Lin: Se destaca por su robustez y cumplimiento de los supuestos estadísticos en la mayoría de los casos, particularmente en las pruebas de normalidad.

RECOMENDACIONES

Utilización de Modelos Lineales: Los modelos Lin-Lin son altamente recomendados para la mayoría de las zonas debido a su alto poder explicativo y su cumplimiento adecuado de los supuestos estadísticos.

Evaluación Continua: Se sugiere realizar una revisión periódica de los modelos y ajustarlos si se detectan cambios significativos en el mercado inmobiliario. Optimización de los Modelos Logarítmicos: Considerar ajustes específicos para mejorar los modelos logarítmicos en casos donde se identifique una relación no lineal más fuerte.

4 ANEXOS

Precio Millones Área Construida Tipo
Min. :236.2 Min. : 62.0 Apartamento:7
1st Qu.:243.8 1st Qu.: 90.0 Casa :1
Median :259.3 Median :120.0 NA
Mean :257.3 Mean :112.1 NA
3rd Qu.:267.2 3rd Qu.:132.5 NA
Max. :279.0 Max. :155.0 NA

Tabla 30: Resumen Estadístico para la Zona Centro

Zona Centro: Se caracteriza por tener los precios mínimos de vivienda, con un valor de 207.4 millones de COP y áreas construidas a partir de 40 m². Predominan los apartamentos, con un total de 1,363 unidades, reflejando una tendencia hacia viviendas compactas en un área urbanamente densa.

Precio Millones Área Construida Tipo
Min. :216.2 Min. : 51.00 Apartamento:237
1st Qu.:231.5 1st Qu.: 63.00 Casa : 51
Median :239.3 Median : 75.00 NA
Mean :243.6 Mean : 87.79 NA
3rd Qu.:250.2 3rd Qu.:100.00 NA
Max. :306.4 Max. :200.00 NA

Tabla 31: Resumen Estadístico para la Zona Norte

Zona Norte: Presenta precios más elevados en comparación con otras zonas, con el primer cuartil en 230.7 millones de COP y áreas construidas de al menos 60 m². Esta zona muestra una mayor variedad en los tipos de propiedades, con una mayor presencia de casas (343 unidades), lo que sugiere una preferencia por espacios más amplios.

Precio Millones Área Construida Tipo
Min. :215.4 Min. : 48.00 Apartamento:52
1st Qu.:229.4 1st Qu.: 60.00 Casa : 8
Median :239.0 Median : 69.50 NA
Mean :241.4 Mean : 81.12 NA
3rd Qu.:254.1 3rd Qu.: 93.50 NA
Max. :293.5 Max. :190.00 NA

Tabla 32: Resumen Estadístico para la Zona Oeste

Zona Oeste: Tiene una mediana de precios de 238.8 millones de COP y áreas de construcción que rondan los 75 m². Esto indica que la mitad de las propiedades se encuentran por debajo de este precio, sugiriendo una oferta variada y competitiva, posiblemente atractiva para compradores en busca de opciones asequibles.

Precio Millones Área Construida Tipo
Min. :236.8 Min. : 84.0 Apartamento:2
1st Qu.:246.3 1st Qu.: 96.0 Casa :4
Median :265.2 Median :120.0 NA
Mean :265.2 Mean :125.2 NA
3rd Qu.:281.8 3rd Qu.:153.0 NA
Max. :296.7 Max. :175.0 NA

Tabla 33: Resumen Estadístico para la Zona Oriente

Zona Oriente: Con un precio promedio de 243.7 millones de COP y áreas construidas promediando 87.63 m², esta zona ofrece propiedades ligeramente más costosas y espaciosas, lo cual puede reflejar una demanda más alta en esta área.

Precio Millones Área Construida Tipo
Min. :207.4 Min. : 40.00 Apartamento:1065
1st Qu.:230.6 1st Qu.: 60.00 Casa : 279
Median :238.5 Median : 75.00 NA
Mean :243.6 Mean : 87.57 NA
3rd Qu.:251.4 3rd Qu.: 98.00 NA
Max. :309.7 Max. :200.00 NA

Tabla 34: Resumen Estadístico para la Zona Sur

Zona Sur: Destaca por tener precios más altos en su tercer cuartil (251.5 millones de COP) y áreas de 98 m², lo que indica que las propiedades en esta zona tienden a ser más costosas, posiblemente debido a características superiores o mayor demanda.

5 BIBLIOGRAFÍA

Kutner, M. H., Nachtsheim, C. J., & Neter, J. (2004). Applied Linear Regression Models (4th ed.). McGraw-Hill/Irwin.

Field, A. (2013). Discovering Statistics Using R. SAGE Publications.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer.

Wickham, H., & Grolemund, G. (2016). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media.

Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and Practice. OTexts.

Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall/CRC.

Fox, J., & Weisberg, S. (2018). An R Companion to Applied Regression (3rd ed.). SAGE Publications.

Yule, G. U. (1926). Why do we Sometimes get Nonsense-Correlations between Time-Series? A Study in Sampling and the Nature of Time-Series. Journal of the Royal Statistical Society, 89(1), 1-63.

Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.