Introducción

El presente informe tiene como objetivo proporcionar un análisis detallado y una evaluación exhaustiva de compra de 2 viviendas tipo Casa y Apartamento. Este documento se ha elaborado con el propósito de ofrecer información clave, hallazgos significativos y recomendaciones pertinentes relacionadas con las caracteristicas especificas para cada tipo de vivienda, con el fin de respaldar la toma de decisiones informadas y estratégicas.

[Explica brevemente la relevancia y el contexto del tema o asunto que se abordará en el informe. Puedes mencionar la importancia económica, social o cualquier otro factor relevante].

En las siguientes secciones, se presentarán datos, análisis, conclusiones y sugerencias basadas en una base de datos con las viviendas en la ciudad de cali. Se prestará especial atención a

Este informe se ha elaborado con un enfoque en la precisión, la objetividad y la relevancia de la información presentada, con el propósito de brindar una visión completa y fundamentada sobre los dos tipos de vivienda. Se espera que este documento sea de utilidad para facilitar la escogencia del tipo de vivienda presupuestada.

A continuación se presenta el análisis y las conclusiones relacionadas con el tipo de viviendas, con el objetivo de proporcionar una visión clara y fundamentada que contribuya a la toma de decisiones informadas.

1. Análisis para la vivienda Tipo Casa - Zona Norte

1.1. Paso 1: Análisis de las Ofertas de Viviendas

En esta primera etapa del análisis, se procedió a seleccionar ofertas de viviendas que cumplen con criterios específicos. Las condiciones incluyen la búsqueda de casas ubicadas en la zona norte de la ciudad. A través de la filtración de datos, se obtuvieron un conjunto de propiedades que se ajustan a estas características.

A continuación, se realiza una carga de la base de datos desde el archivo “vivienda.csv” y luego aplicar los filtros y realizar las visualizaciones necesarias. Primero, cargamos las librerías necesarias y leemos el conjunto de datos:

# Cargar las bibliotecas necesarias
library(FactoMineR)
library(tidyverse)
library(leaflet)
library(cluster)
library(plotly)

# Cargar los datos desde el archivo CSV
vivienda <- read.csv("H:/Mi unidad/CIENCIA DE DATOS/SEMESTRE 2/MODELOS ESTADISTICOS PARA LA TOMA DE DESICIONES/vivienda.csv", stringsAsFactors = FALSE)

# Filtrar todas las casas de la zona norte
base1 <- vivienda %>%
  filter(tipo == "Casa" & zona == "Zona Norte")

# Visualizar las primeras 3 filas de la nueva base "base1"
head(base1, 3)

En la Figura 1, se muestra el encabezado de los 3 primeros resultados de la tabla base1

Figura 1: Encabezado del dataset Filtrado Casas.

Para visualizar los resultados en un mapa, utilizamos la biblioteca Leaflet. Para lograr una visualización específica del área de Cali, configuramos la posición de latitud y longitud mediante las coordenadas de la ciudad de Cali, como se muestra a continuación.

centro_latitud <- 3.424839
centro_longitud <- -76.531483

# Crear un mapa interactivo con los clusters
map <- leaflet(base1) %>%
  addTiles() %>%
  setView(lng = centro_longitud, lat = centro_latitud, zoom = 12) %>%
  addMarkers(lng = ~longitud, lat = ~latitud)
map

En la Figura 2, muestra el mapa dado por el codigo anterior donde se muestran todos los punto marcados, en total son 713 puntos o casas marcadas segun el filtro puesto.

Figura 2: Mapa de Cali Filtrado por Casas.

En esta representación gráfica, es evidente que el conjunto de datos “vivienda.csv” contiene información incorrecta, ya que varios puntos se encuentran dispersos por toda la ciudad en lugar de estar exclusivamente en la zona norte. Este hecho conlleva la posibilidad de obtener resultados inesperados para los compradores interesados en adquirir propiedades exclusivamente en esa región.

1.2. Paso 2: Análisis Exploratorio de Datos

En esta sección, realizamos un análisis exploratorio de datos con el propósito de profundizar en la relación entre diversas variables y el precio de las viviendas en el mercado. Este paso es fundamental para obtener perspicacias significativas sobre cómo factores como el área construida, el estrato, el número de habitaciones, la disponibilidad de parqueaderos y la cantidad de baños influyen en el valor de las propiedades. A través de gráficos interactivos y análisis estadísticos, nuestro objetivo es proporcionar una comprensión más profunda de las tendencias y patrones que influyen en las decisiones de compra de viviendas.

Para llevar a cabo este análisis exploratorio de datos centrado en la correlación entre el precio de las viviendas y diversas variables, como el área construida, el estrato, el número de baños, el número de habitaciones y la ubicación, y para representar estos resultados de manera interactiva utilizando el paquete “plotly” en R, se describen a continuación los pasos a seguir:

  • En la Figura 3, gráfico de dispersión “Precio vs. Área Construida” muestra cómo el precio de las viviendas varía en función del área construida. Se observa si existe una tendencia clara en los precios para diferentes áreas construidas.
# Gráfico de dispersión para precio vs. área construida
scatter_area <- plot_ly(data = base1, x = ~areaconst, y = ~preciom, color = ~zona,
                        type = "scatter", mode = "markers", text = ~tipo,
                        marker = list(size = 10, opacity = 0.5)) %>%
  layout(title = "Precio vs. Área Construida",
         xaxis = list(title = "Área Construida"),
         yaxis = list(title = "Precio"),
         showlegend = TRUE)

scatter_area

Figura 3: Gráfico de Dispersión.

  • En la figura 4, El gráfico de barras “Correlación entre Estrato y Precio Promedio” muestra la relación promedio entre el estrato y el precio de las viviendas. Esto te permitirá entender cómo influye el estrato en el precio promedio de las viviendas.
# Gráfico de barras para la correlación entre el estrato y el precio promedio
bar_estrato <- base1 %>%
  group_by(estrato) %>%
  summarise(PrecioPromedio = mean(preciom)) %>%
  plot_ly(x = ~estrato, y = ~PrecioPromedio, type = "bar", text = ~paste("Estrato: ", estrato, "<br>Precio Promedio: $", round(PrecioPromedio, 2))) %>%
  layout(title = "Correlación entre Estrato y Precio Promedio",
         xaxis = list(title = "Estrato"),
         yaxis = list(title = "Precio Promedio"),
         showlegend = FALSE)

bar_estrato

Figura 4: Gráfico de Barras.

En la figura 5, los gráficos de caja “Número de Baños vs. Precio” y “Número de Habitaciones vs. Precio” muestran la distribución de precios en función del número de baños y habitaciones. Se puede identificar que ciertos números de baños o habitaciones tienen un impacto significativo en el precio.

# Gráfico de caja para el número de baños vs. precio
box_banos <- plot_ly(data = base1, x = ~banios, y = ~preciom, type = "box", color = ~zona) %>%
  layout(title = "Número de Baños vs. Precio",
         xaxis = list(title = "Número de Baños"),
         yaxis = list(title = "Precio"),
         showlegend = TRUE)

box_banos

# Gráfico de caja para el número de habitaciones vs. precio
box_habitaciones <- plot_ly(data = base1, x = ~habitac, y = ~preciom, type = "box", color = ~zona) %>%
  layout(title = "Número de Habitaciones vs. Precio",
         xaxis = list(title = "Número de Habitaciones"),
         yaxis = list(title = "Precio"),
         showlegend = TRUE)

box_habitaciones

Figura 5: Gráfico de Cajas N° de baños y Habitaciones Vs Precio

1.3. Paso 3: Estimación del Modelo de Regresión

Se hace una estimacion de un modelo de regresión lineal múltiple para predecir el precio de las viviendas en función de diversas variables predictoras. Este paso es fundamental para proporcionar a nuestros clientes una herramienta sólida que les permita estimar de manera precisa el precio de una vivienda en base a sus características específicas. El análisis de los coeficientes y la evaluación de la calidad del modelo son aspectos clave en este proceso. Con esta información, los compradores podrán tomar decisiones más informadas y estratégicas en el mercado inmobiliario.

Para estimar un modelo de regresión lineal múltiple con las variables proporcionadas (precio, área construida, estrato, número de cuartos, número de parqueaderos y número de baños), se hace siguiendo el siguiente codigo:

# Modelo de regresión lineal múltiple
modelo <- lm(preciom ~ areaconst + estrato + habitac + parquea + banios, data = base1)

# Resumen del modelo
summary(modelo)

Figura 6: Resumen del Modelo

El modelo parece tener un buen ajuste general con un R-cuadrado múltiple de alrededor del 60%, lo que significa que las variables independientes explican una cantidad considerable de la variabilidad en el precio de las viviendas.

  1. Residuos:
  • Los residuos son los errores del modelo, es decir, la diferencia entre los valores observados y los valores predichos por el modelo.

  • La estadística de resumen muestra estadísticas descriptivas de los residuos, como mínimo, primer cuartil, mediana, tercer cuartil y máximo. Los residuos deben distribuirse alrededor de cero y no deben mostrar un patrón evidente.

  1. Coeficientes:
  • Cada coeficiente representa el cambio esperado en el precio de la vivienda cuando una variable independiente aumenta en una unidad, manteniendo todas las demás variables constantes.

  • El intercepto (-237.11) es el valor estimado del precio de la vivienda cuando todas las variables independientes son iguales a cero (lo cual puede no tener sentido en el contexto).

  • Los coeficientes para las variables predictoras son los siguientes:

    • Área Construida (areaconst): 0.67817
    • Estrato (estrato): 80.57401
    • Número de Habitaciones (habitac): 7.17571
    • Número de Parqueaderos (parquea): 24.06315
    • Número de Baños (banios): 19.13430
  • Los coeficientes están acompañados por sus errores estándar, valores t y valores p. La significancia estadística se evalúa a través de los valores p. En este caso, todas las variables excepto “Número de Habitaciones” tienen valores p bajos, lo que indica que son estadísticamente significativas.

  1. Residual Standard Error: El error estándar residual es una medida de cuánto varían los residuos alrededor de su media. En este caso, es de aproximadamente 155.6.

  2. Multiple R-squared: R-cuadrado múltiple (0.6012) es una medida de cuánta variabilidad en el precio de la vivienda es explicada por el modelo. En este caso, alrededor del 60.12% de la variación en el precio es explicada por las variables predictoras.

  3. Adjusted R-squared: R-cuadrado ajustado (0.5965) tiene en cuenta el número de variables en el modelo y ajusta el R-cuadrado múltiple en función de la complejidad del modelo. Ayuda a evitar la sobreajustación. Un valor cercano a 1 es deseable.

  4. F-statistic: Esta estadística (128.4) se utiliza para probar la significancia global del modelo. Un valor F grande y un valor p bajo indican que el modelo en su conjunto es significativo. En este caso, el valor p es extremadamente bajo, lo que sugiere que el modelo es globalmente significativo.

El área construida, el estrato, el número de parqueaderos y el número de baños son variables significativas y tienen coeficientes positivos. Esto sugiere que un aumento en estas variables está asociado con un aumento en el precio de la vivienda. El número de habitaciones no es estadísticamente significativo, ya que su valor p es mayor que 0.05. Esto indica que, en este modelo, el número de habitaciones no tiene un efecto significativo en el precio de la vivienda.

1.4. Paso 4:Validación de Supuestos del Modelo

La validación de supuestos es un paso esencial en la construcción y el análisis de cualquier modelo estadístico. En esta sección de nuestro informe, nos centraremos en evaluar si el modelo de regresión lineal múltiple que hemos estimado cumple con una serie de supuestos fundamentales. La revisión de aspectos como la linealidad, la homocedasticidad, la normalidad de los residuos y la independencia de los mismos es crucial para determinar la robustez del modelo.Los principales supuestos a validar son:

  1. Supuesto de Linealidad y Homocedasticidad:
  • Supuesto:

    • El supuesto de linealidad asume que la relación entre las variables independientes y la variable dependiente es lineal.

    • Supone que la varianza de los residuos es constante en todos los niveles de las variables independientes.

  • Validación:

    • Se puede validar mediante gráficos de residuos vs. valores ajustados. Si los residuos se distribuyen aleatoriamente alrededor de cero, el supuesto de linealidad podría considerarse válido.

    • Se puede verificar utilizando un gráfico de residuos vs. valores ajustados. Si los residuos se dispersan de manera uniforme a lo largo de los valores ajustados, el supuesto de homocedasticidad se cumple.

para hacer la validacion del supuesto de linealidad y Homocedasticidad, se puede observar en la Figura 7, la cual muestra la dispersión de los residuos alrededor de la línea horizontal en y = 0. Los residuos están distribuidos aleatoriamente alrededor de esta línea, el supuesto de linealidad y homocedasticidad se cumple.

Figura 7: Grafico de Residuos Vs. Valores Ajustados

  1. Supuesto de Normalidad de los Residuos
  • Supuesto: Supone que los residuos siguen una distribución normal.
  • Validación: Se puede verificar mediante histogramas de residuos y gráficos Q-Q (quantile-quantile). Si los residuos se asemejan a una distribución normal, el supuesto se cumple.

En la Figura 8 el histograma de residuos muestra una forma simétrica y unimodal, y el gráfico Q-Q no muestra desviaciones significativas de la línea diagonal, esto podría indicar que el supuesto se cumple.

Figura 8: Histograma de Residuos y Grafico Q-Q

  1. Supuesto de Independencia de los Residuos
  • Supuesto: Supone que los residuos no están correlacionados entre sí.

  • Validación: Se puede verificar utilizando un gráfico de autocorrelación de residuos. Si no se observan patrones significativos en el gráfico, el supuesto de independencia se cumple.

En la Figura 9, muestra el grafico de autocorrelación de residuos, en este no se observan picos significativos en las autocorrelaciones, podría indicar que el supuesto se cumple

Figura 9: Gráfico de Autocorrelación de Residuos

  1. Supuesto de No Colinealidad de las Variables Independientes
  • Supuesto: Supone que las variables independientes no están altamente correlacionadas entre sí.

  • Validación: Se puede verificar calculando la matriz de correlación entre las variables independientes. Si no se observan correlaciones fuertes, el supuesto se cumple.

Figura 10: Matriz de Correlación

teniendo en cuenta estos datos se puede tener las siguientes observaciones:

  • Precio de la Vivienda (preciom) vs. Área Construida (areaconst): La correlación entre el precio de la vivienda y el área construida es de aproximadamente 0.729. Esto indica una correlación positiva moderadamente fuerte, lo que significa que a medida que aumenta el área construida, tiende a aumentar el precio de la vivienda. Esta es una relación esperada, ya que las viviendas más grandes suelen ser más caras.

  • Precio de la Vivienda (preciom) vs. Estrato (estrato): La correlación entre el precio de la vivienda y el estrato es de aproximadamente 0.610. Esto indica una correlación positiva, pero no tan fuerte como la observada con el área construida. Aun así, sugiere que el estrato socioeconómico de la ubicación de la vivienda puede tener un impacto en el precio. Las viviendas en estratos más altos tienden a tener precios más altos.

  • Área Construida (areaconst) vs. Estrato (estrato): La correlación entre el área construida y el estrato es de aproximadamente 0.453. Esto sugiere una correlación positiva, pero es menos fuerte que las correlaciones anteriores. Significa que, en general, las viviendas más grandes tienden a estar en estratos socioeconómicos más altos, pero la relación no es tan pronunciada como en los otros casos.

1.5. Paso 5 y 6: Predicción y Sugerencias de Ofertas de Viviendas

En esta etapa, se utiliza el modelo de regresión lineal múltiple previamente estimado para predecir el precio de la vivienda que se ajusta a las características de la primera solicitud de la empresa. El objetivo es proporcionar opciones de viviendas que cumplan con los requisitos y se ajusten al presupuesto de la empresa. Con base en la preaprobación de crédito de la empresa, se presentan el Precio estimado de la vivienda segun la prediccion del modelo es de 311.85 millones de pesos

Figura 11: 5 Primeras Ofertas Potenciales

Figura 12: Ubicacion de Viviendas Potenciales

2. Análisis para la vivienda Tipo Apartamento - Zona Sur

2.1. Análisis de las Ofertas de Viviendas

En la Figura 13, se muestra el encabezado de los 3 primeros resultados de la tabla base1

Figura 13: Encabezado del dataset Filtrado Apartamentos.

En la Figura 14, muestra el mapa dado por el codigo anterior donde se muestran todos los punto marcados, en total son 713 puntos o casas marcadas segun el filtro puesto.

Figura 14: Mapa de Cali filtrado por Apartamentos.

En esta representación gráfica, es evidente que el conjunto de datos “vivienda.csv” contiene información incorrecta, ya que varios puntos se encuentran dispersos por toda la ciudad en lugar de estar exclusivamente en la zona Sur Este hecho conlleva la posibilidad de obtener resultados inesperados para los compradores interesados en adquirir propiedades exclusivamente en esa región.

2.2. Paso 2: Análisis Exploratorio de Datos

  • En la Figura 15, gráfico de dispersión “Precio vs. Área Construida” muestra cómo el precio de las viviendas varía en función del área construida. Se observa si existe una tendencia clara en los precios para diferentes áreas construidas.

Figura 15: Gráfico de Dispersión.

  • En la figura 16, El gráfico de barras “Correlación entre Estrato y Precio Promedio” muestra la relación promedio entre el estrato y el precio de las viviendas. Esto te permitirá entender cómo influye el estrato en el precio promedio de las viviendas.

Figura 16: Gráfico de Barras.

En la figura 17, los gráficos de caja “Número de Baños vs. Precio” y “Número de Habitaciones vs. Precio” muestran la distribución de precios en función del número de baños y habitaciones. Se puede identificar que ciertos números de baños o habitaciones tienen un impacto significativo en el precio.

Figura 17: Gráfico de Cajas N° de baños y Habitaciones Vs Precio

2.3. Paso 3: Estimación del Modelo de Regresión

Figura 18: Resumen del Modelo

El modelo parece tener un buen ajuste a los datos con un alto R-cuadrado y coeficientes estadísticamente significativos. Sin embargo, es importante tener en cuenta que este es un modelo simplificado y que otros factores no incluidos en el modelo también pueden influir en los precios de las viviendas. Además, la interpretación de los coeficientes debe hacerse considerando el contexto específico de los datos y del mercado inmobiliario en cuestión.

  1. Residuos:
  • El rango de los residuos varía desde -1092.68 hasta 925.99, lo que indica que los errores de predicción varían en magnitud.

  • La mediana de los residuos está cerca de -1.60, lo que sugiere que el modelo tiende a subestimar ligeramente los precios de algunas viviendas.

  • El error estándar de los residuos (residual standard error) es de 98.24, lo que indica la dispersión promedio de las diferencias entre las predicciones y los valores reales.

  1. Coeficientes:

-El intercepto (Intercept) es -261.84524, lo que representa el valor esperado del precio de la vivienda cuando todas las demás variables son cero.

-Los coeficientes para las variables independientes (areaconst, estrato, habitac, parquea y banios) indican cómo se espera que afecten al precio de la vivienda. Por ejemplo, un aumento de una unidad en el área construida (areaconst) se asocia con un aumento de 1.28553 unidades en el precio, manteniendo las demás variables constantes.

  1. Residual Standard Error: Este valor indica la dispersión de los residuos alrededor de la línea de regresión. Cuanto menor sea este valor, mejor será el ajuste del modelo a los datos. En este caso, es de aproximadamente 155.6.

  2. Multiple R-squared: El R-cuadrado múltiple representa la proporción de la variabilidad total en la variable dependiente (precio de la vivienda) que es explicada por el modelo. En este caso, el modelo explica aproximadamente el 74.87% de la variabilidad en el precio de la vivienda, lo que indica un buen ajuste.

  3. Adjusted R-squared: El R-cuadrado ajustado es similar al R-cuadrado múltiple, pero ajusta la puntuación en función del número de variables en el modelo. En este caso, el valor ajustado es muy similar al R-cuadrado múltiple, lo que sugiere que agregar más variables no mejoraría significativamente el modelo.

  4. F-statistic:La estadística F es 1403, y su p-valor es prácticamente cero. Esto sugiere que el modelo en su conjunto es altamente significativo y que al menos una de las variables independientes está influyendo en el precio de la vivienda.

2.4. Paso 4:Validación de Supuestos del Modelo

  1. Supuesto de Linealidad y Homocedasticidad:

para hacer la validacion del supuesto de linealidad y Homocedasticidad, se puede observar en la Figura 19, la cual muestra la dispersión de los residuos alrededor de la línea horizontal en y = 0. Los residuos están distribuidos aleatoriamente alrededor de esta línea, el supuesto de linealidad y homocedasticidad se cumple.

Figura 19: Grafico de Residuos Vs. Valores Ajustados

  1. Supuesto de Normalidad de los Residuos

En la Figura 20 el histograma de residuos muestra una forma simétrica y unimodal, y el gráfico Q-Q no muestra desviaciones significativas de la línea diagonal, esto podría indicar que el supuesto se cumple.

Figura 20: Histograma de Residuos y Grafico Q-Q

  1. Supuesto de Independencia de los Residuos

En la Figura 21, muestra el grafico de autocorrelación de residuos, en este no se observan picos significativos en las autocorrelaciones, podría indicar que el supuesto se cumple

Figura 21: Gráfico de Autocorrelación de Residuos

  1. Supuesto de No Colinealidad de las Variables Independientes

Figura 22: Matriz de Correlación

teniendo en cuenta estos datos se puede tener las siguientes observaciones:

  • Precio de la Vivienda (preciom) vs. Área Construida (areaconst): La correlación entre el precio de la vivienda y el área construida es de aproximadamente 0.757. Esto indica una correlación positiva fuerte, lo que significa que a medida que aumenta el área construida, tiende a aumentar el precio de la vivienda. Esta es una relación esperada, ya que las viviendas más grandes suelen ser más caras.

  • Precio de la Vivienda (preciom) vs. Estrato (estrato): La correlación entre el precio de la vivienda y el estrato es de aproximadamente 0.672. Esto sugiere una correlación positiva, pero no tan fuerte como la observada con el área construida. Aun así, indica que el estrato socioeconómico de la ubicación de la vivienda está relacionado con el precio. Las viviendas en estratos más altos tienden a tener precios más altos.

  • Área Construida (areaconst) vs. Estrato (estrato): La correlación entre el área construida y el estrato es de aproximadamente 0.481. Esto sugiere una correlación positiva, pero es menos fuerte que las correlaciones anteriores. Significa que, en general, las viviendas más grandes tienden a estar en estratos socioeconómicos más altos, pero la relación no es tan pronunciada como en los otros casos.

2.5. Paso 5 y 6: Predicción y Sugerencias de Ofertas de Viviendas

Con base en la preaprobación de crédito de la empresa, se presentan el Precio estimado de la vivienda segun la prediccion del modelo es de 674.83 millones de pesos

Figura 11: Primeras Ofertas Potenciales

las ofertas potenciales para este caso no se pueden mostrar debido a que en el dataset se encuentran mal escritas y no es posible visualizarlas

Conclusiones:

En el análisis realizado para satisfacer la solicitud de la vivienda 1 por parte de una empresa internacional que busca alojar a dos de sus empleados y sus familias en la ciudad, se han obtenido varios hallazgos y conclusiones importantes:

Recomendaciones:

Con base en los hallazgos y conclusiones anteriores, se hacen las siguientes recomendaciones: