I. PARTE
ANÁLISIS EXPLORATORIO DE DATOS
Cargar los Datos y Librerías
Detección y Tratamiento de Valores Nulos
Si hay valores nulos, los reemplazamos con la mediana, ya que es menos sensible a valores atípicos.
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## id zona piso estrato preciom areaconst
## 3 3 2638 3 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## [1] 0
## [1] 0
## [1] 0
Imputar Valores (Reemplazar con la Mediana) Si hay muchas filas con NA, usamos la mediana (más robusta a outliers) , en parqueaderos se asume NA, que no tiene parquedaeo como 0:
Confirmar Que No Hay Más NA o NaN
## id zona piso estrato preciom areaconst
## 3 3 2638 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 3 3 3
## latitud
## 3
## [1] 0
Los histogramas muestran la distribución de los precios y áreas. Si la distribución es sesgada, aplicamos logaritmo para normalizarla.
Se identifica correlación entre el área construida y el precio del inmueble
Se identifica que las variables que más influyen en el precio de la vivienda en su orden son:
Lo valores estadísticos de la variable precio:
## Estadísticas de la variable 'preciom':
## Rango Inferior: 58
## Rango Superior: 1999
## Media: 433.867
## Cuartil 1 (Q1): 220
## Cuartil 2 (Mediana, Q2): 330
## Cuartil 3 (Q3): 540
## Cuartil 4 (Q4, Máximo): 1999
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 58.0 220.0 330.0 433.9 540.0 1999.0
IMPUTACION DE LOS VALORES NO NÚMERICOS DE PARQUEADERO
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 1.000 1.481 2.000 10.000
DETECCION DE VALORES ATÍPICOS EN PAEQUEADEROS
## La moda de la variable 'estrato' es: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 4.000 5.000 4.634 5.000 6.000
En la variable estrato, se dientifican que los inmuebles se encuestran entre el estrato 3 y el 6, no se identifican outliers, siendo la moda el estrato 5
## La moda de la variable 'habitaciones' es: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 3.000 3.000 3.605 4.000 10.000
Se identifica que el número de habitaciones de los inmuebles está entre 0 y 10,para interpretar este valor se debe tener en cuenta que varios tipos de inmuebles no corresponden a viviendas, (oficinas, locales comerciales, lotes y bodegas)
Conclusiones del Análisis Exploratorio
No hay valores nulos después del tratamiento. Se detectaron y eliminaron valores atípicos en precio y área construida. Se normalizaron variables sesgadas usando logaritmo. Se identificaron correlaciones entre variables, ayudando a la selección de características. Las variables numéricas fueron escaladas para mejorar el rendimiento en algunos modelos.
Una vez finalizado el análisis exploratorio, se iniciará con el análisis de los datos consginados en la base de Datos:
## # A tibble: 5 × 2
## zona Total_Casas
## <chr> <int>
## 1 Zona Sur 1939
## 2 Zona Norte 722
## 3 Zona Oriente 289
## 4 Zona Oeste 169
## 5 Zona Centro 100
IDENTIFICACION DE NECESIDADES CLIENTE 1: CASAS EN LA ZONA NORTE
## [1] 722
Esto nos permite identificar que hay 722 casas en la Zona Norte, siendo 3 de estos:
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 02 5 320 150 2 4 6
## 2 1592 Zona N… 02 5 780 380 2 3 3
## 3 4057 Zona N… 02 6 750 445 0 7 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## # A tibble: 4 × 2
## estrato Conteo
## <dbl> <int>
## 1 3 235
## 2 4 161
## 3 5 271
## 4 6 55
Distribucion de habitacione en las casas de la zona norte
## # A tibble: 11 × 2
## habitaciones Conteo
## <dbl> <int>
## 1 0 20
## 2 1 2
## 3 2 12
## 4 3 171
## 5 4 222
## 6 5 137
## 7 6 60
## 8 7 42
## 9 8 29
## 10 9 14
## 11 10 13
## # A tibble: 1 × 4
## Min_Precio Max_Precio Media_Precio Mediana_Precio
## <dbl> <dbl> <dbl> <dbl>
## 1 89 1940 446. 390
En este mapa se clasificadas que si bien en la base de datos las casas estan clasificadas en zona norte, muchas casa están ubicadas fuera de la zona norte, por lo tanto para dar una mayor confiabilidad a la hora de sugerir es necesario filtrar los datos de las casas ubicadas en la zona norte.
Asumiendo que la zona norte de Cali corresponde a la zona de cuidad con latitud igual o superio a 3,450°
## [1] "Número de casas realmente en la Zona Norte según coordenadas: 237"
## id preciom areaconst habitaciones
## Min. : 619 Min. : 120.0 Min. : 62.0 Min. : 0.000
## 1st Qu.:1161 1st Qu.: 340.0 1st Qu.:200.0 1st Qu.: 4.000
## Median :2155 Median : 420.0 Median :276.0 Median : 5.000
## Mean :2164 Mean : 457.6 Mean :284.2 Mean : 4.937
## 3rd Qu.:3058 3rd Qu.: 550.0 3rd Qu.:350.0 3rd Qu.: 6.000
## Max. :4135 Max. :1650.0 Max. :942.0 Max. :10.000
## estrato banios parqueaderos longitud
## Min. :3.000 Min. :0.000 Min. : 0.000 Min. :-76.53
## 1st Qu.:4.000 1st Qu.:3.000 1st Qu.: 0.000 1st Qu.:-76.52
## Median :5.000 Median :4.000 Median : 2.000 Median :-76.52
## Mean :4.333 Mean :3.835 Mean : 1.713 Mean :-76.52
## 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.: 2.000 3rd Qu.:-76.51
## Max. :6.000 Max. :8.000 Max. :10.000 Max. :-76.50
## latitud zona
## Min. :3.450 Length:237
## 1st Qu.:3.468 Class :character
## Median :3.476 Mode :character
## Mean :3.474
## 3rd Qu.:3.482
## Max. :3.485
## preciom areaconst estrato banios habitaciones parqueaderos
## preciom 1.0000000 0.7794686 0.4015793 0.4139203 0.3961266 0.2428046
## areaconst 0.7794686 1.0000000 0.3767718 0.3278308 0.3032504 0.1599904
## estrato 0.4015793 0.3767718 1.0000000 0.2052785 0.0118529 0.2231620
## banios 0.4139203 0.3278308 0.2052785 1.0000000 0.5967400 0.2784713
## habitaciones 0.3961266 0.3032504 0.0118529 0.5967400 1.0000000 0.2054722
## parqueaderos 0.2428046 0.1599904 0.2231620 0.2784713 0.2054722 1.0000000
## Variable Correlacion
## areaconst areaconst 0.7794686
## banios banios 0.4139203
## estrato estrato 0.4015793
## habitaciones habitaciones 0.3961266
## parqueaderos parqueaderos 0.2428046
Para las casas en la zona Norte el precio se ve afectado por estas variables en este orden:
1, El área construida 2. El Número de baños 3. El Estrato 4. El número de habitaciones 5. El número de parqueaderos
e interpretación los coeficientes para determinar si son estadísticamente significativos, interprete el coeficiente R2
Discusión del ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = CasasNorte)
##
## Residuals:
## Min 1Q Median 3Q Max
## -319.47 -58.79 -16.01 49.19 691.84
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -70.78589 46.16608 -1.533 0.12657
## areaconst 0.96887 0.06473 14.969 < 2e-16 ***
## estrato 30.08226 10.44644 2.880 0.00435 **
## habitaciones 14.91475 5.27799 2.826 0.00513 **
## parqueaderos 6.97181 4.62947 1.506 0.13344
## banios 9.66324 6.62616 1.458 0.14610
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 113.3 on 231 degrees of freedom
## Multiple R-squared: 0.662, Adjusted R-squared: 0.6547
## F-statistic: 90.48 on 5 and 231 DF, p-value: < 2.2e-16
Interpretación de los Coeficientes del Modelo
En el modelo de regresión lineal múltiple, cada coeficiente representa el impacto que tiene la variable independiente en el precio de la vivienda (preciom), manteniendo constantes las demás variables.
Intercepto (-236.48) → No tiene una interpretación práctica relevante, ya que el precio de una vivienda no puede ser negativo. Sin embargo, matemáticamente indica el valor del precio cuando todas las demás variables son cero.
Área Construida (areaconst = 0.82677, p < 0.001) → Este coeficiente es estadísticamente significativo, lo que significa que a medida que el área construida aumenta en 1 unidad, el precio de la vivienda aumenta en aproximadamente 0.83 unidades monetarias, manteniendo constantes las demás variables.
Estrato (estrato = 86.43, p < 0.001) → También es estadísticamente significativo, lo que indica que por cada aumento en un nivel de estrato, el precio de la vivienda aumenta en 86.43 unidades monetarias en promedio. Esto sugiere que el estrato tiene un fuerte impacto en el precio.
Número de Habitaciones (habitaciones = 1.44, p = 0.729) → No es estadísticamente significativo, ya que su p-valor es 0.729, mucho mayor a 0.05. Esto sugiere que el número de habitaciones no tiene un impacto claro en el precio de la vivienda dentro del modelo actual.
Número de Parqueaderos (parqueaderos = -1.68, p = 0.698) → No es estadísticamente significativo, ya que su p-valor es 0.698. A pesar de que el coeficiente es negativo, esto no es suficiente para afirmar que más parqueaderos reducen el precio.
Número de Baños (banios = 26.98, p < 0.001) → Es estadísticamente significativo, lo que significa que por cada baño adicional, el precio de la vivienda aumenta en 26.98 unidades monetarias en promedio.
Interpretación del Coeficiente R² y Ajuste del Modelo
-R² = 0.6508 → Esto indica que el 65.08% de la variabilidad en el precio de las viviendas puede explicarse por las variables incluidas en el modelo (área construida, estrato, número de habitaciones, parqueaderos y baños).
-R² Ajustado = 0.6484 → Al ajustar por la cantidad de variables en el modelo, el R² apenas baja ligeramente, lo que sugiere que no hay un exceso de variables irrelevantes en el modelo.
-F-Statistic (266.9, p < 0.001) → El modelo en su conjunto es estadísticamente significativo, lo que significa que al menos una de las variables explicativas tiene un impacto real en preciom.
Discusión del Ajuste del Modelo e Implicaciones
Fortalezas del modelo:
-Variables como área construida, estrato y número de baños tienen un impacto claro y significativo en el precio de la vivienda.
-El R² de 65% es razonablemente alto para un modelo de precios de vivienda, lo que indica que el modelo captura bien la relación entre las variables.
Limitaciones del modelo:
-Variables como número de habitaciones y parqueaderos no son significativas. Esto podría deberse a que su impacto está altamente correlacionado con otras variables como areaconst.
-Faltan variables clave como la ubicación exacta, antigüedad del inmueble, cercanía a transporte público, entre otras, que pueden influir en el precio de la vivienda.
Cómo mejorar el modelo:
-Incluir variables adicionales: Que podrian influir en la valorización de la vivienda, variables categóricas como la ubicación del barrio, cercanía a zonas comerciales, seguridad del sector, colegios, hospitales,etc que pueden mejorar la predicción del modelo.
-Transformación de variables: Probar una transformación logarítmica en preciom para mejorar la distribución de los datos y reducir el efecto de valores extremos.
-Eliminar variables redundantes: Si habitaciones y parqueaderos no son significativos, podríamos eliminarlas y evaluar si el modelo mejora.
Conclusión:
El modelo tiene un buen ajuste general, pero no todas las variables son significativas. Se debe considerar incluir nuevas variables y realizar ajustes adicionales para mejorar la predicción del precio de las viviendas.
4.1 Supuesto de Linealidad
4.2 Supuesto de Independencia de Errores
## lag Autocorrelation D-W Statistic p-value
## 1 0.0683498 1.860305 0.224
## Alternative hypothesis: rho != 0
4.3 Supuesto de Homoscedasticidad (Varianza Constante)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 44.395, df = 5, p-value = 1.925e-08
Interpretación:
p-value < 0.05 → Se rechaza la hipótesis nula de homoscedasticidad → El modelo presenta heteroscedasticidad (varianza de los errores no constante). Si el modelo tuviera homoscedasticidad, el p-value debería ser mayor a 0.05.
4.4 Supuesto de Normalidad de los Errores
4.4.1 Distribución de Residuos
El histograma de los residuos nos permite evaluar que los errores del modelo siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.
lo que permite decir que el modelo hace buenas predicciones sin sesgo sistemático.
4.4.2 Gráfico Q-Q plot
El Gráfico Q-Q (Quantile-Quantile Plot) es una herramienta clave para evaluar si los residuos del modelo de regresión siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.
Se evidencia que los puntos se ajustan bien a la línea, el modelo cumple con el supuesto de normalidad, sin embargo, los puntos en los extremos se desvían de la línea roja, indica que hay valores inferiores y especialmente superiores, extremos (outliers)
4.5 Supuesto de Ausencia de Multicolinealidad
## areaconst estrato habitaciones parqueaderos banios
## 1.315847 1.263486 1.661939 1.125791 1.711668
##
## No hay colinealidad significativa (VIF < 5). El modelo es estable.
todas las variables tienen valores VIF menores a 5, lo que significa que no hay problemas de multicolinealidad en el modelo.
No es necesario eliminar ninguna variable, ya que ninguna está excesivamente correlacionada con otra.
5.Predicción del precio de la vivienda con las características de la solicitud para una casa en la zona Norte:
## [1] "El precio estimado de la vivienda es: 329.27 millones"
## [1] "Precio esperado por el comprador: 350 millones"
Se ha utilizado el modelo de regresión lineal múltiple para predecir el precio de una Casa en la Zona Norte, con las siguientes características: ✔ Área construida: 200 m² ✔ Estrato: 4 (puede ser 5) ✔ Número de habitaciones: 4 ✔ Número de parqueaderos: 1 ✔ Número de baños: 2 ✔ Precio esperado por el comprador: 350 millones
El modelo permite establecer que las expectativas del cliente en cuanto al valor que puede pagar, son acorde a las caractrísticas de la casa en la zona norte que busca. POr lo tanto, es posible ofrecerle propuestas a esta solicitud.
6.Sugerencias de potenciales ofertas que responda a la solicitud de la vivienda para una casa del norte de la ciudad de Cali.
Teniendo en encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. En Sugerencia de las ofertas expresadas en un mapa.
OFERTAS PARA EL CLIENTE:
## # A tibble: 21 × 10
## id preciom areaconst habitaciones estrato banios parqueaderos longitud
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1020 230 250 5 4 3 2 -76.5
## 2 1009 250 243 5 5 4 1 -76.5
## 3 1914 300 205 6 5 5 2 -76.5
## 4 3053 320 230 4 5 4 2 -76.5
## 5 1144 320 200 4 4 4 2 -76.5
## 6 1151 320 210 5 5 3 2 -76.5
## 7 766 321 249 5 5 5 1 -76.5
## 8 952 330 275 5 4 3 2 -76.5
## 9 1108 330 260 4 4 3 1 -76.5
## 10 3043 330 275 5 5 3 2 -76.5
## # ℹ 11 more rows
## # ℹ 2 more variables: latitud <dbl>, zona <chr>
Para las expectations del cliente, existen 21 opciones, siendo estas 5 las mejores en precio
LAS 5 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS
## [1] "Número total de ofertas disponibles: 21"
## # A tibble: 5 × 10
## id preciom areaconst habitaciones estrato banios parqueaderos longitud
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1020 230 250 5 4 3 2 -76.5
## 2 1009 250 243 5 5 4 1 -76.5
## 3 1914 300 205 6 5 5 2 -76.5
## 4 3053 320 230 4 5 4 2 -76.5
## 5 1144 320 200 4 4 4 2 -76.5
## # ℹ 2 more variables: latitud <dbl>, zona <chr>
Las siguientes ofertas han sido seleccionadas teniendo en cuenta que poseen el mismo número de habitaciones y baños que el cliente espera, asegurando así que cumplen con sus requisitos. Estas son las opciones que mejor se ajustan a sus necesidades:
LAS 5 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS
## [1] "Número total de ofertas disponibles: 3"
## # A tibble: 3 × 10
## id preciom areaconst habitaciones estrato banios parqueaderos longitud
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1822 340 295 4 4 2 2 -76.5
## 2 1163 350 216 4 5 2 2 -76.5
## 3 1943 350 346 4 5 2 1 -76.5
## # ℹ 2 more variables: latitud <dbl>, zona <chr>
LAS 3 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS
## [1] "Número total de ofertas disponibles: 3"
## # A tibble: 3 × 10
## id preciom areaconst habitaciones estrato banios parqueaderos longitud
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1822 340 295 4 4 2 2 -76.5
## 2 1163 350 216 4 5 2 2 -76.5
## 3 1943 350 346 4 5 2 1 -76.5
## # ℹ 2 more variables: latitud <dbl>, zona <chr>
LAS 3 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS