ANÁLISIS EXPLORATORIO DE DATOS
Cargar los Datos y Librerías
Detección y Tratamiento de Valores Nulos
Si hay valores nulos, los reemplazamos con la mediana, ya que es menos sensible a valores atípicos.
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## id zona piso estrato preciom areaconst
## 3 3 2638 3 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## [1] 0
## [1] 0
## [1] 0
Si hay muchas filas con NA, usamos la mediana (más robusta a outliers) , en parqueaderos se asume NA, que no tiene parquedaeo como 0:
Confirmar Que No Hay Más NA o NaN
## id zona piso estrato preciom areaconst
## 3 3 2638 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 3 3 3
## latitud
## 3
## [1] 0
Los histogramas muestran la distribución de los precios y áreas. Si la distribución es sesgada, aplicamos logaritmo para normalizarla.
Se identifica correlación entre el área construida y el precio del inmueble
Se identifica que las variables que más influyen en el precio de la vivienda en su orden son:
Los valores estadísticos de la variable precio:
## Estadísticas de la variable 'preciom':
## Rango Inferior: 58
## Rango Superior: 1999
## Media: 433.867
## Cuartil 1 (Q1): 220
## Cuartil 2 (Mediana, Q2): 330
## Cuartil 3 (Q3): 540
## Cuartil 4 (Q4, Máximo): 1999
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 58.0 220.0 330.0 433.9 540.0 1999.0
IMPUTACION DE LOS VALORES NO NÚMERICOS DE PARQUEADERO
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 1.000 1.481 2.000 10.000
DETECCION DE VALORES ATÍPICOS EN PAEQUEADEROS
## La moda de la variable 'estrato' es: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 4.000 5.000 4.634 5.000 6.000
En la variable estrato, se dientifican que los inmuebles se encuestran entre el estrato 3 y el 6, no se identifican outliers, siendo la moda el estrato 5
## La moda de la variable 'habitaciones' es: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 3.000 3.000 3.605 4.000 10.000
Se identifica que el número de habitaciones de los inmuebles está entre 0 y 10,para interpretar este valor se debe tener en cuenta que varios tipos de inmuebles no corresponden a viviendas, (oficinas, locales comerciales, lotes y bodegas)
Conclusiones del Análisis Exploratorio
No hay valores nulos después del tratamiento. Se detectaron y eliminaron valores atípicos en precio y área construida. Se normalizaron variables sesgadas usando logaritmo. Se identificaron correlaciones entre variables, ayudando a la selección de características. Las variables numéricas fueron escaladas para mejorar el rendimiento en algunos modelos.
Una vez finalizado el análisis exploratorio, se iniciará con el análisis de los datos consginados en la base de Datos:
## # A tibble: 5 × 2
## zona Total_Apartamento
## <chr> <int>
## 1 Zona Sur 2787
## 2 Zona Norte 1198
## 3 Zona Oeste 1029
## 4 Zona Oriente 62
## 5 Zona Centro 24
IDENTIFICACION DE NECESIDADES CLIENTE: APARTAMENTOS EN LA ZONA SUR
## [1] 2787
Esto nos permite identificar que hay 2787 Apartamentos en la Zona Sur, siendo 3 de estos:
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 05 4 290 96 1 2 3
## 2 698 Zona S… 02 3 78 40 1 1 2
## 3 8199 Zona S… <NA> 6 875 194 2 5 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## # A tibble: 4 × 2
## estrato Conteo
## <dbl> <int>
## 1 3 201
## 2 4 1091
## 3 5 1033
## 4 6 462
Distribucion de habitaciones en los Apartamentos de la zona Sur
## # A tibble: 7 × 2
## habitaciones Conteo
## <dbl> <int>
## 1 0 8
## 2 1 19
## 3 2 463
## 4 3 1902
## 5 4 366
## 6 5 24
## 7 6 5
RANGO DE PRECIOS DE LOS APARTAMENTOS EN LA ZONA SUR DE CALI
## # A tibble: 1 × 4
## Min_Precio Max_Precio Media_Precio Mediana_Precio
## <dbl> <dbl> <dbl> <dbl>
## 1 75 1750 297. 245
MAPA DE APARTAMENTOS EN LA ZONA SUR DE CALI
En este mapa se clasificadas que si bien en la base de datos los Apartamentos estan clasificadas en zona sur, muchas casa están ubicadas fuera de la zona sur, por lo tanto para dar una mayor confiabilidad a la hora de sugerir es necesario filtrar los datos de los Apartamentoss ubicados en la zona sur.
Asumiendo que la zona sur de Cali corresponde a la zona de la cuidad con latitud igual o inferor a 3,405°
## [1] "Número de Apartamento realmente en la Zona Sur según coordenadas: 2079"
MAPA DE APARTAMENTOS QUE REALMENTE ESTAN UBICADOS EN LA ZONA SUR DE CALI DE ACUERDO A SUS COORDENADAS
## id zona tipo longitud
## Min. : 630 Length:2079 Length:2079 Min. :-76.56
## 1st Qu.:2200 Class :character Class :character 1st Qu.:-76.54
## Median :3924 Mode :character Mode :character Median :-76.53
## Mean :4170 Mean :-76.53
## 3rd Qu.:5974 3rd Qu.:-76.52
## Max. :8241 Max. :-76.50
## latitud preciom areaconst habitaciones
## Min. :3.365 Min. : 78.0 Min. : 40.00 Min. :0.000
## 1st Qu.:3.371 1st Qu.: 163.0 1st Qu.: 64.00 1st Qu.:3.000
## Median :3.383 Median : 230.0 Median : 80.00 Median :3.000
## Mean :3.388 Mean : 247.7 Mean : 89.65 Mean :2.932
## 3rd Qu.:3.400 3rd Qu.: 295.0 3rd Qu.: 98.00 3rd Qu.:3.000
## Max. :3.430 Max. :1750.0 Max. :932.00 Max. :6.000
## estrato banios parqueaderos
## Min. :3.000 Min. :0.000 Min. : 0.000
## 1st Qu.:4.000 1st Qu.:2.000 1st Qu.: 1.000
## Median :4.000 Median :2.000 Median : 1.000
## Mean :4.435 Mean :2.306 Mean : 1.073
## 3rd Qu.:5.000 3rd Qu.:3.000 3rd Qu.: 1.000
## Max. :6.000 Max. :8.000 Max. :10.000
## preciom areaconst estrato banios habitaciones parqueaderos
## preciom 1.0000000 0.7071416 0.5702870 0.6223997 0.3379152 0.6262926
## areaconst 0.7071416 1.0000000 0.3763589 0.6176439 0.4208466 0.4936514
## estrato 0.5702870 0.3763589 1.0000000 0.4356166 0.1699484 0.4342857
## banios 0.6223997 0.6176439 0.4356166 1.0000000 0.5255109 0.4623208
## habitaciones 0.3379152 0.4208466 0.1699484 0.5255109 1.0000000 0.2820896
## parqueaderos 0.6262926 0.4936514 0.4342857 0.4623208 0.2820896 1.0000000
CORRELACION DE LAS VARIABLES CON EL PRECIO DEL INMUEBLE
CLASIFICACIÓN DEL IMPACTO DE LAS VARIABLES EN EL PRECIO DEL INMUEBLE
## Variable Correlacion
## areaconst areaconst 0.7071416
## parqueaderos parqueaderos 0.6262926
## banios banios 0.6223997
## estrato estrato 0.5702870
## habitaciones habitaciones 0.3379152
Para los Apartamentos en la zona Sur el precio se ve afectado por estas variables en este orden:
1, El área construida 2. El número de parqueaderos 3. El Número de baños 4. El Estrato 5. El número de habitaciones
e interpretación los coeficientes para determinar si son estadísticamente significativos, interprete el coeficiente R2
Discusión del ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = ApartamentoSur)
##
## Residuals:
## Min 1Q Median 3Q Max
## -876.28 -34.90 -1.49 28.26 1005.93
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -136.94572 12.58867 -10.878 <2e-16 ***
## areaconst 1.05307 0.04462 23.599 <2e-16 ***
## estrato 43.29772 2.64151 16.391 <2e-16 ***
## habitaciones -6.69993 3.10537 -2.158 0.0311 *
## parqueaderos 47.92877 2.88330 16.623 <2e-16 ***
## banios 28.81852 3.07373 9.376 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 73.53 on 2073 degrees of freedom
## Multiple R-squared: 0.6743, Adjusted R-squared: 0.6735
## F-statistic: 858.2 on 5 and 2073 DF, p-value: < 2.2e-16
Interpretación de los Coeficientes del Modelo
En el modelo de regresión lineal múltiple, cada coeficiente representa el impacto que tiene la variable independiente en el precio de la vivienda (preciom), manteniendo constantes las demás variables.
Intercepto (-136.95) → No tiene una interpretación práctica relevante, ya que el precio de una vivienda no puede ser negativo. Sin embargo, matemáticamente indica el valor del precio cuando todas las demás variables son cero.
Área Construida (areaconst = 1.05307, p < 0.001) → Este coeficiente es estadísticamente significativo, lo que significa que a medida que el área construida aumenta en 1 unidad, el precio de la vivienda aumenta en aproximadamente 1.05 unidades monetarias, manteniendo constantes las demás variables.
Estrato (estrato = 43.30, p < 0.001) → Es estadísticamente significativo, lo que indica que por cada aumento en un nivel de estrato, el precio de la vivienda aumenta en 43.30 unidades monetarias en promedio. Esto sugiere que el estrato tiene un fuerte impacto en el precio.
Número de Habitaciones (habitaciones = -6.70, p = 0.0311) → Aunque estadísticamente significativo (p < 0.05), su coeficiente negativo indica que, en promedio, una habitación adicional podría estar asociada con una ligera reducción en el precio de la vivienda. Esto podría estar relacionado con la correlación entre habitaciones y el área construida.
Número de Parqueaderos (parqueaderos = 47.93, p < 0.001) → Es altamente significativo, lo que indica que por cada parqueadero adicional, el precio de la vivienda aumenta en aproximadamente 47.93 unidades monetarias en promedio.
Número de Baños (banios = 28.82, p < 0.001) → Es estadísticamente significativo, lo que significa que por cada baño adicional, el precio de la vivienda aumenta en 28.82 unidades monetarias en promedio.
Interpretación del Coeficiente R² y Ajuste del Modelo
R² = 0.6743 → Esto indica que el 67.43% de la variabilidad en el precio de las viviendas puede explicarse por las variables incluidas en el modelo (área construida, estrato, habitaciones, parqueaderos y baños).
R² Ajustado = 0.6735 → Al ajustar por la cantidad de variables en el modelo, el R² apenas baja ligeramente, lo que sugiere que no hay un exceso de variables irrelevantes en el modelo.
F-Statistic (858.2, p < 0.001) → El modelo en su conjunto es estadísticamente significativo, lo que significa que al menos una de las variables explicativas tiene un impacto real en preciom.
Discusión del Ajuste del Modelo e Implicaciones
Fortalezas del modelo:
Variables como área construida, estrato, parqueaderos y baños tienen un impacto claro y significativo en el precio de la vivienda.
Interpretación del Coeficiente R² y Ajuste del Modelo
R² = 0.6743 → Esto indica que el 67.43% de la variabilidad en el precio de las viviendas puede explicarse por las variables incluidas en el modelo (área construida, estrato, habitaciones, parqueaderos y baños).
R² Ajustado = 0.6735 → Al ajustar por la cantidad de variables en el modelo, el R² apenas baja ligeramente, lo que sugiere que no hay un exceso de variables irrelevantes en el modelo.
F-Statistic (858.2, p < 0.001) → El modelo en su conjunto es estadísticamente significativo, lo que significa que al menos una de las variables explicativas tiene un impacto real en preciom.
El R² de 67.43% es razonablemente alto para un modelo de precios de vivienda, lo que indica que el modelo captura bien la relación entre las variables.
Limitaciones del modelo:
La variable habitaciones tiene un coeficiente negativo, lo que podría indicar colinealidad con otras variables como areaconst.
Faltan variables clave como la ubicación exacta, antigüedad del inmueble, cercanía a transporte público, entre otras, que pueden influir en el precio de la vivienda.
Cómo mejorar el modelo:
Incluir variables adicionales: Variables categóricas como la ubicación del barrio, cercanía a zonas comerciales, seguridad del sector, colegios y hospitales pueden mejorar la predicción del modelo.
Transformación de variables: Probar una transformación logarítmica en preciom para mejorar la distribución de los datos y reducir el efecto de valores extremos.
Eliminar variables redundantes: Si habitaciones tiene alta correlación con areaconst, podría eliminarse y evaluar si el modelo mejora.
Conclusión
El modelo tiene un buen ajuste general, con variables significativas como área construida, estrato, parqueaderos y baños. Sin embargo, se deben considerar mejoras mediante la inclusión de nuevas variables y ajustes adicionales para mejorar la predicción del precio de las viviendas.
4.1 Supuesto de Linealidad
RESIDUOS Vs VALORES AJUSTADOS
4.2 Supuesto de Independencia de Errores
## package 'car' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\andre\AppData\Local\Temp\Rtmp0Gadnx\downloaded_packages
## lag Autocorrelation D-W Statistic p-value
## 1 0.2301629 1.53961 0
## Alternative hypothesis: rho != 0
El supuesto indica que hay autocorrelación positiva en los residuos.
Estadístico de Durbin-Watson (D-W = 1.54)
Indica cierta autocorrelación positiva en los residuos. Aunque no es un valor extremadamente bajo, sugiere que podría existir dependencia en los errores.
Autocorrelación estimada (rho = 0.23)
Este valor indica una correlación positiva entre los residuos. Un valor cercano a 0 indicaría independencia, pero 0.23 sugiere que hay cierta relación entre los errores.
p-valor = 0
Como el p-valor es muy pequeño (< 0.05), rechazamos la hipótesis nula de no autocorrelación, lo que indica que sí hay evidencia de autocorrelación en los errores.
4.3 Supuesto de Homoscedasticidad (Varianza Constante)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 575.29, df = 5, p-value < 2.2e-16
Interpretación:
Estadístico BP = 575.29
Es el valor del test de Breusch-Pagan, que mide si los residuos tienen una varianza constante o no. Valores altos indican una mayor evidencia de heterocedasticidad.
Grados de libertad (df = 5)
Es el número de variables independientes en el modelo. p-value < 2.2e-16
Es extremadamente pequeño (< 0.05), lo que significa que rechazamos la hipótesis nula de homoscedasticidad.
Conclusión: Hay evidencia fuerte de heterocedasticidad en los residuos.
4.4 Supuesto de Normalidad de los Errores
4.4.1 Distribución de Residuos
HISTOGRAMA DE DISTRIBUCION DE RESIDUOS
El histograma de los residuos nos permite evaluar que los errores del modelo siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.
lo que permite decir que el modelo hace buenas predicciones sin sesgo sistemático.
4.4.2 Gráfico Q-Q plot
GARFICO Q-Q PLOT DE RESIDUOS
El Gráfico Q-Q (Quantile-Quantile Plot) es una herramienta clave para evaluar si los residuos del modelo de regresión siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.
Se evidencia que los puntos se ajustan bien a la línea, el modelo cumple con el supuesto de normalidad, sin embargo, los puntos en los extremos se desvían de la línea roja, indica que hay valores inferiores y superiores, extremos (outliers).
Se evidencia la linealidad en un rango.
4.5 Supuesto de Ausencia de Multicolinealidad
## areaconst estrato habitaciones parqueaderos banios
## 1.820719 1.371601 1.427262 1.500617 2.092224
##
## No hay colinealidad significativa (VIF < 5). El modelo es estable.
todas las variables tienen valores VIF menores a 5, lo que significa que no hay problemas de multicolinealidad en el modelo.
No es necesario eliminar ninguna variable, ya que ninguna está excesivamente correlacionada con otra.
5.Predicción del precio de la vivienda con las características de la solicitud para una casa en la zona Norte:
## [1] "El precio estimado de la vivienda es: 592.2 millones para el estrato 5"
## [1] "Precio esperado por el comprador: 850 millones"
## [1] "El precio estimado de la vivienda es: 635.5 millones para el estrato 6"
## [1] "Precio esperado por el comprador: 850 millones"
Se ha utilizado el modelo de regresión lineal múltiple para predecir el precio de un Apartamento en la Zona Sur, con las siguientes características: ✔ Área construida: 300 m² ✔ Estrato: 5 (puede ser 6) ✔ Número de habitaciones: 5 ✔ Número de parqueaderos: 3 ✔ Número de baños: 3 ✔ Precio esperado por el comprador: 850 millones
El modelo permite establecer que las expectativas del cliente en cuanto al valor que puede pagar, son acorde a las caractrísticas de la casa en la zona norte que busca. POr lo tanto, es posible ofrecerle propuestas a esta solicitud.
El mueble que espera obtener puede tener un precio alreedor de: 592.2 millones para el estrato 5 y de 635.5 millones para el estrato 6
6.Sugerencias de potenciales ofertas que responda a la solicitud de la vivienda para un apartamento del sur de la ciudad de Cali.
Teniendo en encuentra que la empresa tiene crédito pre-aprobado de máximo 850 millones de pesos. En Sugerencia de las ofertas expresadas en un mapa.
OFERTAS PARA EL CLIENTE:
Para las expectativas del cliente, existen 2 opciones, las que se ajustan a sus requeriminetos.
Las siguientes ofertas han sido seleccionadas teniendo en cuenta que corresponde a apratmentos de la zona Sur que se encuentran en el estrato 5, poseen 3 parqueaderos, una mayor o igual área construida, número de habitaciones y baños de los que el cliente indicó, asegurando así que cumplen con sus requisitos. Siendo estas las opciones que mejor se ajustan a sus necesidades:
## # A tibble: 2 × 11
## id zona tipo longitud latitud preciom areaconst habitaciones estrato
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7512 Zona Sur Aparta… -76.6 3.41 670 300 6 5
## 2 7182 Zona Sur Aparta… -76.5 3.41 730 573 5 5
## # ℹ 2 more variables: banios <dbl>, parqueaderos <dbl>
Sin embargo existen estas opciones, que se ajustan a sus requerimientos, pero una de estas cuenta con una área menor a la especificada: .
Las siguientes ofertas han sido seleccionadas teniendo en cuenta que corresponde a apartamentos de la zona Sur que se encuentran en el estrato 5, poseen 3 parqueaderos y mayor número de habitaciones y baños de los que el cliente indicó, sin embargo pueden tener una menor área, cumpliendo así casi con todos los requisitos.
## [1] "Número total de ofertas disponibles: 3"
## # A tibble: 3 × 11
## id zona tipo longitud latitud preciom areaconst habitaciones estrato
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 8036 Zona Sur Aparta… -76.6 3.41 530 256 5 5
## 2 7512 Zona Sur Aparta… -76.6 3.41 670 300 6 5
## 3 7182 Zona Sur Aparta… -76.5 3.41 730 573 5 5
## # ℹ 2 more variables: banios <dbl>, parqueaderos <dbl>
Sin embargo existen estas opciones, que se ajustan a sus requerimientos, pero una de estas cuenta con una área menor a la especificada:
Las siguientes ofertas han sido seleccionadas teniendo en cuenta que corresponden a apartamentos de la zona Sur que se encuentran en el estrato 5, poseen 2 o 3 parqueaderos, mayor número de habitaciones de los que el cliente indicó, sin embargo pueden tener una menor área, cumpliendo así casi con todos los requisitos.
## [1] "Número total de ofertas disponibles: 10"
## # A tibble: 5 × 11
## id zona tipo longitud latitud preciom areaconst habitaciones estrato
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5119 Zona Sur Aparta… -76.5 3.39 231 163 5 5
## 2 5509 Zona Sur Aparta… -76.5 3.39 390 160 5 5
## 3 8112 Zona Sur Aparta… -76.6 3.41 420 220 5 5
## 4 4424 Zona Sur Aparta… -76.5 3.40 450 110 5 5
## 5 8036 Zona Sur Aparta… -76.6 3.41 530 256 5 5
## # ℹ 2 more variables: banios <dbl>, parqueaderos <dbl>
Estas son las 5 ofertas sugeridas para el cliente y más podrían ajustarse a sus requerimientos:
LOS 5 APARTAMENTOS EN LA ZONA SUR SUGERIDOS DE ACUERDO A LOS REQUERIMIENTOS