I. PARTE

ANÁLISIS EXPLORATORIO DE DATOS

  1. Cargar los Datos y Librerías

  2. Detección y Tratamiento de Valores Nulos

Si hay valores nulos, los reemplazamos con la mediana, ya que es menos sensible a valores atípicos.

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
## [1] 0
## [1] 0
## [1] 0
  1. Imputar Valores (Reemplazar con la Mediana)

Si hay muchas filas con NA, usamos la mediana (más robusta a outliers) , en parqueaderos se asume NA, que no tiene parquedaeo como 0:

Confirmar Que No Hay Más NA o NaN

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            3            3            3 
##      latitud 
##            3
## [1] 0
  1. Análisis de la Distribución de las Variables

Los histogramas muestran la distribución de los precios y áreas. Si la distribución es sesgada, aplicamos logaritmo para normalizarla.

Se identifica correlación entre el área construida y el precio del inmueble

Se identifica que las variables que más influyen en el precio de la vivienda en su orden son:

  1. Área construida
  2. Número de Baños
  3. Número de Parqueaderos
  4. Estrato
  5. Número de habitaciones

Los valores estadísticos de la variable precio:

## Estadísticas de la variable 'preciom':
## Rango Inferior: 58
## Rango Superior: 1999
## Media: 433.867
## Cuartil 1 (Q1): 220
## Cuartil 2 (Mediana, Q2): 330
## Cuartil 3 (Q3): 540
## Cuartil 4 (Q4, Máximo): 1999
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    58.0   220.0   330.0   433.9   540.0  1999.0

IMPUTACION DE LOS VALORES NO NÚMERICOS DE PARQUEADERO

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   1.000   1.481   2.000  10.000

DETECCION DE VALORES ATÍPICOS EN PAEQUEADEROS

## La moda de la variable 'estrato' es: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   4.000   5.000   4.634   5.000   6.000

En la variable estrato, se dientifican que los inmuebles se encuestran entre el estrato 3 y el 6, no se identifican outliers, siendo la moda el estrato 5

## La moda de la variable 'habitaciones' es: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   3.000   3.000   3.605   4.000  10.000

Se identifica que el número de habitaciones de los inmuebles está entre 0 y 10,para interpretar este valor se debe tener en cuenta que varios tipos de inmuebles no corresponden a viviendas, (oficinas, locales comerciales, lotes y bodegas)

Conclusiones del Análisis Exploratorio

No hay valores nulos después del tratamiento. Se detectaron y eliminaron valores atípicos en precio y área construida. Se normalizaron variables sesgadas usando logaritmo. Se identificaron correlaciones entre variables, ayudando a la selección de características. Las variables numéricas fueron escaladas para mejorar el rendimiento en algunos modelos.

  1. Correlación entre Variables y Selección de Características

Una vez finalizado el análisis exploratorio, se iniciará con el análisis de los datos consginados en la base de Datos:

## # A tibble: 5 × 2
##   zona         Total_Apartamento
##   <chr>                    <int>
## 1 Zona Sur                  2787
## 2 Zona Norte                1198
## 3 Zona Oeste                1029
## 4 Zona Oriente                62
## 5 Zona Centro                 24

II. PARTE

   IDENTIFICACION DE NECESIDADES CLIENTE: APARTAMENTOS EN LA ZONA SUR
  1. Apartamentos de la zona sur de la ciudad.

## [1] 2787

Esto nos permite identificar que hay 2787 Apartamentos en la Zona Sur, siendo 3 de estos:

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## # A tibble: 4 × 2
##   estrato Conteo
##     <dbl>  <int>
## 1       3    201
## 2       4   1091
## 3       5   1033
## 4       6    462

Distribucion de habitaciones en los Apartamentos de la zona Sur

## # A tibble: 7 × 2
##   habitaciones Conteo
##          <dbl>  <int>
## 1            0      8
## 2            1     19
## 3            2    463
## 4            3   1902
## 5            4    366
## 6            5     24
## 7            6      5

RANGO DE PRECIOS DE LOS APARTAMENTOS EN LA ZONA SUR DE CALI

## # A tibble: 1 × 4
##   Min_Precio Max_Precio Media_Precio Mediana_Precio
##        <dbl>      <dbl>        <dbl>          <dbl>
## 1         75       1750         297.            245

MAPA DE APARTAMENTOS EN LA ZONA SUR DE CALI

En este mapa se clasificadas que si bien en la base de datos los Apartamentos estan clasificadas en zona sur, muchas casa están ubicadas fuera de la zona sur, por lo tanto para dar una mayor confiabilidad a la hora de sugerir es necesario filtrar los datos de los Apartamentoss ubicados en la zona sur.

Asumiendo que la zona sur de Cali corresponde a la zona de la cuidad con latitud igual o inferor a 3,405°

## [1] "Número de Apartamento realmente en la Zona Sur según coordenadas: 2079"

MAPA DE APARTAMENTOS QUE REALMENTE ESTAN UBICADOS EN LA ZONA SUR DE CALI DE ACUERDO A SUS COORDENADAS

##        id           zona               tipo              longitud     
##  Min.   : 630   Length:2079        Length:2079        Min.   :-76.56  
##  1st Qu.:2200   Class :character   Class :character   1st Qu.:-76.54  
##  Median :3924   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   :4170                                         Mean   :-76.53  
##  3rd Qu.:5974                                         3rd Qu.:-76.52  
##  Max.   :8241                                         Max.   :-76.50  
##     latitud         preciom         areaconst       habitaciones  
##  Min.   :3.365   Min.   :  78.0   Min.   : 40.00   Min.   :0.000  
##  1st Qu.:3.371   1st Qu.: 163.0   1st Qu.: 64.00   1st Qu.:3.000  
##  Median :3.383   Median : 230.0   Median : 80.00   Median :3.000  
##  Mean   :3.388   Mean   : 247.7   Mean   : 89.65   Mean   :2.932  
##  3rd Qu.:3.400   3rd Qu.: 295.0   3rd Qu.: 98.00   3rd Qu.:3.000  
##  Max.   :3.430   Max.   :1750.0   Max.   :932.00   Max.   :6.000  
##     estrato          banios       parqueaderos   
##  Min.   :3.000   Min.   :0.000   Min.   : 0.000  
##  1st Qu.:4.000   1st Qu.:2.000   1st Qu.: 1.000  
##  Median :4.000   Median :2.000   Median : 1.000  
##  Mean   :4.435   Mean   :2.306   Mean   : 1.073  
##  3rd Qu.:5.000   3rd Qu.:3.000   3rd Qu.: 1.000  
##  Max.   :6.000   Max.   :8.000   Max.   :10.000
##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7071416 0.5702870 0.6223997    0.3379152    0.6262926
## areaconst    0.7071416 1.0000000 0.3763589 0.6176439    0.4208466    0.4936514
## estrato      0.5702870 0.3763589 1.0000000 0.4356166    0.1699484    0.4342857
## banios       0.6223997 0.6176439 0.4356166 1.0000000    0.5255109    0.4623208
## habitaciones 0.3379152 0.4208466 0.1699484 0.5255109    1.0000000    0.2820896
## parqueaderos 0.6262926 0.4936514 0.4342857 0.4623208    0.2820896    1.0000000

CORRELACION DE LAS VARIABLES CON EL PRECIO DEL INMUEBLE

CLASIFICACIÓN DEL IMPACTO DE LAS VARIABLES EN EL PRECIO DEL INMUEBLE

##                  Variable Correlacion
## areaconst       areaconst   0.7071416
## parqueaderos parqueaderos   0.6262926
## banios             banios   0.6223997
## estrato           estrato   0.5702870
## habitaciones habitaciones   0.3379152

Para los Apartamentos en la zona Sur el precio se ve afectado por estas variables en este orden:

1, El área construida 2. El número de parqueaderos 3. El Número de baños 4. El Estrato 5. El número de habitaciones

  1. Estimación de un modelo de regresión lineal múltiple con las variables de los Apartamentos del Sur (precio = f(área construida, estrato, número de habitaciones, número de parqueaderos, número de baños ) )

e interpretación los coeficientes para determinar si son estadísticamente significativos, interprete el coeficiente R2

Discusión del ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = ApartamentoSur)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -876.28  -34.90   -1.49   28.26 1005.93 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -136.94572   12.58867 -10.878   <2e-16 ***
## areaconst       1.05307    0.04462  23.599   <2e-16 ***
## estrato        43.29772    2.64151  16.391   <2e-16 ***
## habitaciones   -6.69993    3.10537  -2.158   0.0311 *  
## parqueaderos   47.92877    2.88330  16.623   <2e-16 ***
## banios         28.81852    3.07373   9.376   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 73.53 on 2073 degrees of freedom
## Multiple R-squared:  0.6743, Adjusted R-squared:  0.6735 
## F-statistic: 858.2 on 5 and 2073 DF,  p-value: < 2.2e-16

Interpretación de los Coeficientes del Modelo

En el modelo de regresión lineal múltiple, cada coeficiente representa el impacto que tiene la variable independiente en el precio de la vivienda (preciom), manteniendo constantes las demás variables.

Intercepto (-136.95) → No tiene una interpretación práctica relevante, ya que el precio de una vivienda no puede ser negativo. Sin embargo, matemáticamente indica el valor del precio cuando todas las demás variables son cero.

Área Construida (areaconst = 1.05307, p < 0.001) → Este coeficiente es estadísticamente significativo, lo que significa que a medida que el área construida aumenta en 1 unidad, el precio de la vivienda aumenta en aproximadamente 1.05 unidades monetarias, manteniendo constantes las demás variables.

Estrato (estrato = 43.30, p < 0.001) → Es estadísticamente significativo, lo que indica que por cada aumento en un nivel de estrato, el precio de la vivienda aumenta en 43.30 unidades monetarias en promedio. Esto sugiere que el estrato tiene un fuerte impacto en el precio.

Número de Habitaciones (habitaciones = -6.70, p = 0.0311) → Aunque estadísticamente significativo (p < 0.05), su coeficiente negativo indica que, en promedio, una habitación adicional podría estar asociada con una ligera reducción en el precio de la vivienda. Esto podría estar relacionado con la correlación entre habitaciones y el área construida.

Número de Parqueaderos (parqueaderos = 47.93, p < 0.001) → Es altamente significativo, lo que indica que por cada parqueadero adicional, el precio de la vivienda aumenta en aproximadamente 47.93 unidades monetarias en promedio.

Número de Baños (banios = 28.82, p < 0.001) → Es estadísticamente significativo, lo que significa que por cada baño adicional, el precio de la vivienda aumenta en 28.82 unidades monetarias en promedio.

Interpretación del Coeficiente R² y Ajuste del Modelo

R² = 0.6743 → Esto indica que el 67.43% de la variabilidad en el precio de las viviendas puede explicarse por las variables incluidas en el modelo (área construida, estrato, habitaciones, parqueaderos y baños).

R² Ajustado = 0.6735 → Al ajustar por la cantidad de variables en el modelo, el R² apenas baja ligeramente, lo que sugiere que no hay un exceso de variables irrelevantes en el modelo.

F-Statistic (858.2, p < 0.001) → El modelo en su conjunto es estadísticamente significativo, lo que significa que al menos una de las variables explicativas tiene un impacto real en preciom.

Discusión del Ajuste del Modelo e Implicaciones

Fortalezas del modelo:

Variables como área construida, estrato, parqueaderos y baños tienen un impacto claro y significativo en el precio de la vivienda.

Interpretación del Coeficiente R² y Ajuste del Modelo

R² = 0.6743 → Esto indica que el 67.43% de la variabilidad en el precio de las viviendas puede explicarse por las variables incluidas en el modelo (área construida, estrato, habitaciones, parqueaderos y baños).

R² Ajustado = 0.6735 → Al ajustar por la cantidad de variables en el modelo, el R² apenas baja ligeramente, lo que sugiere que no hay un exceso de variables irrelevantes en el modelo.

F-Statistic (858.2, p < 0.001) → El modelo en su conjunto es estadísticamente significativo, lo que significa que al menos una de las variables explicativas tiene un impacto real en preciom.

El R² de 67.43% es razonablemente alto para un modelo de precios de vivienda, lo que indica que el modelo captura bien la relación entre las variables.

Limitaciones del modelo:

La variable habitaciones tiene un coeficiente negativo, lo que podría indicar colinealidad con otras variables como areaconst.

Faltan variables clave como la ubicación exacta, antigüedad del inmueble, cercanía a transporte público, entre otras, que pueden influir en el precio de la vivienda.

Cómo mejorar el modelo:

Incluir variables adicionales: Variables categóricas como la ubicación del barrio, cercanía a zonas comerciales, seguridad del sector, colegios y hospitales pueden mejorar la predicción del modelo.

Transformación de variables: Probar una transformación logarítmica en preciom para mejorar la distribución de los datos y reducir el efecto de valores extremos.

Eliminar variables redundantes: Si habitaciones tiene alta correlación con areaconst, podría eliminarse y evaluar si el modelo mejora.

Conclusión

El modelo tiene un buen ajuste general, con variables significativas como área construida, estrato, parqueaderos y baños. Sin embargo, se deben considerar mejoras mediante la inclusión de nuevas variables y ajustes adicionales para mejorar la predicción del precio de las viviendas.

  1. Validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

4.1 Supuesto de Linealidad

RESIDUOS Vs VALORES AJUSTADOS

4.2 Supuesto de Independencia de Errores

## package 'car' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\andre\AppData\Local\Temp\Rtmp0Gadnx\downloaded_packages
##  lag Autocorrelation D-W Statistic p-value
##    1       0.2301629       1.53961       0
##  Alternative hypothesis: rho != 0

El supuesto indica que hay autocorrelación positiva en los residuos.

Estadístico de Durbin-Watson (D-W = 1.54)

Indica cierta autocorrelación positiva en los residuos. Aunque no es un valor extremadamente bajo, sugiere que podría existir dependencia en los errores.

Autocorrelación estimada (rho = 0.23)

Este valor indica una correlación positiva entre los residuos. Un valor cercano a 0 indicaría independencia, pero 0.23 sugiere que hay cierta relación entre los errores.

p-valor = 0

Como el p-valor es muy pequeño (< 0.05), rechazamos la hipótesis nula de no autocorrelación, lo que indica que sí hay evidencia de autocorrelación en los errores.

4.3 Supuesto de Homoscedasticidad (Varianza Constante)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 575.29, df = 5, p-value < 2.2e-16

Interpretación:

Estadístico BP = 575.29

Es el valor del test de Breusch-Pagan, que mide si los residuos tienen una varianza constante o no. Valores altos indican una mayor evidencia de heterocedasticidad.

Grados de libertad (df = 5)

Es el número de variables independientes en el modelo. p-value < 2.2e-16

Es extremadamente pequeño (< 0.05), lo que significa que rechazamos la hipótesis nula de homoscedasticidad.

Conclusión: Hay evidencia fuerte de heterocedasticidad en los residuos.

4.4 Supuesto de Normalidad de los Errores

4.4.1 Distribución de Residuos

HISTOGRAMA DE DISTRIBUCION DE RESIDUOS

El histograma de los residuos nos permite evaluar que los errores del modelo siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.

lo que permite decir que el modelo hace buenas predicciones sin sesgo sistemático.

4.4.2 Gráfico Q-Q plot

GARFICO Q-Q PLOT DE RESIDUOS

El Gráfico Q-Q (Quantile-Quantile Plot) es una herramienta clave para evaluar si los residuos del modelo de regresión siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.

Se evidencia que los puntos se ajustan bien a la línea, el modelo cumple con el supuesto de normalidad, sin embargo, los puntos en los extremos se desvían de la línea roja, indica que hay valores inferiores y superiores, extremos (outliers).

Se evidencia la linealidad en un rango.

4.5 Supuesto de Ausencia de Multicolinealidad

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.820719     1.371601     1.427262     1.500617     2.092224
## 
##  No hay colinealidad significativa (VIF < 5). El modelo es estable.

5.Predicción del precio de la vivienda con las características de la solicitud para una casa en la zona Norte:

## [1] "El precio estimado de la vivienda es: 592.2 millones para el estrato 5"
## [1] "Precio esperado por el comprador: 850 millones"
## [1] "El precio estimado de la vivienda es: 635.5 millones para el estrato 6"
## [1] "Precio esperado por el comprador: 850 millones"

Se ha utilizado el modelo de regresión lineal múltiple para predecir el precio de un Apartamento en la Zona Sur, con las siguientes características: ✔ Área construida: 300 m² ✔ Estrato: 5 (puede ser 6) ✔ Número de habitaciones: 5 ✔ Número de parqueaderos: 3 ✔ Número de baños: 3 ✔ Precio esperado por el comprador: 850 millones

El modelo permite establecer que las expectativas del cliente en cuanto al valor que puede pagar, son acorde a las caractrísticas de la casa en la zona norte que busca. POr lo tanto, es posible ofrecerle propuestas a esta solicitud.

El mueble que espera obtener puede tener un precio alreedor de: 592.2 millones para el estrato 5 y de 635.5 millones para el estrato 6

6.Sugerencias de potenciales ofertas que responda a la solicitud de la vivienda para un apartamento del sur de la ciudad de Cali.

Teniendo en encuentra que la empresa tiene crédito pre-aprobado de máximo 850 millones de pesos. En Sugerencia de las ofertas expresadas en un mapa.

III. PARTE

                              OFERTAS PARA EL CLIENTE: 

Para las expectativas del cliente, existen 2 opciones, las que se ajustan a sus requeriminetos.

Las siguientes ofertas han sido seleccionadas teniendo en cuenta que corresponde a apratmentos de la zona Sur que se encuentran en el estrato 5, poseen 3 parqueaderos, una mayor o igual área construida, número de habitaciones y baños de los que el cliente indicó, asegurando así que cumplen con sus requisitos. Siendo estas las opciones que mejor se ajustan a sus necesidades:

## # A tibble: 2 × 11
##      id zona     tipo    longitud latitud preciom areaconst habitaciones estrato
##   <dbl> <chr>    <chr>      <dbl>   <dbl>   <dbl>     <dbl>        <dbl>   <dbl>
## 1  7512 Zona Sur Aparta…    -76.6    3.41     670       300            6       5
## 2  7182 Zona Sur Aparta…    -76.5    3.41     730       573            5       5
## # ℹ 2 more variables: banios <dbl>, parqueaderos <dbl>

Sin embargo existen estas opciones, que se ajustan a sus requerimientos, pero una de estas cuenta con una área menor a la especificada: .

Las siguientes ofertas han sido seleccionadas teniendo en cuenta que corresponde a apartamentos de la zona Sur que se encuentran en el estrato 5, poseen 3 parqueaderos y mayor número de habitaciones y baños de los que el cliente indicó, sin embargo pueden tener una menor área, cumpliendo así casi con todos los requisitos.

## [1] "Número total de ofertas disponibles: 3"
## # A tibble: 3 × 11
##      id zona     tipo    longitud latitud preciom areaconst habitaciones estrato
##   <dbl> <chr>    <chr>      <dbl>   <dbl>   <dbl>     <dbl>        <dbl>   <dbl>
## 1  8036 Zona Sur Aparta…    -76.6    3.41     530       256            5       5
## 2  7512 Zona Sur Aparta…    -76.6    3.41     670       300            6       5
## 3  7182 Zona Sur Aparta…    -76.5    3.41     730       573            5       5
## # ℹ 2 more variables: banios <dbl>, parqueaderos <dbl>

Sin embargo existen estas opciones, que se ajustan a sus requerimientos, pero una de estas cuenta con una área menor a la especificada:

Las siguientes ofertas han sido seleccionadas teniendo en cuenta que corresponden a apartamentos de la zona Sur que se encuentran en el estrato 5, poseen 2 o 3 parqueaderos, mayor número de habitaciones de los que el cliente indicó, sin embargo pueden tener una menor área, cumpliendo así casi con todos los requisitos.

## [1] "Número total de ofertas disponibles: 10"
## # A tibble: 5 × 11
##      id zona     tipo    longitud latitud preciom areaconst habitaciones estrato
##   <dbl> <chr>    <chr>      <dbl>   <dbl>   <dbl>     <dbl>        <dbl>   <dbl>
## 1  5119 Zona Sur Aparta…    -76.5    3.39     231       163            5       5
## 2  5509 Zona Sur Aparta…    -76.5    3.39     390       160            5       5
## 3  8112 Zona Sur Aparta…    -76.6    3.41     420       220            5       5
## 4  4424 Zona Sur Aparta…    -76.5    3.40     450       110            5       5
## 5  8036 Zona Sur Aparta…    -76.6    3.41     530       256            5       5
## # ℹ 2 more variables: banios <dbl>, parqueaderos <dbl>

Estas son las 5 ofertas sugeridas para el cliente y más podrían ajustarse a sus requerimientos:

LOS 5 APARTAMENTOS EN LA ZONA SUR SUGERIDOS DE ACUERDO A LOS REQUERIMIENTOS