I. PARTE 
                                    ANÁLISIS EXPLORATORIO DE DATOS
  1. Cargar los Datos y Librerías

  2. Detección y Tratamiento de Valores Nulos

Si hay valores nulos, los reemplazamos con la mediana, ya que es menos sensible a valores atípicos.

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
## [1] 0
## [1] 0
## [1] 0

Imputar Valores (Reemplazar con la Mediana) Si hay muchas filas con NA, usamos la mediana (más robusta a outliers) , en parqueaderos se asume NA, que no tiene parquedaeo como 0:

Confirmar Que No Hay Más NA o NaN

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            3            3            3 
##      latitud 
##            3
## [1] 0
  1. Análisis de la Distribución de las Variables

Los histogramas muestran la distribución de los precios y áreas. Si la distribución es sesgada, aplicamos logaritmo para normalizarla.

Se identifica correlación entre el área construida y el precio del inmueble

Se identifica que las variables que más influyen en el precio de la vivienda en su orden son:

  1. Área construida
  2. Número de Baños
  3. Número de Parqueaderos
  4. Estrato
  5. Número de habitaciones

Lo valores estadísticos de la variable precio:

## Estadísticas de la variable 'preciom':
## Rango Inferior: 58
## Rango Superior: 1999
## Media: 433.867
## Cuartil 1 (Q1): 220
## Cuartil 2 (Mediana, Q2): 330
## Cuartil 3 (Q3): 540
## Cuartil 4 (Q4, Máximo): 1999
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    58.0   220.0   330.0   433.9   540.0  1999.0

IMPUTACION DE LOS VALORES NO NÚMERICOS DE PARQUEADERO

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   1.000   1.481   2.000  10.000

DETECCION DE VALORES ATÍPICOS EN PAEQUEADEROS

## La moda de la variable 'estrato' es: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   4.000   5.000   4.634   5.000   6.000

En la variable estrato, se dientifican que los inmuebles se encuestran entre el estrato 3 y el 6, no se identifican outliers, siendo la moda el estrato 5

## La moda de la variable 'habitaciones' es: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   3.000   3.000   3.605   4.000  10.000

Se identifica que el número de habitaciones de los inmuebles está entre 0 y 10,para interpretar este valor se debe tener en cuenta que varios tipos de inmuebles no corresponden a viviendas, (oficinas, locales comerciales, lotes y bodegas)

Conclusiones del Análisis Exploratorio

No hay valores nulos después del tratamiento. Se detectaron y eliminaron valores atípicos en precio y área construida. Se normalizaron variables sesgadas usando logaritmo. Se identificaron correlaciones entre variables, ayudando a la selección de características. Las variables numéricas fueron escaladas para mejorar el rendimiento en algunos modelos.

  1. Correlación entre Variables y Selección de Características

Una vez finalizado el análisis exploratorio, se iniciará con el análisis de los datos consginados en la base de Datos:

## # A tibble: 5 × 2
##   zona         Total_Casas
##   <chr>              <int>
## 1 Zona Sur            1939
## 2 Zona Norte           722
## 3 Zona Oriente         289
## 4 Zona Oeste           169
## 5 Zona Centro          100

II. PARTE

IDENTIFICACION DE NECESIDADES CLIENTE 1: CASAS EN LA ZONA NORTE

  1. Casas de la zona norte de la ciudad.

## [1] 722

Esto nos permite identificar que hay 722 casas en la Zona Norte, siendo 3 de estos:

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445            0      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## # A tibble: 4 × 2
##   estrato Conteo
##     <dbl>  <int>
## 1       3    235
## 2       4    161
## 3       5    271
## 4       6     55

Distribucion de habitacione en las casas de la zona norte

## # A tibble: 11 × 2
##    habitaciones Conteo
##           <dbl>  <int>
##  1            0     20
##  2            1      2
##  3            2     12
##  4            3    171
##  5            4    222
##  6            5    137
##  7            6     60
##  8            7     42
##  9            8     29
## 10            9     14
## 11           10     13
## # A tibble: 1 × 4
##   Min_Precio Max_Precio Media_Precio Mediana_Precio
##        <dbl>      <dbl>        <dbl>          <dbl>
## 1         89       1940         446.            390

En este mapa se clasificadas que si bien en la base de datos las casas estan clasificadas en zona norte, muchas casa están ubicadas fuera de la zona norte, por lo tanto para dar una mayor confiabilidad a la hora de sugerir es necesario filtrar los datos de las casas ubicadas en la zona norte.

Asumiendo que la zona norte de Cali corresponde a la zona de cuidad con latitud igual o superio a 3,450°

## [1] "Número de casas realmente en la Zona Norte según coordenadas: 237"
##        id          preciom         areaconst      habitaciones   
##  Min.   : 619   Min.   : 120.0   Min.   : 62.0   Min.   : 0.000  
##  1st Qu.:1161   1st Qu.: 340.0   1st Qu.:200.0   1st Qu.: 4.000  
##  Median :2155   Median : 420.0   Median :276.0   Median : 5.000  
##  Mean   :2164   Mean   : 457.6   Mean   :284.2   Mean   : 4.937  
##  3rd Qu.:3058   3rd Qu.: 550.0   3rd Qu.:350.0   3rd Qu.: 6.000  
##  Max.   :4135   Max.   :1650.0   Max.   :942.0   Max.   :10.000  
##     estrato          banios       parqueaderos       longitud     
##  Min.   :3.000   Min.   :0.000   Min.   : 0.000   Min.   :-76.53  
##  1st Qu.:4.000   1st Qu.:3.000   1st Qu.: 0.000   1st Qu.:-76.52  
##  Median :5.000   Median :4.000   Median : 2.000   Median :-76.52  
##  Mean   :4.333   Mean   :3.835   Mean   : 1.713   Mean   :-76.52  
##  3rd Qu.:5.000   3rd Qu.:5.000   3rd Qu.: 2.000   3rd Qu.:-76.51  
##  Max.   :6.000   Max.   :8.000   Max.   :10.000   Max.   :-76.50  
##     latitud          zona          
##  Min.   :3.450   Length:237        
##  1st Qu.:3.468   Class :character  
##  Median :3.476   Mode  :character  
##  Mean   :3.474                     
##  3rd Qu.:3.482                     
##  Max.   :3.485
##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7794686 0.4015793 0.4139203    0.3961266    0.2428046
## areaconst    0.7794686 1.0000000 0.3767718 0.3278308    0.3032504    0.1599904
## estrato      0.4015793 0.3767718 1.0000000 0.2052785    0.0118529    0.2231620
## banios       0.4139203 0.3278308 0.2052785 1.0000000    0.5967400    0.2784713
## habitaciones 0.3961266 0.3032504 0.0118529 0.5967400    1.0000000    0.2054722
## parqueaderos 0.2428046 0.1599904 0.2231620 0.2784713    0.2054722    1.0000000

##                  Variable Correlacion
## areaconst       areaconst   0.7794686
## banios             banios   0.4139203
## estrato           estrato   0.4015793
## habitaciones habitaciones   0.3961266
## parqueaderos parqueaderos   0.2428046

Para las casas en la zona Norte el precio se ve afectado por estas variables en este orden:

1, El área construida 2. El Número de baños 3. El Estrato 4. El número de habitaciones 5. El número de parqueaderos

  1. Estimación de un modelo de regresión lineal múltiple con las variables de las Casas del norte (precio = f(área construida, estrato, número de habitaciones, número de parqueaderos, número de baños ) )

e interpretación los coeficientes para determinar si son estadísticamente significativos, interprete el coeficiente R2

Discusión del ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = CasasNorte)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -319.47  -58.79  -16.01   49.19  691.84 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -70.78589   46.16608  -1.533  0.12657    
## areaconst      0.96887    0.06473  14.969  < 2e-16 ***
## estrato       30.08226   10.44644   2.880  0.00435 ** 
## habitaciones  14.91475    5.27799   2.826  0.00513 ** 
## parqueaderos   6.97181    4.62947   1.506  0.13344    
## banios         9.66324    6.62616   1.458  0.14610    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 113.3 on 231 degrees of freedom
## Multiple R-squared:  0.662,  Adjusted R-squared:  0.6547 
## F-statistic: 90.48 on 5 and 231 DF,  p-value: < 2.2e-16

Interpretación de los Coeficientes del Modelo

En el modelo de regresión lineal múltiple, cada coeficiente representa el impacto que tiene la variable independiente en el precio de la vivienda (preciom), manteniendo constantes las demás variables.

  1. Intercepto (-236.48) → No tiene una interpretación práctica relevante, ya que el precio de una vivienda no puede ser negativo. Sin embargo, matemáticamente indica el valor del precio cuando todas las demás variables son cero.

  2. Área Construida (areaconst = 0.82677, p < 0.001) → Este coeficiente es estadísticamente significativo, lo que significa que a medida que el área construida aumenta en 1 unidad, el precio de la vivienda aumenta en aproximadamente 0.83 unidades monetarias, manteniendo constantes las demás variables.

  3. Estrato (estrato = 86.43, p < 0.001) → También es estadísticamente significativo, lo que indica que por cada aumento en un nivel de estrato, el precio de la vivienda aumenta en 86.43 unidades monetarias en promedio. Esto sugiere que el estrato tiene un fuerte impacto en el precio.

  4. Número de Habitaciones (habitaciones = 1.44, p = 0.729) → No es estadísticamente significativo, ya que su p-valor es 0.729, mucho mayor a 0.05. Esto sugiere que el número de habitaciones no tiene un impacto claro en el precio de la vivienda dentro del modelo actual.

  5. Número de Parqueaderos (parqueaderos = -1.68, p = 0.698) → No es estadísticamente significativo, ya que su p-valor es 0.698. A pesar de que el coeficiente es negativo, esto no es suficiente para afirmar que más parqueaderos reducen el precio.

  6. Número de Baños (banios = 26.98, p < 0.001) → Es estadísticamente significativo, lo que significa que por cada baño adicional, el precio de la vivienda aumenta en 26.98 unidades monetarias en promedio.

Interpretación del Coeficiente R² y Ajuste del Modelo

-R² = 0.6508 → Esto indica que el 65.08% de la variabilidad en el precio de las viviendas puede explicarse por las variables incluidas en el modelo (área construida, estrato, número de habitaciones, parqueaderos y baños).

-R² Ajustado = 0.6484 → Al ajustar por la cantidad de variables en el modelo, el R² apenas baja ligeramente, lo que sugiere que no hay un exceso de variables irrelevantes en el modelo.

-F-Statistic (266.9, p < 0.001) → El modelo en su conjunto es estadísticamente significativo, lo que significa que al menos una de las variables explicativas tiene un impacto real en preciom.

Discusión del Ajuste del Modelo e Implicaciones

Fortalezas del modelo:

-Variables como área construida, estrato y número de baños tienen un impacto claro y significativo en el precio de la vivienda.

-El R² de 65% es razonablemente alto para un modelo de precios de vivienda, lo que indica que el modelo captura bien la relación entre las variables.

Limitaciones del modelo:

-Variables como número de habitaciones y parqueaderos no son significativas. Esto podría deberse a que su impacto está altamente correlacionado con otras variables como areaconst.

-Faltan variables clave como la ubicación exacta, antigüedad del inmueble, cercanía a transporte público, entre otras, que pueden influir en el precio de la vivienda.

Cómo mejorar el modelo:

-Incluir variables adicionales: Que podrian influir en la valorización de la vivienda, variables categóricas como la ubicación del barrio, cercanía a zonas comerciales, seguridad del sector, colegios, hospitales,etc que pueden mejorar la predicción del modelo.

-Transformación de variables: Probar una transformación logarítmica en preciom para mejorar la distribución de los datos y reducir el efecto de valores extremos.

-Eliminar variables redundantes: Si habitaciones y parqueaderos no son significativos, podríamos eliminarlas y evaluar si el modelo mejora.

Conclusión:

El modelo tiene un buen ajuste general, pero no todas las variables son significativas. Se debe considerar incluir nuevas variables y realizar ajustes adicionales para mejorar la predicción del precio de las viviendas.

  1. Validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

4.1 Supuesto de Linealidad

4.2 Supuesto de Independencia de Errores

##  lag Autocorrelation D-W Statistic p-value
##    1       0.0683498      1.860305   0.224
##  Alternative hypothesis: rho != 0

4.3 Supuesto de Homoscedasticidad (Varianza Constante)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 44.395, df = 5, p-value = 1.925e-08

Interpretación:

p-value < 0.05 → Se rechaza la hipótesis nula de homoscedasticidad → El modelo presenta heteroscedasticidad (varianza de los errores no constante). Si el modelo tuviera homoscedasticidad, el p-value debería ser mayor a 0.05.

4.4 Supuesto de Normalidad de los Errores

4.4.1 Distribución de Residuos

El histograma de los residuos nos permite evaluar que los errores del modelo siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.

lo que permite decir que el modelo hace buenas predicciones sin sesgo sistemático.

4.4.2 Gráfico Q-Q plot

El Gráfico Q-Q (Quantile-Quantile Plot) es una herramienta clave para evaluar si los residuos del modelo de regresión siguen una distribución normal, lo cual es un supuesto fundamental en la regresión lineal múltiple.

Se evidencia que los puntos se ajustan bien a la línea, el modelo cumple con el supuesto de normalidad, sin embargo, los puntos en los extremos se desvían de la línea roja, indica que hay valores inferiores y especialmente superiores, extremos (outliers)

4.5 Supuesto de Ausencia de Multicolinealidad

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.315847     1.263486     1.661939     1.125791     1.711668
## 
##  No hay colinealidad significativa (VIF < 5). El modelo es estable.

5.Predicción del precio de la vivienda con las características de la solicitud para una casa en la zona Norte:

## [1] "El precio estimado de la vivienda es: 329.27 millones"
## [1] "Precio esperado por el comprador: 350 millones"

Se ha utilizado el modelo de regresión lineal múltiple para predecir el precio de una Casa en la Zona Norte, con las siguientes características: ✔ Área construida: 200 m² ✔ Estrato: 4 (puede ser 5) ✔ Número de habitaciones: 4 ✔ Número de parqueaderos: 1 ✔ Número de baños: 2 ✔ Precio esperado por el comprador: 350 millones

El modelo permite establecer que las expectativas del cliente en cuanto al valor que puede pagar, son acorde a las caractrísticas de la casa en la zona norte que busca. POr lo tanto, es posible ofrecerle propuestas a esta solicitud.

6.Sugerencias de potenciales ofertas que responda a la solicitud de la vivienda para una casa del norte de la ciudad de Cali.

Teniendo en encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. En Sugerencia de las ofertas expresadas en un mapa.

III. PARTE

                                    OFERTAS PARA EL CLIENTE: 
## # A tibble: 21 × 10
##       id preciom areaconst habitaciones estrato banios parqueaderos longitud
##    <dbl>   <dbl>     <dbl>        <dbl>   <dbl>  <dbl>        <dbl>    <dbl>
##  1  1020     230       250            5       4      3            2    -76.5
##  2  1009     250       243            5       5      4            1    -76.5
##  3  1914     300       205            6       5      5            2    -76.5
##  4  3053     320       230            4       5      4            2    -76.5
##  5  1144     320       200            4       4      4            2    -76.5
##  6  1151     320       210            5       5      3            2    -76.5
##  7   766     321       249            5       5      5            1    -76.5
##  8   952     330       275            5       4      3            2    -76.5
##  9  1108     330       260            4       4      3            1    -76.5
## 10  3043     330       275            5       5      3            2    -76.5
## # ℹ 11 more rows
## # ℹ 2 more variables: latitud <dbl>, zona <chr>

Para las expectations del cliente, existen 21 opciones, siendo estas 5 las mejores en precio

LAS 5 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS

## [1] "Número total de ofertas disponibles: 21"
## # A tibble: 5 × 10
##      id preciom areaconst habitaciones estrato banios parqueaderos longitud
##   <dbl>   <dbl>     <dbl>        <dbl>   <dbl>  <dbl>        <dbl>    <dbl>
## 1  1020     230       250            5       4      3            2    -76.5
## 2  1009     250       243            5       5      4            1    -76.5
## 3  1914     300       205            6       5      5            2    -76.5
## 4  3053     320       230            4       5      4            2    -76.5
## 5  1144     320       200            4       4      4            2    -76.5
## # ℹ 2 more variables: latitud <dbl>, zona <chr>

Las siguientes ofertas han sido seleccionadas teniendo en cuenta que poseen el mismo número de habitaciones y baños que el cliente espera, asegurando así que cumplen con sus requisitos. Estas son las opciones que mejor se ajustan a sus necesidades:

LAS 5 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS

## [1] "Número total de ofertas disponibles: 3"
## # A tibble: 3 × 10
##      id preciom areaconst habitaciones estrato banios parqueaderos longitud
##   <dbl>   <dbl>     <dbl>        <dbl>   <dbl>  <dbl>        <dbl>    <dbl>
## 1  1822     340       295            4       4      2            2    -76.5
## 2  1163     350       216            4       5      2            2    -76.5
## 3  1943     350       346            4       5      2            1    -76.5
## # ℹ 2 more variables: latitud <dbl>, zona <chr>

LAS 3 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS

## [1] "Número total de ofertas disponibles: 3"
## # A tibble: 3 × 10
##      id preciom areaconst habitaciones estrato banios parqueaderos longitud
##   <dbl>   <dbl>     <dbl>        <dbl>   <dbl>  <dbl>        <dbl>    <dbl>
## 1  1822     340       295            4       4      2            2    -76.5
## 2  1163     350       216            4       5      2            2    -76.5
## 3  1943     350       346            4       5      2            1    -76.5
## # ℹ 2 more variables: latitud <dbl>, zona <chr>

LAS 3 CASAS EN LA ZONA NORTE SUGERIDAS DE ACUERDO A LOS REQUERIMIENTOS