MODELOS ESTADISTICOS PARA LA TOMA DE DECISIONES

UNIDAD 2: REGRESIÓN LINEAL MULTIPLE

ACTIVIDAD 2: CASO C&A

VIVIENDA 1: COMPRA CASA

1. CARACTERISTICAS DEL DATASETY TRATAMIENTO DE LOS DATOS

## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:8322] 1147 1169 1350 5992 1212 ...
##  $ zona        : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso        : chr [1:8322] NA NA NA "02" ...
##  $ estrato     : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo        : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
##  $ longitud    : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
##  - attr(*, "spec")=List of 3
##   ..$ cols   :List of 13
##   .. ..$ id          : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ zona        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ piso        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ estrato     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ preciom     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ areaconst   : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ parqueaderos: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ banios      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ habitaciones: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ tipo        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ barrio      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ longitud    : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ latitud     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   ..$ default: list()
##   .. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
##   ..$ delim  : chr ";"
##   ..- attr(*, "class")= chr "col_spec"
##  - attr(*, "problems")=<externalptr>

##  [1] "id"           "zona"         "piso"         "estrato"      "preciom"     
##  [6] "areaconst"    "parqueaderos" "banios"       "habitaciones" "tipo"        
## [11] "barrio"       "longitud"     "latitud"

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

Al respecto del dataset se púede observar en esta parte del codigo que el mismo contiene 8,322 observaciones y 13 variables, abarcando características como ubicación (zona, barrio, coordenadas), atributos físicos de la vivienda (área construida, número de baños y habitaciones, estrato, tipo de inmueble) y precio por metro cuadrado.

Distribución de variables numéricas:

El estrato varía entre 3 y 6, con una mediana de 5.
El precio por metro cuadrado tiene un amplio rango, desde 58 hasta 1,999, con una media de 433.9 y una mediana de 330.
La área construida también presenta gran variabilidad, con un mínimo de 30 m² y un máximo de 1,745 m².
El número de parqueaderos, baños y habitaciones tiene distribuciones heterogéneas, con valores atípicos (hasta 10 parqueaderos, baños y habitaciones en algunos casos).

1.1 Determinación de valores no numéricos en variables de interés

## [1] "Número de filas con datos no numéricos en cada columna:"

## $preciom
## [1] 2
## 
## $estrato
## [1] 3
## 
## $areaconst
## [1] 3
## 
## $parqueaderos
## [1] 1605
## 
## $banios
## [1] 3
## 
## $habitaciones
## [1] 3

1.2 Imputación preciom por la mediana

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    58.0   220.0   330.0   433.9   540.0  1999.0

En esta parte del codigo y una vez realizada la imputación de datos (preciom), es posible observar:

La vivienda más barata cuesta 58 millones.
El 25% de las viviendas cuestan menos de 220 millones.
El precio central: la mitad de las viviendas cuestan menos de 330 millones, la otra mitad más.
El promedio es 433.9 millones, más alto que la mediana (esto sugiere que hay valores extremos que elevan la media).
El 75% de las viviendas cuestan menos de 540 millones.
La vivienda más cara cuesta 1,999 millones.

1.3 Imputación estrato por la mediana

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   4.000   5.000   4.634   5.000   6.000

1.4 Imputación areaconst por la mediana

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    30.0    80.0   123.0   174.9   229.0  1745.0

1.5 Imputación numero de baños (banios) por la mediana

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   2.000   3.000   3.111   4.000  10.000

1.6 Imputación habitaciones por la mediana

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   3.000   3.000   3.605   4.000  10.000

1.7 Reemplazar NA en parqueaderos por el valor cero (Asumiendo que NA en parqueaderos significa que la vivienda no tiene parqueadero)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   1.000   1.481   2.000  10.000

2. CASO C&A (COMPRA DE VIVIENDA 1)

2.1 CARACTERISTICAS DE LA VIVIENDA

Tipo vivienda (tipo): Casa
Zona (zona): Zona Norte
Área construida (areaconst): 200 m²
Estrato (estrato): 4 o 5
Número de habitaciones (habitaciones): 4
Número de parqueaderos (parqueaderos): 1
Número de baños (banios): 2
Precio esperado (preciom): 350 millones

2.2 Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).

2.2.1 TABLA. NÚMERO DE CASAS EN LA ZONA NORTE FILTRADOS POR COLUMNA ZONA

## [1] 722

En este punto del codigo se esta aplicando un filtro solo a las casa ubicadas en la zona norte que es donde el cliente quiere la casa, de esta manera de 8322 registros una vez aplicado el filtro podemos saber que hay 722 casas en la Zoina Norte

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445            0      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

2.2.2 TABLA. RESUMEN DE LAS VARIABLES CLAVE

##        id             zona               piso              estrato     
##  Min.   :  58.0   Length:722         Length:722         Min.   :3.000  
##  1st Qu.: 766.2   Class :character   Class :character   1st Qu.:3.000  
##  Median :2257.0   Mode  :character   Mode  :character   Median :4.000  
##  Mean   :2574.6                                         Mean   :4.202  
##  3rd Qu.:4225.0                                         3rd Qu.:5.000  
##  Max.   :8319.0                                         Max.   :6.000  
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  89.0   Min.   :  30.0   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.: 0.000   1st Qu.: 2.000  
##  Median : 390.0   Median : 240.0   Median : 1.000   Median : 3.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   : 1.314   Mean   : 3.555  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :10.000   Max.   :10.000  
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:722         Length:722         Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.53  
##  Median : 4.000   Mode  :character   Mode  :character   Median :-76.52  
##  Mean   : 4.507                                         Mean   :-76.52  
##  3rd Qu.: 5.000                                         3rd Qu.:-76.50  
##  Max.   :10.000                                         Max.   :-76.47  
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.452  
##  Median :3.468  
##  Mean   :3.460  
##  3rd Qu.:3.482  
##  Max.   :3.496

2.2.3 TABLA. NÚMERO DE CASAS POR ESTRATO

## 
##   3   4   5   6 
## 235 161 271  55

En esta parte del còdigo podemos observar en que estratos se distribuyen las 722 casas de la Zona Norte:

El estrato más común en Zona Norte es el estrato 5, con 271 casas.
El estrato 6 tiene la menor cantidad de casas (55), lo que sugiere que hay menos viviendas de lujo.
Hay una cantidad significativa de casas en estrato 3 (235), lo que indica que en esta zona hay viviendas de nivel medio-bajo.
El estrato 4 tiene 161 casas, lo que lo hace el segundo menos frecuente en Zona Norte.

2.2.4 GRÁFICO. DISTRIBUCIÓN DEL PRECIO POR VIVIENDA

2.2.5 MAPA CASAS ZONA NORTE FILTRADAS POR COLUMNA ZONA

En el mapa es posible observar que muchas de las casas que se filtraron por Zona Norte en realidad no se encuentran en la Zona Norte, esto se puede deber a que en el dataset original en la columna zona muchas casas estas registradas como viviendas que se encuentran en Zona Norte en realizad no se encuentran en esta zona, razón por la cual se hará un nuevo filtro de las viviendas pero esta vez por coordenadas

2.2.6 TABLA. NÚMERO DE CASAS EN LA ZONA NORTE FILTRADOS POR COORDENADAS

## [1] "Número de casas realmente en la Zona Norte según coordenadas: 237"

2.2.7 MAPA. CASAS ZONA NORTE FILTRADAS POR COORDENADAS

2.3 Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.

2.3.1 ANÁLISIS DE CORRELACIÓN PRECIO-VARIABLES

##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7313480 0.6123503 0.5233357    0.3227096    0.3171472
## areaconst    0.7313480 1.0000000 0.4573818 0.4628152    0.3753323    0.3171473
## estrato      0.6123503 0.4573818 1.0000000 0.4083039    0.1073141    0.3495772
## banios       0.5233357 0.4628152 0.4083039 1.0000000    0.5755314    0.3267374
## habitaciones 0.3227096 0.3753323 0.1073141 0.5755314    1.0000000    0.2689443
## parqueaderos 0.3171472 0.3171473 0.3495772 0.3267374    0.2689443    1.0000000

En esta parte del codigo es posible observar que:

El precio (preciom) está más fuertemente correlacionado con el área construida (areaconst) 0.7313. Esto significa que el tamaño de la casa es el principal factor que influye en su precio. Conclusión: Casas más grandes suelen ser más caras.
El estrato (estrato) también tiene una correlación significativa con el precio (0.6123). Esto significa que las casas en estratos más altos tienden a ser más caras. Conclusión: La ubicación socioeconómica influye en el precio de la vivienda.
El número de baños (banios) tiene una correlación moderada con el precio (0.5233). Más baños suelen estar asociados con casas más caras, aunque el efecto es menor que el del área construida.
El número de habitaciones (habitaciones) tiene la correlación más baja con el precio (0.3227).Esto sugiere que tener más habitaciones no aumenta el precio tanto como el área construida.

2.3.1 GRÁFICO MAPA DE CALOR PRECIO vs VARIABLES

Es posible observar con el mapa de calor como colores de azul mas claros como el que se da entre preciom y areaconst indican una correlacion mas fuerte entre estos dos factores, si se observa por ejemplo el de preciom con habitaciones, da un color de azul mas intenso sugiriendo una correlacion menos marcada entre estos dos factores.

2.3.2 GRÁFICO DE DISPERSIÓN INTERACTIVO PRECIO vs ÁREA CONSTRUIDA

Es posible observar Tendencia general: Se observa una relación positiva entre el área construida y el precio. Es decir, a medida que el tamaño de la vivienda aumenta, el precio también tiende a subir. Esto es lógico, ya que en bienes raíces, una mayor área suele significar un mayor valor.

Dispersión de datos: Aunque hay una tendencia creciente, los puntos están dispersos, lo que sugiere que otros factores (como ubicación, estrato, calidad de construcción) pueden estar influyendo en el precio.una relación positiva entre el área construida y el precio. Es decir, a medida que el tamaño de la vivienda aumenta, el precio también tiende a subir. Esto es lógico, ya que en bienes raíces, una mayor área suele significar un mayor valor.

2.3.3 GRÁFICO DE DISPERSIÓN INTERACTIVO PRECIO vs ESTRATO

En el gráfico de dispersión por estrato es posible observar:

Estrato 3: El precio medio es bajo y está más concentrado en un rango pequeño. Existen pocos valores atípicos con precios altos. La dispersión del precio es menor que en los estratos superiores.

Estrato 4: Se observa un aumento en la mediana del precio respecto al estrato 3. La caja es más grande, lo que indica una mayor variabilidad en los precios dentro de este estrato. Aparecen más valores atípicos por encima del rango intercuartil.

Estrato 5: Se mantiene una tendencia creciente en la mediana de los precios. Hay más dispersión en los datos en comparación con el estrato 4. Se identifican varios valores atípicos por encima de 1000 millones.

Estrato 6: Es el estrato con los precios más altos y mayor dispersión. La caja es más grande, lo que indica alta variabilidad. Existen valores extremos que superan los 1200-1500 millones.

2.3.4 GRÁFICO DE DISPERSIÓN INTERACTIVO PRECIO vs BAÑOS

Este gráfico muestra cómo varía el precio por metro cuadrado en función de la cantidad de baños en la vivienda.Es posible observar como el precio tiende a aumentar con el número de baños, lo que indica que las viviendas más caras suelen tener más baños. Existe una gran variabilidad en los precios, incluso dentro de cada categoría de número de baños. Los valores atípicos son comunes, especialmente en viviendas con más de 5 baños. Podría haber casos especiales (como viviendas comerciales, de lujo o con características atípicas) en las categorías con mayor número de baños.

2.3.5 GRÁFICO DE DISPERSIÓN INTERACTIVO PRECIO vs HABITACIONES

Este gráfico representa la relación entre el número de habitaciones y el precio de la vivienda en millones. El precio generalmente aumenta con el número de habitaciones, pero no de manera completamente lineal. Las viviendas con más habitaciones presentan una mayor dispersión en los precios, lo que indica una mayor diversidad en las características de estas propiedades. Los valores atípicos son frecuentes, especialmente en viviendas con más de 3 habitaciones, lo que sugiere la presencia de propiedades de lujo o con características únicas. Las viviendas con 10 habitaciones tienen los precios más altos, lo que puede indicar que se trata de casas grandes o propiedades especiales.

2.3.6 GRÁFICO DE DISPERSIÓN INTERACTIVO PRECIO vs ZONA

Este gráfico representa cómo varían los precios de las viviendas en la Zona Norte.La mayoría de las viviendas en la Zona Norte tienen precios entre 200 y 600 millones. Existen algunas propiedades significativamente más caras, probablemente viviendas de lujo o con características especiales. La gran cantidad de valores atípicos sugiere que hay una diversidad en los tipos de vivienda en esta zona.

2.4 Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)

2.4.1 MÓDELO DE REGRESIÓN LINEAL MÚLTIPLE.

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -964.04  -80.10  -17.08   50.06 1069.45 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -236.47551   30.36582  -7.788 2.40e-14 ***
## areaconst       0.82677    0.04368  18.926  < 2e-16 ***
## estrato        86.42579    7.39747  11.683  < 2e-16 ***
## habitaciones    1.44443    4.16411   0.347    0.729    
## parqueaderos   -1.67672    4.31505  -0.389    0.698    
## banios         26.97978    5.34384   5.049 5.65e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 159.1 on 716 degrees of freedom
## Multiple R-squared:  0.6508, Adjusted R-squared:  0.6484 
## F-statistic: 266.9 on 5 and 716 DF,  p-value: < 2.2e-16

Teniendo en cuenta que un valor de p<0.05 indica la significancia de un factor en relación con el precio es posible concluir una vez aplicado el modelo de regresión lineal múltiple que el área construida y el estrato son los principales determinantes del precio de la vivienda. Por cada metro cuadrado adicional, el precio aumenta en 0.82 millones, mientras que subir un nivel de estrato incrementa el precio en 86.42 millones.

Además, el número de baños y parqueaderos también tiene un impacto significativo en el precio aunque no mayor que los dos anteriores factores, pero el número de habitaciones no tiene un efecto estadísticamente significativo cuando controlamos por otras variables.

El coeficiente de determinación (R² = 0.6508) indica que el modelo explica el 65.08% de la variabilidad en los precios, lo que es un buen ajuste, aunque aún hay un 34.92% de la variabilidad no explicada. Esto sugiere que factores adicionales como la ubicación exacta, la antigüedad de la vivienda o la calidad de los materiales podrían mejorar el modelo.

Para mejorar la precisión del modelo, se recomienda incluir variables geográficas más detalladas, explorar transformaciones como log(preciom), y analizar interacciones entre variables.

2.5 Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

2.5.1 SUPUESTO DE LINEALIDAD

Este gráfico muestra la relación entre los residuos (errores del modelo) y los valores ajustados (predichos por el modelo de regresión lineal múltiple). El modelo no presenta un sesgo grave, ya que los residuos están distribuidos alrededor de 0 sin una clara tendencia ascendente o descendente.Asimismo, existen valores atípicos, lo que indica que algunas viviendas tienen precios fuera de la tendencia general y podrían estar afectando el ajuste del modelo.

2.5.2 SUPUESTO DE INDEPENDENCIA DE ERRORES

##  lag Autocorrelation D-W Statistic p-value
##    1       0.1831348      1.633018       0
##  Alternative hypothesis: rho != 0

La prueba de Durbin-Watson evalúa si los residuos del modelo presentan autocorrelación, es decir, si los errores están correlacionados entre sí en función del orden en los datos. La prueba de Durbin-Watson (D-W = 1.633, p < 0.05) indica que los errores del modelo tienen una leve autocorrelación positiva, lo que sugiere que el modelo podría estar omitiendo alguna variable importante o que hay una estructura subyacente en los datos. Para mejorar el modelo, se recomienda agregar variables relevantes, probar transformaciones o considerar modelos que manejen autocorrelación, como regresión con errores correlacionados o modelos de series temporales.

2.5.3 SUPUESTO DE HOMOCEDASTICIDAD

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 139, df = 5, p-value < 2.2e-16

La prueba de Breusch-Pagan se utiliza para detectar heterocedasticidad, es decir, si la varianza de los errores del modelo es constante (homocedasticidad) o si cambia dependiendo del valor de las variables predictoras (heterocedasticidad). La prueba de Breusch-Pagan (BP = 139, p < 2.2e-16) indica que el modelo presenta heterocedasticidad, lo que significa que los errores tienen varianza no constante.Para corregir este problema podría aplicarse una transformación logarítmica en la variable dependiente, utilizar errores estándar robustos para ajustar las inferencias estadísticas, considerar una regresión ponderada para ajustar la varianza de los errores y aAnalizar posibles valores atípicos que puedan estar generando la heterocedasticidad.

2.5.4 SUPUESTO DE NORMALIDAD DE ERRORES

2.5.4.1 DISTRIBUCIÓN DE ERRORES Este histograma muestra la distribución de los residuos del modelo de regresión, lo que permite evaluar si cumplen con el supuesto de normalidad, un requisito importante en la regresión lineal para que las inferencias sean válidas. El histograma muestra que los residuos están centrados en cero, pero la presencia de valores extremos sugiere que la normalidad no es perfecta. Esto podría afectar las inferencias del modelo, por lo que se recomienda explorar transformaciones, revisar valores atípicos y realizar pruebas formales de normalidad.

2.5.4.2 GRÁFICO Q-Q plot El Q-Q Plot se utiliza para evaluar si los residuos del modelo de regresión siguen una distribución normal. Para el módelo, este gráfico Q-Q Plot indica que los residuos del modelo son aproximadamente normales en su parte central, pero los valores extremos muestran colas largas y outliers. Esto sugiere que el modelo podría beneficiarse de transformaciones en la variable dependiente, análisis de valores atípicos o pruebas adicionales de normalidad para mejorar su ajuste y la validez de sus inferencias.

2.5.5 SUPUESTO DE AUSENCIA DE MULTICOLINEALIDAD

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.518244     1.504946     1.649049     1.234902     1.887923

todas las variables tienen valores VIF menores a 5, lo que significa que no hay problemas de multicolinealidad en el modelo.
No es necesario eliminar ninguna variable, ya que ninguna está excesivamente correlacionada con otra.

2.6 Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

Zona (zona): Zona Norte
Área construida (areaconst): 200 m²
Estrato (estrato): 4 o 5
Número de habitaciones (habitaciones): 4
Número de parqueaderos (parqueaderos): 1
Número de baños (banios): 2
Precio esperado (preciom): 350 millones

2.6.1 PREDICCIÓN DEL PRECIO A TRAVÉS DEL MODELO DE REGRESIÓN MULTIPLE

## [1] "El precio estimado de la vivienda es: 332.64 millones"

## [1] "Precio esperado por el comprador: 350 millones"

Usando el modelo de regresión lineal múltiple, se estimó el precio de una vivienda en Zona Norte con 200 m² de área construida, estrato 4, 4 habitaciones, 1 parqueadero y 2 baños.

La predicción del modelo indica que el precio estimado de la vivienda es 332.64 millones, lo cual se compara con el precio esperado de 350 millones.

Para evaluar si la diferencia entre el valor esperado (350 millones) y el valor estimado por el modelo (332.64 millones) es significativa, se comparó con el error estándar residual (159.1millones). Dado que la diferencia de 17.36 millones es mucho menor que el margen de error del modelo, se concluye que esta diferencia no es significativa.

Por lo tanto, el precio estimado de 332.64 millones es razonable y coherente con el modelo, sin que haya evidencia suficiente para afirmar que difiere significativamente del valor esperado.”*

2.7 Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.

2.7.1 TABLA NÚMERO DE OFERTAS DISPONIBLES

## [1] "Número total de ofertas disponibles: 3"

2.7.2 TABLA OFERTAS DISPONIBLES

Es posible observar que porpocionando al módelo las caracteristicas exactas de la vivienda requerida por el comprador 1, el modelo solo logra encontrar tres viviendas que cumplan dichas especiuficaciones.

A continuación se presenta en el mapa estas tres ofertas:

2.7.3 MAPA UBICACIÓN DE LAS OFERTAS DISPONIBLES

Como el cliente requiere al menos cinco ofertas, se van a flexibilizar las especificaciones de las características de la vivienda para encontrar al menos cinco ofertas:

2.7.1 TABLA NÚMERO DE OFERTAS DISPONIBLES

## [1] "Número total de ofertas disponibles: 13"

CASO C&A CASA

DIEGO FORERO

2025-03-02

1. CARACTERISTICAS DEL DATASETY TRATAMIENTO DE LOS DATOS

2. CASO C&A (COMPRA DE VIVIENDA 1)