ANÁLISIS DEL MERCADO INMOBILIARIA DE LA EMPRESA A&C

1. Problema

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C requiere el apoyo de un cientifico de datos en la construcción de un modelo que lo oriente sobre los precios de inmuebles.

Con este propósito el equipo de asesores ha diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar

PUNTO 1

Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados).

1.1 Resumen estadístico de las viviendas:

##            zona      estrato     preciom        areaconst     
##  Zona Centro :   8   3:   0   Min.   :207.4   Min.   : 40.00  
##  Zona Norte  : 288   4:1706   1st Qu.:230.7   1st Qu.: 60.00  
##  Zona Oeste  :  60   5:   0   Median :238.8   Median : 75.00  
##  Zona Oriente:   6   6:   0   Mean   :243.7   Mean   : 87.63  
##  Zona Sur    :1344            3rd Qu.:251.5   3rd Qu.: 98.00  
##                               Max.   :309.7   Max.   :200.00  
##           tipo     
##  Apartamento:1363  
##  Casa       : 343  
##                    
##                    
##                    
## 
1.1.2. Resumen estadístico de las viviendas tipo casa:
##            zona     estrato    preciom        areaconst              tipo    
##  Zona Centro :  1   3:  0   Min.   :221.3   Min.   : 54.0   Apartamento:  0  
##  Zona Norte  : 51   4:343   1st Qu.:251.1   1st Qu.:100.0   Casa       :343  
##  Zona Oeste  :  8   5:  0   Median :264.6   Median :130.0                    
##  Zona Oriente:  4   6:  0   Mean   :267.6   Mean   :135.9                    
##  Zona Sur    :279           3rd Qu.:287.3   3rd Qu.:170.0                    
##                             Max.   :309.7   Max.   :200.0
1.1.3. Resumen estadístico de las viviendas tipo apartamento:
##            zona      estrato     preciom        areaconst     
##  Zona Centro :   7   3:   0   Min.   :207.4   Min.   : 40.00  
##  Zona Norte  : 237   4:1363   1st Qu.:228.8   1st Qu.: 60.00  
##  Zona Oeste  :  52   5:   0   Median :236.1   Median : 70.00  
##  Zona Oriente:   2   6:   0   Mean   :237.7   Mean   : 75.48  
##  Zona Sur    :1065            3rd Qu.:243.6   3rd Qu.: 84.00  
##                               Max.   :305.2   Max.   :200.00  
##           tipo     
##  Apartamento:1363  
##  Casa       :   0  
##                    
##                    
##                    
## 

En promedio, las casas tienen un metro cuadrado más alto, con un promedio de 135.9, mientras que los apartamentos tienen un promedio de 75.48 por metro cuadrado. Las viviendas con el metro cuadrado más grande se encuentran principalmente en la zona oriente, seguidas de la zona centro. Por otro lado, la zona oeste tiende a tener el tamaño más pequeño, con un promedio de 81 metros cuadrados.

En cuanto a la relación entre el área y el precio promedio de las viviendas en su totalidad, es relevante señalar que los tamaños varían desde un mínimo de 40 hasta un máximo de 200. En cuanto a los precios, el rango va desde un mínimo de 207.4 hasta un máximo de 309.7.

Es importante destacar que, según el resumen estadístico de cada tipo de vivienda, el tamaño mínimo lo tiene un apartamento, con un área construida de 40, mientras que para las casas el tamaño mínimo es de 54.

Ambos tipos de vivienda coinciden con el área más grande, que es de 200 para ambos casos. Las viviendas más grandes se encuentran principalmente en las zonas sur y centro, ya que en ambas áreas se registra el mismo tamaño máximo tanto para apartamentos como para casas.

El precio mínimo para las casas es de 221.3, mientras que para los apartamentos es de 207.5. Los dos precios más altos de las viviendas se ubican en la zona sur, con valores de 309.7 y 305.2 para casas y apartamentos respectivamente, ambos con un área de 200 metros cuadrados.

1.1.4. Resumen estadístico de las viviendas de la zona centro
##            zona   estrato    preciom        areaconst              tipo  
##  Zona Centro :8   3:0     Min.   :236.2   Min.   : 62.0   Apartamento:7  
##  Zona Norte  :0   4:8     1st Qu.:243.8   1st Qu.: 90.0   Casa       :1  
##  Zona Oeste  :0   5:0     Median :259.3   Median :120.0                  
##  Zona Oriente:0   6:0     Mean   :257.3   Mean   :112.1                  
##  Zona Sur    :0           3rd Qu.:267.2   3rd Qu.:132.5                  
##                           Max.   :279.0   Max.   :155.0
1.1.5. Resumen estadístico de las viviendas tipo casa de la zona centro
##            zona   estrato    preciom        areaconst            tipo  
##  Zona Centro :1   3:0     Min.   :263.5   Min.   :143   Apartamento:0  
##  Zona Norte  :0   4:1     1st Qu.:263.5   1st Qu.:143   Casa       :1  
##  Zona Oeste  :0   5:0     Median :263.5   Median :143                  
##  Zona Oriente:0   6:0     Mean   :263.5   Mean   :143                  
##  Zona Sur    :0           3rd Qu.:263.5   3rd Qu.:143                  
##                           Max.   :263.5   Max.   :143
1.1.6. Resumen estadístico de las viviendas tipo apartamento de la zona centro
##            zona   estrato    preciom        areaconst              tipo  
##  Zona Centro :7   3:0     Min.   :236.2   Min.   : 62.0   Apartamento:7  
##  Zona Norte  :0   4:7     1st Qu.:241.3   1st Qu.: 84.0   Casa       :0  
##  Zona Oeste  :0   5:0     Median :257.3   Median :120.0                  
##  Zona Oriente:0   6:0     Mean   :256.4   Mean   :107.7                  
##  Zona Sur    :0           3rd Qu.:269.7   3rd Qu.:124.5                  
##                           Max.   :279.0   Max.   :155.0
1.1.7. Resumen estadístico de las viviendas de la zona norte
##            zona     estrato    preciom        areaconst               tipo    
##  Zona Centro :  0   3:  0   Min.   :216.2   Min.   : 51.00   Apartamento:237  
##  Zona Norte  :288   4:288   1st Qu.:231.5   1st Qu.: 63.00   Casa       : 51  
##  Zona Oeste  :  0   5:  0   Median :239.3   Median : 75.00                    
##  Zona Oriente:  0   6:  0   Mean   :243.6   Mean   : 87.79                    
##  Zona Sur    :  0           3rd Qu.:250.2   3rd Qu.:100.00                    
##                             Max.   :306.4   Max.   :200.00
1.1.8. Resumen estadístico de las viviendas tipo casa de la zona norte
##            zona    estrato    preciom        areaconst              tipo   
##  Zona Centro : 0   3: 0    Min.   :222.4   Min.   : 73.0   Apartamento: 0  
##  Zona Norte  :51   4:51    1st Qu.:247.4   1st Qu.:100.0   Casa       :51  
##  Zona Oeste  : 0   5: 0    Median :262.6   Median :120.0                   
##  Zona Oriente: 0   6: 0    Mean   :264.8   Mean   :130.2                   
##  Zona Sur    : 0           3rd Qu.:280.3   3rd Qu.:160.0                   
##                            Max.   :306.4   Max.   :200.0
1.1.9. Resumen estadístico de las viviendas tipo apartamento de la zona norte
##            zona     estrato    preciom        areaconst               tipo    
##  Zona Centro :  0   3:  0   Min.   :216.2   Min.   : 51.00   Apartamento:237  
##  Zona Norte  :237   4:237   1st Qu.:230.4   1st Qu.: 61.00   Casa       :  0  
##  Zona Oeste  :  0   5:  0   Median :236.7   Median : 73.00                    
##  Zona Oriente:  0   6:  0   Mean   :239.1   Mean   : 78.67                    
##  Zona Sur    :  0           3rd Qu.:243.7   3rd Qu.: 83.00                    
##                             Max.   :302.4   Max.   :200.00
1.1.10. Resumen estadístico de las viviendas de la zona oeste
##            zona    estrato    preciom        areaconst               tipo   
##  Zona Centro : 0   3: 0    Min.   :215.4   Min.   : 48.00   Apartamento:52  
##  Zona Norte  : 0   4:60    1st Qu.:229.4   1st Qu.: 60.00   Casa       : 8  
##  Zona Oeste  :60   5: 0    Median :239.0   Median : 69.50                   
##  Zona Oriente: 0   6: 0    Mean   :241.4   Mean   : 81.12                   
##  Zona Sur    : 0           3rd Qu.:254.1   3rd Qu.: 93.50                   
##                            Max.   :293.5   Max.   :190.00
1.1.11. Resumen estadístico de las viviendas tipo casa de la zona oeste
##            zona   estrato    preciom        areaconst              tipo  
##  Zona Centro :0   3:0     Min.   :229.7   Min.   : 67.0   Apartamento:0  
##  Zona Norte  :0   4:8     1st Qu.:246.0   1st Qu.:106.5   Casa       :8  
##  Zona Oeste  :8   5:0     Median :256.4   Median :115.0                  
##  Zona Oriente:0   6:0     Mean   :257.4   Mean   :121.8                  
##  Zona Sur    :0           3rd Qu.:264.4   3rd Qu.:132.2                  
##                           Max.   :293.5   Max.   :190.0
1.1.12. Resumen estadístico de las viviendas tipo apartamento de la zona oeste
##            zona    estrato    preciom        areaconst               tipo   
##  Zona Centro : 0   3: 0    Min.   :215.4   Min.   : 48.00   Apartamento:52  
##  Zona Norte  : 0   4:52    1st Qu.:227.7   1st Qu.: 58.25   Casa       : 0  
##  Zona Oeste  :52   5: 0    Median :238.3   Median : 63.00                   
##  Zona Oriente: 0   6: 0    Mean   :238.9   Mean   : 74.87                   
##  Zona Sur    : 0           3rd Qu.:246.6   3rd Qu.: 82.00                   
##                            Max.   :275.2   Max.   :144.00
1.1.13. Resumen estadístico de las viviendas de la zona oeste
##            zona    estrato    preciom        areaconst               tipo   
##  Zona Centro : 0   3: 0    Min.   :215.4   Min.   : 48.00   Apartamento:52  
##  Zona Norte  : 0   4:60    1st Qu.:229.4   1st Qu.: 60.00   Casa       : 8  
##  Zona Oeste  :60   5: 0    Median :239.0   Median : 69.50                   
##  Zona Oriente: 0   6: 0    Mean   :241.4   Mean   : 81.12                   
##  Zona Sur    : 0           3rd Qu.:254.1   3rd Qu.: 93.50                   
##                            Max.   :293.5   Max.   :190.00
1.1.14. Resumen estadístico de las viviendas tipo casa de la zona oeste
##            zona   estrato    preciom        areaconst              tipo  
##  Zona Centro :0   3:0     Min.   :229.7   Min.   : 67.0   Apartamento:0  
##  Zona Norte  :0   4:8     1st Qu.:246.0   1st Qu.:106.5   Casa       :8  
##  Zona Oeste  :8   5:0     Median :256.4   Median :115.0                  
##  Zona Oriente:0   6:0     Mean   :257.4   Mean   :121.8                  
##  Zona Sur    :0           3rd Qu.:264.4   3rd Qu.:132.2                  
##                           Max.   :293.5   Max.   :190.0
1.1.15. Resumen estadístico de las viviendas tipo apartamento de la zona oeste
##            zona    estrato    preciom        areaconst               tipo   
##  Zona Centro : 0   3: 0    Min.   :215.4   Min.   : 48.00   Apartamento:52  
##  Zona Norte  : 0   4:52    1st Qu.:227.7   1st Qu.: 58.25   Casa       : 0  
##  Zona Oeste  :52   5: 0    Median :238.3   Median : 63.00                   
##  Zona Oriente: 0   6: 0    Mean   :238.9   Mean   : 74.87                   
##  Zona Sur    : 0           3rd Qu.:246.6   3rd Qu.: 82.00                   
##                            Max.   :275.2   Max.   :144.00
1.1.16. Resumen estadístico de las viviendas de la zona oriente
##            zona   estrato    preciom        areaconst              tipo  
##  Zona Centro :0   3:0     Min.   :236.8   Min.   : 84.0   Apartamento:2  
##  Zona Norte  :0   4:6     1st Qu.:246.3   1st Qu.: 96.0   Casa       :4  
##  Zona Oeste  :0   5:0     Median :265.2   Median :120.0                  
##  Zona Oriente:6   6:0     Mean   :265.2   Mean   :125.2                  
##  Zona Sur    :0           3rd Qu.:281.8   3rd Qu.:153.0                  
##                           Max.   :296.7   Max.   :175.0
1.1.17. Resumen estadístico de las viviendas tipo casa de la zona oriente
##            zona   estrato    preciom        areaconst              tipo  
##  Zona Centro :0   3:0     Min.   :253.3   Min.   :114.0   Apartamento:0  
##  Zona Norte  :0   4:4     1st Qu.:271.1   1st Qu.:123.0   Casa       :4  
##  Zona Oeste  :0   5:0     Median :280.2   Median :144.0                  
##  Zona Oriente:4   6:0     Mean   :277.6   Mean   :144.2                  
##  Zona Sur    :0           3rd Qu.:286.7   3rd Qu.:165.2                  
##                           Max.   :296.7   Max.   :175.0
1.1.18. Resumen estadístico de las viviendas tipo apartamento de la zona oriente
##            zona   estrato    preciom        areaconst             tipo  
##  Zona Centro :0   3:0     Min.   :236.8   Min.   :84.0   Apartamento:2  
##  Zona Norte  :0   4:2     1st Qu.:238.6   1st Qu.:85.5   Casa       :0  
##  Zona Oeste  :0   5:0     Median :240.4   Median :87.0                  
##  Zona Oriente:2   6:0     Mean   :240.4   Mean   :87.0                  
##  Zona Sur    :0           3rd Qu.:242.2   3rd Qu.:88.5                  
##                           Max.   :244.0   Max.   :90.0
1.1.19. Resumen estadístico de las viviendas de la zona sur
##            zona      estrato     preciom        areaconst     
##  Zona Centro :   0   3:   0   Min.   :207.4   Min.   : 40.00  
##  Zona Norte  :   0   4:1344   1st Qu.:230.6   1st Qu.: 60.00  
##  Zona Oeste  :   0   5:   0   Median :238.5   Median : 75.00  
##  Zona Oriente:   0   6:   0   Mean   :243.6   Mean   : 87.57  
##  Zona Sur    :1344            3rd Qu.:251.4   3rd Qu.: 98.00  
##                               Max.   :309.7   Max.   :200.00  
##           tipo     
##  Apartamento:1065  
##  Casa       : 279  
##                    
##                    
##                    
## 
1.1.20. Resumen estadístico de las viviendas tipo casa de la zona sur
##            zona     estrato    preciom        areaconst              tipo    
##  Zona Centro :  0   3:  0   Min.   :221.3   Min.   : 54.0   Apartamento:  0  
##  Zona Norte  :  0   4:279   1st Qu.:251.1   1st Qu.:100.0   Casa       :279  
##  Zona Oeste  :  0   5:  0   Median :265.0   Median :132.0                    
##  Zona Oriente:  0   6:  0   Mean   :268.3   Mean   :137.2                    
##  Zona Sur    :279           3rd Qu.:288.4   3rd Qu.:177.5                    
##                             Max.   :309.7   Max.   :200.0
1.1.21. Resumen estadístico de las viviendas tipo apartamento de la zona sur
##            zona      estrato     preciom        areaconst     
##  Zona Centro :   0   3:   0   Min.   :207.4   Min.   : 40.00  
##  Zona Norte  :   0   4:1065   1st Qu.:228.6   1st Qu.: 60.00  
##  Zona Oeste  :   0   5:   0   Median :235.8   Median : 70.00  
##  Zona Oriente:   0   6:   0   Mean   :237.2   Mean   : 74.57  
##  Zona Sur    :1065            3rd Qu.:243.3   3rd Qu.: 83.00  
##                               Max.   :305.2   Max.   :200.00  
##           tipo     
##  Apartamento:1065  
##  Casa       :   0  
##                    
##                    
##                    
## 

1.2.1. Exploración del número de viviendas a nivel de detalle

## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##            8          288           60            6         1344

#### 1.2.2. Exploración del precio de las viviendas a nivel de detalle

En la zona sur, tanto las viviendas tipo casa como los apartamentos presentan la mayor variabilidad de precios, mostrando tanto el valor mínimo como el máximo.

Tras realizar un análisis exploratorio de la base de datos, se pueden extraer hallazgos significativos. Por ejemplo, se cuenta con un total de 1,706 registros de viviendas, distribuidos mayormente entre apartamentos (79.9%) y casas (20.1%).

En cuanto a la ubicación geográfica, la mayoría de las viviendas se encuentran en la zona sur, representando el 79% del total con 1.344 registros. Le sigue la zona norte con 288 registros (17%), la zona oeste con 60 (4%), la zona centro con 8 (0.5%), y la zona oriente con tan solo 6 viviendas (0.4%). Este análisis proporciona una comprensión inicial de la distribución y composición de la base de datos.

En la base de datos, todas las viviendas registradas pertenecen al estrato 4.

En lo que respecta al precio promedio por tipo de vivienda, se observa que las casas tienen un valor medio de 268, mientras que los apartamentos presentan un promedio de 238. Al analizar la distribución por zonas, se destaca que la zona oriente cuenta con el precio promedio más elevado, siendo este de 265, seguida por la zona centro con 257. Por otro lado, la zona oeste registra el precio promedio más bajo, situándose en 241. En cuanto a la zona sur, se caracteriza por una mayor dispersión en los precios promedios, evidenciando tanto valores máximos como mínimos. En contraste, las zonas oriente y centro muestran una mayor estabilidad en los precios promedio, reflejada en la homogeneidad de sus cuartiles.

En promedio, las casas tienen un metro cuadrado más amplio, alcanzando los 136, mientras que los apartamentos registran un promedio de 75 metros cuadrados. Las viviendas con la mayor superficie por metro cuadrado se encuentran predominantemente en la zona oriente, seguidas por la zona centro. En contraste, la zona oeste presenta las viviendas de menor tamaño, con una media de 81 metros cuadrados.

PUNTO 2

Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida).

2.1. Relación entre precio y área construída

## [1] 0.9309803

## [1] 0.9424731

## [1] 0.8463271

## [1] 0.9267291

## [1] 0.9243858

## [1] 0.8908308

## [1] 0.9673888

## [1] 0.9329662
2.1.1. Tabla comparativa de las correlaciones de los diferentes tipos de vivienda y zona
##                      Nombres Correlaciones
## 1          Viviendas Totales     0.9309803
## 2        Viviendas Tipo Casa     0.9424731
## 3 Viviendas Tipo Apartamento     0.8463271
## 4      Viviendas Zona Centro     0.9267291
## 5       Viviendas Zona Norte     0.9243858
## 6       Viviendas Zona Oeste     0.8908308
## 7     Viviendas Zona Oriente     0.9673888
## 8         Viviendas Zona Sur     0.9329662

Tras generar el gráfico de dispersión que muestra las relaciones entre los diferentes tipos de viviendas y zonas, se procedió a analizar los coeficientes de correlación entre el precio promedio y el área. Los resultados revelan una correlación positiva sólida en todos los datos analizados, lo que indica que a medida que una variable aumenta, la otra tiende a aumentar también.

Es relevante señalar que la correlación positiva más baja se observa en las viviendas tipo apartamento. Sin embargo, la correlación más fuerte se alcanza en las viviendas ubicadas en la zona oriente, a pesar de que este sector cuenta con un menor número de viviendas, apenas seis en total.

Las gráficas anteriores muestran, a nivel detallado de zona, la distribución del precio según los rangos del área construida, divididos en 10 intervalos con igual número de datos. En términos generales, se observa una distribución poco sesgada en la mayoría de los rangos, ya que la mediana se sitúa casi exactamente entre el segundo y el tercer cuartil.

Destaca el tercer rango (72.88), que presenta el mayor número de valores atípicos, con datos que se encuentran fuera del rango intercuartil en ambos extremos.

2.2. Exploración de la distribución de los precios en función del área construída

En contraste con las viviendas tipo casa, los apartamentos muestran una mayor cantidad de datos inusuales en la mayoría de los rangos. Esto se debe principalmente a la presencia de valores atípicos y a una distribución menos sesgada, como se evidencia por la ubicación de la mediana dentro de cada rango. Esta posición de la mediana está influenciada por la presencia de valores tanto altos como bajos, lo que contribuye a una distribución menos uniforme de los datos.

Las gráficas anteriores muestran, a nivel detallado de zona, la distribución del precio según los rangos del área construida, los cuales están divididos en 10 intervalos con el mismo número de datos.

2.3. Exploración en la distribución del precio de las viviendas

## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##            4          234           47            3         1077

El gráfico de densidad anterior permite identificar la distribución de los precios a lo largo de los registros de las viviendas. Se observa que la mayoría de las viviendas tienen precios comprendidos entre 220 y 260, para un total de 1.365 registros distribuidos en las distintas zonas.

2.4. Exploración en la distribución del área construída y precio de las viviendas por zona

Considerando los gráficos anteriores, podemos analizar la distribución de los dos tipos de viviendas en las diferentes zonas y cómo estas se relacionan con el total de viviendas. Es importante destacar que, debido a la escasa cantidad de viviendas en las zonas centro, oeste y oriente, nos centraremos en profundizar en las viviendas ubicadas en las zonas sur y norte.

La distribución de las viviendas tipo casa se extiende por todo el gráfico de distribución, tanto en área construida como en precio, lo que sugiere una amplia variedad en ambas variables para este tipo de vivienda.

Tanto en las zonas norte como sur, los apartamentos muestran un pico de precios cerca al valor de 240, lo que indica que un gran número de viviendas se sitúan en torno a ese valor. Por otro lado, las casas están distribuidas en una gama más amplia de precios en ambas zonas.

En los gráficos de dispersión realizados anteriormente, se observa que, en el caso de las casas, el área de construcción varía considerablemente, oscilando entre casi 54 y 200 metros cuadrados, lo que se refleja en una variabilidad en los precios promedio en proporción al área.

Por otro lado, en el caso de los apartamentos, el área de construcción tiende a ser menor, con una cantidad significativa de apartamentos que tienen un área inferior a 100 metros cuadrados.

Además, se aprecia una relación clara entre el área de construcción y el precio. Según la correlación de las viviendas, se puede afirmar que en los tres escenarios existe una fuerte relación positiva, lo que indica que a medida que aumenta el área construida, también aumenta el precio. Sin embargo, las viviendas tipo apartamento muestran la correlación más baja, siendo esta de 83.6, debido a la presencia de datos extremos.

PUNTO 3

Estime el modelo de regresión lineal simple entre \(precio=f(area)+ \varepsilon\). Interprete los coeficientes del modelo \(\beta_0\), \(\beta 1\): en caso de ser correcto.

## 
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda4)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5997  -5.0198  -0.0056   4.6648  24.4010 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
## areaconst   5.009e-01  4.758e-03   105.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.141 on 1704 degrees of freedom
## Multiple R-squared:  0.8667, Adjusted R-squared:  0.8666 
## F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

Se ajustó el modelo de regresión lineal simple, en donde el precio es la variable dependiente y el área construida es la variable independiente.

De acuerdo a los valores que se tienen en los valores residuales, sería correcto afirmar que:

min: -26.5997 - representa el error más pequeño. 1Q: -5.0198 - el 25% de los errores tienden a ser menores que -5.0198 median: -0.0056 - el 50% de los errores son menores a -0.0056 3Q: 4.6648 - el 75% de los errores son menores a 4.6648 max: 24.4010 - el error más grande es de 24.4010

El valor estimado en el área construída tuvo un resultado de 0.5009, lo que infiere que por cada unidad que incremente el área construída, el precio de la vivienda aumenta en un aproximado de 0.5009.

Multiple R-squared: 0.8667 - nos ofrece información acerca de la variación en el precio que se obtiene a través de la variable del área construida, el cual tiene una relación de 86.67%, lo que nos indica que en ese porcentaje de la variación de los precios está asociado al área construída de las viviendas.

PUNTO 4

Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

##                   2.5 %      97.5 %
## (Intercept) 198.9248215 200.6954749
## areaconst     0.4915592   0.5102243
## [1] 0

Para un intervalo del 95%, se encuentra un límite inferior de 2.5% que equivale a 198.9248215 y para el límite superior de 97.5%, equivale a 200.6954749. Lo anterior indica que con un nivel de confianza del 95%, el valor del término de intercepción se espera que se encuentre en este rango.

Por cada unidad adicional construida, el valor en el precio incrementa entre 0.4915 y 0.5102, esto con un nivel de confianza del 95%.

El valor p obtenido en la prueba de hipótesis es 0, lo que indica que el coeficiente de area construída es estadísticamente significativo, motivado en que se tiene una gran relación entre el precio de las viviendas y el área construída.

PUNTO 5

Calcule e interprete el indicador de bondad R2.

## 
## Call:
## lm(formula = preciom ~ areaconst, data = vivienda4)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5997  -5.0198  -0.0056   4.6648  24.4010 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
## areaconst   5.009e-01  4.758e-03   105.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.141 on 1704 degrees of freedom
## Multiple R-squared:  0.8667, Adjusted R-squared:  0.8666 
## F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

El “Multiple R-squared” de 0.8667 indica que aproximadamente el 86.67% de la variabilidad en los precios de las viviendas puede explicarse por el área construida. Este valor representa la proporción de la variabilidad total en los precios que se puede explicar por el modelo de regresión lineal.

El R cuadrado ajustado, que es prácticamente igual al “Multiple R-squared” con un valor de 86.66%, proporciona un indicador similar. El R cuadrado ajustado tiene en cuenta el número de predictores en el modelo y ajusta el “Multiple R-squared” en consecuencia. En este caso, el valor ajustado confirma que aproximadamente el 86.66% de la variabilidad en los precios puede ser explicada por el modelo de regresión lineal.

Estos altos valores de “Multiple R-squared” y R cuadrado ajustado indican que el modelo es adecuado para predecir el valor de los precios de las viviendas en función del área construida. En resumen, el área construida tiene una influencia significativa en la predicción de los precios de las viviendas.

El 13% restante y el cual no alcanza a ser explicado por la variabilidad de los precios de las viviendas frente al área construída, corresponde a otros factores particulares, como la ubicación exacta de las viviendas, los componentes al interior de las viviendas, características cualitativas, diseño, materiales de fabricación, etc.

PUNTO 6

¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.

##        fit      lwr      upr
## 1 254.9082 240.8962 268.9203
##        fit      lwr      upr
## 1 254.8893 240.9814 268.7971

De acuerdo a la cifra anterior, un apartamento de 110 metros cuadrados tendría un precio de 255.8935, sin importar la zona de ubicación.

Por lo tanto, para identificar si el valor del apartamento es correcto en una zona en específico, a continuación se extrae información de aquellas zonas en las cuales se tienen apartamentos con dicha área:

## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##            0            0            1            0           15

Debido a que solo las zonas oeste y sur tienen apartamentos con un área construída de 110 metros, a continuación se revisará el precio promedio estimado para un apartamento de esta medida en ambas zonas.

## 
## Call:
## lm(formula = preciom ~ areaconst, data = modelo_apto)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5139  -5.0886  -0.0031   4.6406  24.3309 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.001e+02  6.698e-01  298.67   <2e-16 ***
## areaconst   4.984e-01  8.503e-03   58.62   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.081 on 1361 degrees of freedom
## Multiple R-squared:  0.7163, Adjusted R-squared:  0.7161 
## F-statistic:  3436 on 1 and 1361 DF,  p-value: < 2.2e-16

Teniendo en cuenta la tabla anterior, se dan respuestas a las siguientes preguntas:

  • ¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados?: el precio promedio del total de los apartamentos está considerado en 255.8935.

  • ¿Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta?: si sería un atractivo, ya que se encuentra muy por debajo de la media.

  • ¿Qué consideraciones adicionales se deben tener?: es crucial considerar la ubicación geográfica al evaluar el precio promedio de los apartamentos, ya que la zona puede influir significativamente en su valor; sin embargo, es importante señalar que, en este caso en particular, no disponemos de una cantidad suficiente de datos para obtener una representación precisa de la variación de precios por zona, debido a que la mayoría de los apartamentos con un área construída de 110 metros cuadrados están ubicados en la zona sur, lo que genera que los resultados actuales se basen principalmente en este criterio.

Por otro lado, teniendo en cuenta que la relación entre precio promedio y área construida para las viviendas tipo apartamento es del 71.63% de acuerdo con el “Multiple R-squared”, se infiere que es necesario tener consideraciones adicionales para determiar el precio correcto de una vivienda tipo apartamento con un área construida de 110 metros, los cuales deben ir en línea con los acabados, ubicación más detallada a parte de la zona, barrio, etc.

PUNTO 7

Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.

Residuals vs fitted (valores ajustados): debido a que los valores se encuentran dispersonas de forma aleatoria en el gráfico entre la parte inferior y superior de la línea cero, sugiere tener una distribución aleatoria por parte de los residuos, haciendo que el modelo sea adecuado para los datos en términos de linealidad y homocedasticidad (dispersión constante y alealtoria de los puntos alrededor de la línea horizontal cero)

Q-Q Residuals(Quantile-Quantile): con esta gráfica es posible analizar el comportamiento de los residuos dentro de una regresión; para este caso en particular, resulta procedente afirmar que los residuos mantienen una distribución normal, lo anterior ya que generan una recta al rededor de 45 grados, lo que valida, además, las pruebas de hipótesis y los intervalos de confianza.

Scale-Location: al encontrarse los valores de una forma aleatoria y horizontal del gráfico confirma la homocedasticidad, indicando que la varianza de los residuos es constante durante todos los niveles de los valores ajustados, afirmando que el modelo de resgresión resulta ser adecuado para los datos en cuanto a la estabilidad de la varianza de los residuos.

Residuals vs leverage: la intención con este gráfico es la posibilidad de identificar valores atípicos y observaciones que influyen dentro de un modelo de regresión. Teniendo en cuenta el gráfico en particular para este ejercicio, en donde los valores se encuentran distribuidos a lo largo de la línea horizontal, es posible afirmar que los residuos son aceptables.

Con el gráfico de dispersión anterior, es posible afirmar que se cuenta con un modelo adecuado en términos de linealidad y homocedasticidad, lo anterior ya que los valores se encuentran dispersos al rededor de la línea cero.

Con la homocedasticidad, es posible revisar la constancia de la varianza de los errores de los valores que fueron ajustados en el modelo de regresión, al tiempo que elimina el efecto de la media y la varianza de los residuos.

Teniendo en cuenta las grafias, es posible inferir que hay una relación entre los valores ajustados y los residuos; ya que estos últimos se distribuyen de forma aleatoria alrededor de cero sin mostrar ningún patrón específico, aportándole cumplimiento a la hipótesis de homocedasticidad.

Un gráfico Q-Q (cuantil - cuantil), es un tipo de gráfico que se usa para determinar si un conjunto de datos proviene o no de alguna distribución teórica.

La mayoría de los datos parecen estar distribudíos normalmente, ya que los puntos (los cuales son representación de los datos), se encuentran a lo largo de la línea.

Es relevante señalar que se observan algunas pequeñas inconsistencias en los datos extremos del gráfico. Además, sería válido afirmar que el gráfico muestra colas largas, lo que sugiere la presencia de valores atípicos o extremos en la distribución de los datos.

PUNTO 8

De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

## [1] 1

COn los códigos anteriores, se desea predecir el precio (variable dependiente) en función con el área construida (variable independiente) para las viviendas de tipo apartamento.

Teniendo en cuenta el which.max con resultado 1, quiere decir que el valor óptimo de lambda para la transformación de Box-Cox es aproximadamente 1; lo que no genera ninguna transformación de los datos de los precios en función del área construida, ya que se encuentran normalmente distribuidos.

## 
## Call:
## lm(formula = nuevo_y ~ areaconst, data = apartamentos_filtrados_punto8)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5139  -5.0886  -0.0031   4.6406  24.3309 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.991e+02  6.698e-01  297.18   <2e-16 ***
## areaconst   4.984e-01  8.503e-03   58.62   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.081 on 1361 degrees of freedom
## Multiple R-squared:  0.7163, Adjusted R-squared:  0.7161 
## F-statistic:  3436 on 1 and 1361 DF,  p-value: < 2.2e-16

Se realizó el ajuste del modelo de regresión lineal con la variable dependiente precios y la variable independiente area construída.

Una vez analizado los residuos, siendo estos el resultado de la diferencia entre los valores reales de la variable precios y los valores que está prediciendo o estimando el modelo, se podría afirmar que el valor mínimo de los residuos es -26.5139. También se observa el primer cuartil con un valor de -5.0886; una mediana de -0.0031, indicando que los residuos se encuentra balanceados de forma correcta alrededor de cero; un tercer cuartil de 4.6406 y un valor máximo de 24.3309, este último se considera como la sobre estimación del modelo.

PUNTO 9

De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

9.1. Normalidad

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modBox$residuals
## D = 0.016011, p-value = 0.541

Se utiliza la prueba de normalidad lilliefors lo que analiza si una muestra proviene de una distribución normal, utilizando los residuos del modelo transformado.

Se obtuvo un estadístico de la prueba D, dando como resultado 0.016011; lo que corresponde a la diferencia entre los datos reales vs los datos hipotéticos, siendo estos últimos los datos que se esperarían en caso que siguieran una distribución normal. La diferencia corresponde a un valor de 0.0166011 lo que representa un valor muy bajo.

con p-value = 0.541; se puede interpretar como el porcentaje de probabilidad de observar datos tan extremos como los reales, siendo esta probabilidad de 54.1%.

9.2. Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modBox
## BP = 0.83288, df = 1, p-value = 0.3614

Teniendo en cuenta el valor de 0.3614, se podría indicar que no se cuenta con la suficiente evidencia para afirmar que se cuenta con la heterocedasticidad suficiente en el modelo.

9.3. Linealidad

#### 9.4. No autocorrelación de errores

## 
##  Durbin-Watson test
## 
## data:  modBox
## DW = 2.0204, p-value = 0.6435
## alternative hypothesis: true autocorrelation is greater than 0

Teniendo en cuenta que el test de DW da como resultado 2.0204, se puede afirmar que no se cuenta con una autocorrelación en los residuos del modelo; por otro lado, al tener un resultado de 0.6435 en p-value, se puede inferir que no hay autocorrelación en los residuos de la regresión lineal.

9.5. Outliers

Con el gráfico anterior se visualizan los residuos, que corresponde a la diferencia entre los valores observados y los valores predichos por el modelo.

Los puntos rojos son los residuos positivos, ya que el valor real resultó ser mayor al valor predicho por el modelo; en cambio, los puntos azules resultan ser el residuo cuando el valor real es menor al valor predicho.

El dato máximo positivo se encuentra cerca a 25 y el mínimo a -27; indicando que el modelo arrojó una subestimación y sobreestimación respectivamente.

PUNTO 10

Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?

## 
## =======================================================================
##                                     Dependent variable:                
##                     ---------------------------------------------------
##                              preciom                log(preciom)       
##                         (1)          (2)          (3)          (4)     
## -----------------------------------------------------------------------
## areaconst             0.498***                  0.002***               
##                       (0.009)                  (0.00004)               
##                                                                        
## log(areaconst)                    42.878***                  0.174***  
##                                    (0.794)                   (0.003)   
##                                                                        
## Constant             200.063***   53.820***     5.318***     4.723***  
##                       (0.670)      (3.409)      (0.003)      (0.014)   
##                                                                        
## -----------------------------------------------------------------------
## Observations           1,363        1,363        1,363        1,363    
## R2                     0.716        0.682        0.696        0.674    
## Adjusted R2            0.716        0.682        0.695        0.674    
## Residual Std. Error    7.081        7.496        0.030        0.031    
## F Statistic         3,435.808*** 2,919.088*** 3,110.029*** 2,814.311***
## =======================================================================
## Note:                                       *p<0.1; **p<0.05; ***p<0.01

Se crean 4 modelos para identificar el modelo más adecuado, siendo estos:

Modelo 1: obtiene el precio de las viviendas en función del área construída. Modelo 2: obtiene el precio de las viviendas en función del logaritmo natural del área construída. Modelo 3: Obtiene el logaritmo natural del precio de las viviendas en función del área construída. Modelo 4: obtiene el logaritmo natural del precio de las viviendas en función del logaritmo natural del área construída.

Así como se muestra en el resumen anterior “Dependent variable”; el modelo 1 y 2 se sometieron bajo el precio promedio, el modelo 3 y 4 bajo el logaritmo natural del precio.

El modelo 1 arroja un coeficiente estimado para el área construída de 0.498, lo que significa que el precio de las viviendas estarían incrementando en este valor por cada metro construído. El error estándar arrojado es muy bajo, de 0.009, lo que representa una adecuada significancia estadística. La constante de 200.063, representa el valor de la vivienda cuando el área construída es cero, para lo cual se tendría que tener cuidado con este análisis, ya que no corresponde a una realidad.

En el modelo 2 se visualiza una relación logarítmica entre el logaritmo del área construída y el precio, ya que el resultado es 42.878. Al igual que el modelo 1, también muestra un valor de la vivienda, en este caso de 53.820 cuando el área de construcción es cero, situación que no corresponde para este tipo de análisis.

Para los modelos 3 y 4 se puede inferir que existe una relación logarítmica entre el precio de la propiedad y el área de la construcción, ya que muestra un resultado en los coeficientes de 0.002 y 0.174 respectivamente. Los valores constantes de 5.318 y 4.723 representan el precio de las viviendas cuando el área construída es cero.

Teniendo en cuenta que el R cuadrado en los cuatro modelos es alto, se puede afirmar que se da respuesta en un alto porcentaje a la relación entre el precio de las viviendas en contraste a los metros cuadrados. La diferencia en el R cuadrado para llegar a 1, corresponde a aspectos particulares de cada vivienda, como es el caso de la ubicación exacta, número de habitaciones, baños, si cuenta o no con parqueader, etc.

En cuanto al error residual, los modelos 3 y 4 presentan menor valor, lo que indica que la desviación entre los valores reales vs los valores predictivos son de 0.030 y 0.031 respectivamente, convirtiéndolos en modelos precisos.

En cuanto al F statistic, resultan ser los modelos 1 y 3 efectivos en cuanto a la explicación que se obtiene entre la variabilidad explicada por el modelo vs la no explicada, redundando en que los modelos son efectivos para explicar la variabilidad de la variable dependiente.

10.1. Modelo 1

10.1.1. NORMALIDAD
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo1$residuals
## D = 0.016011, p-value = 0.541
10.1.2. Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 0.83288, df = 1, p-value = 0.3614
10.1.3. Linealidad

10.1.4. No autocorrelación de errores
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 2.0204, p-value = 0.6435
## alternative hypothesis: true autocorrelation is greater than 0
10.1.5. Outliers

10.2. Modelo 2

10.2.1. Normalidad
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo2$residuals
## D = 0.023906, p-value = 0.06555
10.2.2. Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 14.481, df = 1, p-value = 0.0001416
10.2.3. Linealidad

10.2.4. No autocorrelación de errores
## 
##  Durbin-Watson test
## 
## data:  modelo2
## DW = 1.9464, p-value = 0.1587
## alternative hypothesis: true autocorrelation is greater than 0
10.2.5. Outliers

10.3. Modelo 3

10.3.1. Normalidad
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo3$residuals
## D = 0.013497, p-value = 0.7919
10.3.2. Homocelasticidad

##### 10.3.3. Prueba de heterocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 7.0095, df = 1, p-value = 0.008108
10.3.4. Linealidad

10.3.5. No autocorrelación de errores
## 
##  Durbin-Watson test
## 
## data:  modelo3
## DW = 2.0219, p-value = 0.6534
## alternative hypothesis: true autocorrelation is greater than 0
10.3.6. Outliers

10.4. Modelo 4

10.4.1. Normalidad
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo4$residuals
## D = 0.020248, p-value = 0.1922
10.4.2. Homocedasticidad

##### 10.4.3. Prueba de heterocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo4
## BP = 0.11855, df = 1, p-value = 0.7306
10.4.4. Linealidad

10.4.5. No autocorrelación de errores
## 
##  Durbin-Watson test
## 
## data:  modelo4
## DW = 1.9635, p-value = 0.2469
## alternative hypothesis: true autocorrelation is greater than 0
10.4.6. Outliers

PUNTO 11

Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores.

##### 11.1. Análisis

Teniendo en cuenta la revisión de los diferentes modelos, se puede inferir que el más apropiado es el modelo 1, esto basado en:

Teniendo en cuenta la normalidad de Lilliefors para los residuos, en donde el resultado del estadístico D = 0.016011 y Valor P = 0.541; siendo el valor P mayor a 0.05, se puede afirmar, por lo pronto,los residuos provienen de una distribución normal; por lo tanto, se acepta la hipótesis nula de la normalidad de los residuos.

Teniendo en cuenta el valor D, se afirma que con el modelo 1, se cuenta con una diferencia muy pequeña, por lo tanto los datos no se desvían significativamente de una distribución normal.

En el análisis de homocedasticidad, se evidencia en los gráficos una dispersión de los datos alrededor de la línea cero, sin tener ningún tipo de forma geométrica, lo que evidencia que el modelo en este aspecto es correcto.

Con el fin de determinar si en el modelo existe heterocedasticidad en los errores del modelo, se realiza el test de Breusch – Pagan; arrojando un resultado de BP = 0.83288, df = 1, p – value = 0.3614. Teniendo en cuenta el resultado del valor p, el cual es mayor a 0.05, se afirma que no existe heterocedasticidad en el modelo, lo que confirma aspectos importantes del modelo como: precisión de los coeficientes, validación de supuestos y fiabilidad de las predicciones.

Con los gráficos obtenidos en el análisis de linealidad, es correcto afirmar en Residuals vs Fitted, que los datos se encuentran dispersos alrededor de la línea cero, lo que resulta ser algo positivo ya que indica que la variabilidad de los residuos no son constantes y se comportan de forma aleatoria de acuerdo a la predicción de los datos que está generando el modelo.

Q-Q residuals muestra una línea diagonal, indicando que los residuos tienen una distribución normal. Se aplica al modelo 1 el test de Durbin-Watson, obteniendo resultados en DW = 2.0204, p-value = 0.6435. Con el resultado se puede afirmar que no existe una autocorrelación significativa, ya que DW se encuentra entre 0 y 4, además el p-value es mayor a 0.05; lo que permite afirmar que el modelo está capturando de una manera adecuada la estructura de los datos.

Una vez analizada la distribución de los residuos, se visualiza que los datos se encuentran ubicados de forma aleatoria alrededor del gráfico, sin que se perciba ningún patrón geométrico.

Teniendo en cuenta lo anterior, se escoge el modelo 1 (lm(preciom ~ areaconst, data = aptos)) en donde resultaría posible predecir de una manera acertada el precio más adecuado para un conjunto de viviendas de tipo apartamento.

También resulta importante mencionar los aspectos más relevantes que impidieron la escogencia de alguno de los otros tres modelos:

Modelo 2: teniendo en cuenta el resultado del test B-P, en donde p-value = 0.0001416, indica que existe evidencia significativa para rechazar la hipótesis nula de heterocedasticidad, ya que p-value es extremadamente bajo. Por otro lado, en el análisis de homocedasticidad se visualiza un comportamiento geométrico en las gráficas.

Modelo 3: no fue aceptado debido al resultado obtenido en el test de B-P, cuyo resultado en p-value = 0.008108, valor muy por debajo al 0.05, lo que indica que tiene heterocedasticidad.

Modelo 4: no se acepta debido al resultado en la gráfica de homocedasticidad, ya que se visualiza un patrón en la ubicación de los datos.