Oferta de Viviendas - Apartamento estrato 4
Planteamiento del ejercicio

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C requiere el apoyo de un cientifico de datos en la construcción de un modelo que lo oriente sobre los precios de inmuebles.

Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar

1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.

Inicialmente se cuenta con 1706 registros de información relacionada con propiedades. Se detecta que existe dentro de esta información no solamente “Apartamentos” sino tambien algunos inmuebles “Casa”


#pie(table(vivienda4$tipo), col=c("blue", "grey"), main="Distribucion por tipo de vivienda")

#library(ggplot2)

# Crear un dataframe con los datos de conteo
conteo_viviendas <- table(vivienda4$tipo)
df_conteo <- data.frame(tipo = names(conteo_viviendas), conteo = as.numeric(conteo_viviendas))

# Calcular los porcentajes
df_conteo$porcentaje <- df_conteo$conteo / sum(df_conteo$conteo) * 100

# Crear el gráfico de pastel con etiquetas de porcentaje
ggplot(df_conteo, aes(x = "", y = conteo, fill = tipo)) +
  geom_bar(stat = "identity", width = 1) +
  geom_text(aes(label = paste0(round(porcentaje), "%")), position = position_stack(vjust = 0.5)) +
  coord_polar("y", start = 0) +
  labs(title = "Distribución por tipo de vivienda") +
  scale_fill_manual(values = c("#A3E4D7", "#F8C471")) +
  theme_minimal()

apartamentos <- subset(vivienda4, tipo == "Apartamento")

#Calcula el valor del inmueble
apartamentos$valormetro <- round(apartamentos$preciom / apartamentos$areaconst,2)


ACCION
De esta manera, se va a proceder a eliminar la información relacionada con las casas, ya que el ejercicio se va a realizar solamente con los apartamentos

Se identifican entonces como campos importantes para el análisis los siguientes campos:
Zona
Preciom
Areaconst

Se construye ademas un campo donde se calcula el valor del metro cuadrado de las propiedades

De esta manera, se tiene la siguiente infornación con relacion a los registros logrados:

Descriptive Statistics  
apartamentos  
N: 1363  

                    areaconst   preciom
----------------- ----------- ---------
             Mean       75.48    237.68
          Std.Dev       22.56     13.29
              Min       40.00    207.41
               Q1       60.00    228.79
           Median       70.00    236.14
               Q3       84.00    243.59
              Max      200.00    305.19
              MAD       14.83     10.98
              IQR       24.00     14.79
               CV        0.30      0.06
         Skewness        2.08      1.28
      SE.Skewness        0.07      0.07
         Kurtosis        6.32      3.19
          N.Valid     1363.00   1363.00
        Pct.Valid      100.00    100.00

El siguiente gráfico evidencia la cantidad de apartamentos relacionados con su precio

La revision de las variables nos presenta el siguiente resumen

Data summary
Name apartamentos
Number of rows 1363
Number of columns 6
_______________________
Column type frequency:
factor 3
numeric 3
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
zona 0 1 FALSE 5 Zon: 1065, Zon: 237, Zon: 52, Zon: 7
estrato 0 1 FALSE 1 4: 1363, 3: 0, 5: 0, 6: 0
tipo 0 1 FALSE 1 Apa: 1363, Cas: 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
preciom 0 1 237.68 13.29 207.41 228.79 236.14 243.58 305.19 ▂▇▂▁▁
areaconst 0 1 75.48 22.56 40.00 60.00 70.00 84.00 200.00 ▇▅▁▁▁
valormetro 0 1 3.33 0.66 1.50 2.89 3.34 3.83 5.49 ▁▅▇▃▁

El precio varia entre 207.41 millones y 305.19 millones, con un precio promedio de 236.14 millones En cuanto al área, el minimo es de 40 metros y un maximo de 200 mestros, con un promedio de 70 metros

De la misma manera, el valor del metro esta entre 1.5 millones y 5.49 millones con un promedio de 3.34 millones

Es importante conocer las zonas en las que se encuentran los apartamentos. Por tanto se presenta a continuación la distribución de los apartamentos dentro de la ciudad:


En este gráfico se puede evidenciar que el 78% de las propiedades que se esta evaluando corresponden a la Zona Sur.



2. Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida) - incluir gráficos e indicadores apropiados interpretados.

Para iniciar con el analisis, vamos a revisar la distibución de los precios y la cantidad de apartamentos registrados

Con relación a los precios, se presenta una asimetriía hacia la izquierda. Existe un sesgo en el precio de los apartamentos hacia los 300 millones Los apartamentos mas construidos son cuyo precio de venta esta entre 215 y 250 millones

Para apreciarlo mejor, se presenta a continuación el gráfico con relacion a los metros de los apartamentos

Se evidencia de la misma manera, una asimetría de la información sesgada hacia el lado izquierdo. Los tamaños mas construidos estan en el rango de 50 a 90 metros cuadrados

# A tibble: 1 × 6
  media_preciom mediana_preciom varianza_preciom desvi_preciom    Q1   P90
          <dbl>           <dbl>            <dbl>         <dbl> <dbl> <dbl>
1          238.            236.             177.          13.3  229.  255.

El precio medio de los apartamentos es de 238 millones con una desviación de 13.3 millones y una mediana en 236 millones El 90% de los precios estan por debajo de 265 millones

`geom_smooth()` using formula = 'y ~ x'

Al analizar la dispersión de los precios contra el area construida, se observa una una relacion entre los metros del apartamento y el precio, la cual es de tipo lineal, es decir que a mayor área mayor es el precio de la vivienda. Hay una mayor concentración de apartamentos con área entre 50 y 100 metros cuadrados con precio entre 100 y 300 Millones.

Para confirmar la relación presentada en los diagramas de disperión, se procede a aplicar pruebas de correlación entre estas variables

Se encuentra que la correlación entre las variables es de 0.846. Es decir, presenta una correlación positiva fuerte
3. Estime el modelo de regresión lineal simple entre precio=f(area)+ε. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

A continuacion se presenta el modelo de regresión lineal


Call:
lm(formula = preciom ~ areaconst, data = apartamentos)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5139  -5.0886  -0.0031   4.6406  24.3309 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2.001e+02  6.698e-01  298.67   <2e-16 ***
areaconst   4.984e-01  8.503e-03   58.62   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.081 on 1361 degrees of freedom
Multiple R-squared:  0.7163,    Adjusted R-squared:  0.7161 
F-statistic:  3436 on 1 and 1361 DF,  p-value: < 2.2e-16


Con la ejecución de este modelo de regresión lineal, se encuentra que:
β0 = 200 Significa, que el punto donde se va a encontrar el apartamento cuesta (sin costruir nada) 200 millones (intercepto)
β1 = 4.9e-1 Esto quiere decir, que por cada metro cuadrado que se aumenta en el apartamento, el valor crece en 4.9e-1 millones


4. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

                  2.5 %     97.5 %
(Intercept) 198.7494103 201.377500
areaconst     0.4817357   0.515097

El intervalo de confianza del ejercicio al 95% se encuntra con relacion a los metros cuadrados entre 48.17 y 51.50 metros cuadrados En este ejecicio es claro que los valores de β0 y β1 no son CERO como se plantea en la hipótesis nula. Por el contrario, se acepta que los dos son valores diferentes de CERO lo que hace que se tome la llamada hipótesis alterna

5. Calcule e interprete el indicador de bondad R2


Call:
lm(formula = preciom ~ areaconst, data = apartamentos)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5139  -5.0886  -0.0031   4.6406  24.3309 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2.001e+02  6.698e-01  298.67   <2e-16 ***
areaconst   4.984e-01  8.503e-03   58.62   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.081 on 1361 degrees of freedom
Multiple R-squared:  0.7163,    Adjusted R-squared:  0.7161 
F-statistic:  3436 on 1 and 1361 DF,  p-value: < 2.2e-16

Validando el indicador de R2, se encuentra que su valor es 0.7161 Esto significa que el valor de los apartamentos se puede explicar con el 71.61% de los apartamentos registrados. Se evidencia que evisten otras variables, llamadas covariables, que deberian intervenir en el modelo para ajustarse de mejor manera.



6. ¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.

       fit      lwr      upr
1 254.8893 254.2014 255.5771

De este análisis se encuentra que el precio promedio para un apartamento de 110 metros es de 254.89 millones, con un límite inferior de 254.2 millones y un valor maximo de 255.58 millones Esto significa que si en el mismo sector se esta vendiendo un apartamento de 110 metros cuadrados por 200 millones, la oferta es muy atractiva.

7. Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.

Modelo Lineal Simple

Análisis de Regresión Lineal

Análisis de Regresión Lineal

Supuestos del Modelo de Regresión Lineal:



    Lilliefors (Kolmogorov-Smirnov) normality test

data:  modelo_apartamentos$residuals
D = 0.016011, p-value = 0.541

Para la normalidad vamos a realzar el test de kolmogorov-Smirnov con la modificación de test Lilliefors la cual se aplica cuando la varianza y la media son desconocidas.

Supuesto Análisis
Normalidad El valor p es 0.541, lo que significa que no hay suficiente evidencia para rechazar la hipótesis nula de que los residuos siguen una distribución normal.
No hay evidencia significativa para concluir que los residuos no provienen de una distribución normal a un nivel de significancia típico (por ejemplo, α = 0.05).
Según los resultados de la prueba de normalidad de Lilliefors, no hay suficiente evidencia para rechazar la hipótesis nula de normalidad para los residuos del modelo de regresión lineal. Esto sugiere que los residuos pueden seguir una distribución normal.


Prueba Gráfica

Prueba calculada

Esta prueba se utiliza para verificar si la varianza de los errores no está relacionada con una o más variables independientes en el modelo.


    studentized Breusch-Pagan test

data:  modelo_apartamentos
BP = 0.83288, df = 1, p-value = 0.3614
Supuesto Análisis
Homocedasticidad Estadístico de prueba (BP): 0.83288
Grados de libertad (df): 1
Valor p (p-value): 0.3614
Grados de libertad (df): 1
El valor p es 0.3614, lo que significa que no hay suficiente evidencia para rechazar la hipótesis nula de que no hay heterocedasticidad en los errores.
No hay evidencia significativa para sugerir que la varianza de los errores está relacionada con alguna de las variables independientes en el modelo.


De acuerdo con los resultados del test de Breusch-Pagan, no hay suficiente evidencia para rechazar la hipótesis nula de que no hay heterocedasticidad en el modelo de regresión lineal. Esto sugiere que la varianza de los errores puede ser constante en relación con las variables independientes en el modelo.

Supuesto Análisis
Linealidad En la gráfica QQ de residuos se puede evidenciar que los residuos se encuentran perfectamente alineados con la linea intercuartílica, lo que indica que los residuos siguen una distribución normal

    Durbin-Watson test

data:  modelo_apartamentos
DW = 2.0204, p-value = 0.6435
alternative hypothesis: true autocorrelation is greater than 0
Supuesto Análisis
No correclación de Errores El valor de prueba de Durbin-Watson (DW) se encuentra entre 0 y 4. Un valor de DW cercano a 2 sugiere que no hay autocorrelación de primer orden en los residuos.
El valor p es 0.6435, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de que no hay autocorrelación de primer orden en los residuos.
La hipótesis alternativa sugiere que la autocorrelación de primer orden es mayor que cero, pero el p-valor alto no proporciona suficiente evidencia para apoyar esta afirmación.


Esto sugiere que los residuos pueden considerarse independientes entre sí.

Supuesto Análisis
Valores atìpicos Por la disposicón de la gráfica, se pueden detectar algunos valores atípicos que se encuentran fuera del rango de -20 a 20.
La cantidad de valores que se encuentran fuera del rango no es significativa, por lo que no afecta el resultado del ejercicio
`geom_smooth()` using formula = 'y ~ x'
`geom_smooth()` using formula = 'y ~ x'

En general se observa que los residuos studentizados tienen un coportamiento cerecano a la linea de regresión


8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo. 9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

[1] 1


Cuando el coeficiente de Durbin-Watson (DW) es igual a 1, sugiere que no hay autocorrelación de primer orden en los errores, lo que es deseable en un modelo de regresión, ya que implica que los errores son independientes entre sí y no muestran patrones sistemáticos de correlación temporal


Call:
lm(formula = nuevo_y ~ areaconst, data = apartamentos)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5139  -5.0886  -0.0031   4.6406  24.3309 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1.991e+02  6.698e-01  297.18   <2e-16 ***
areaconst   4.984e-01  8.503e-03   58.62   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.081 on 1361 degrees of freedom
Multiple R-squared:  0.7163,    Adjusted R-squared:  0.7161 
F-statistic:  3436 on 1 and 1361 DF,  p-value: < 2.2e-16
                  Modelo R_Cuadrado
1                 Lineal  0.7162696
2            Exponencial  0.6955958
3            Logarítmico  0.6820159
4 Doblemente Logarítmico  0.6740362
5            Hiperbólico  0.0000000
6     Doblemente Inverso  0.6726953
Concepto Abalisis
Residuals Por la disposicón de la gráfica, se pueden detectar algunos valores atípicos que se encuentran fuera del rango de -20 a 20.
La cantidad de valores que se encuentran fuera del rango no es significativa, por lo que no afecta el resultado del ejercicio

A continuación vamos a validar los supuestos con los que se presentan los cuatro modelos:

Normalidad


    Shapiro-Wilk normality test

data:  modelo1$residuals
W = 0.99885, p-value = 0.5419

    Shapiro-Wilk normality test

data:  modelo2$residuals
W = 0.9971, p-value = 0.01302

    Shapiro-Wilk normality test

data:  modelo3$residuals
W = 0.99907, p-value = 0.7333

    Shapiro-Wilk normality test

data:  modelo4$residuals
W = 0.9985, p-value = 0.2868
Modelo Analisis
Mod. 1 Los residuos pueden tener una distribución normal al 99.885%. Con p = 0.5419 Indica que no hay suficiente evidencia para rechazar la hipótesis nula
Mod. 2 Con p = 0.01302 se evidencia que los residuos no siguen una distribución normal
Mod. 3 Ahora p = 0.7333. Para este modelo, los residuos pueden considerarse aproximadamente normales
Mod. 4 Ahora p = 0.2868. No hay evidencia de que los residuos no sigan una distribución normal



Varianza Constante (heterocedasticidad) - Test de Breusch-Pagan


    studentized Breusch-Pagan test

data:  modelo1
BP = 0.83288, df = 1, p-value = 0.3614

    studentized Breusch-Pagan test

data:  modelo2
BP = 14.481, df = 1, p-value = 0.0001416

    studentized Breusch-Pagan test

data:  modelo3
BP = 7.0095, df = 1, p-value = 0.008108

    studentized Breusch-Pagan test

data:  modelo4
BP = 0.11855, df = 1, p-value = 0.7306

Modelo Analisis
Mod. 1 BP = 0.83288, p = 0.3614 No hay evidencia de heterocedasticidad.La varianza de los errores puede considerarse constante a lo largo de los diferentes niveles de las variables independientes en el modelo.
Mod. 2 BP = 14.481, con p = 0.0001416.Esto sugiere que la varianza de los errores no se mantiene constante a través de las diferentes condiciones o niveles de las variables independientes en el modelo.
Mod. 3 BP = 7.0095,ahora p = 0.008108. Se evidencia que la varianza de los errores no se mantiene constante a través de las diferentes condiciones o niveles de las variables independientes en el modelo.
Mod. 4 BP = 0.11855,Ahora p = 0.2868. Esto sugiere que la varianza de los errores puede considerarse constante a través de las diferentes condiciones


No autocorrelación de errores


    Durbin-Watson test

data:  modelo1
DW = 2.0204, p-value = 0.6435
alternative hypothesis: true autocorrelation is greater than 0

    Durbin-Watson test

data:  modelo2
DW = 1.9464, p-value = 0.1587
alternative hypothesis: true autocorrelation is greater than 0

    Durbin-Watson test

data:  modelo3
DW = 2.0219, p-value = 0.6534
alternative hypothesis: true autocorrelation is greater than 0

    Durbin-Watson test

data:  modelo4
DW = 1.9635, p-value = 0.2469
alternative hypothesis: true autocorrelation is greater than 0

Modelo Analisis
Mod. 1 DW = 2.0204, p = 0.6435. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva
Mod. 2 DW = 1.9464, p = 0.1587. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva
Mod. 3 DW = 2.0219, p = 0.6534. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva
Mod. 4 DW = 1.9635, p = 0.2469. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva


Trasnformación


=======================================================================
                                    Dependent variable:                
                    ---------------------------------------------------
                             preciom                log(preciom)       
                        (1)          (2)          (3)          (4)     
-----------------------------------------------------------------------
areaconst             0.498***                  0.002***               
                      (0.009)                  (0.00004)               
                                                                       
log(areaconst)                    42.878***                  0.174***  
                                   (0.794)                   (0.003)   
                                                                       
Constant             200.063***   53.820***     5.318***     4.723***  
                      (0.670)      (3.409)      (0.003)      (0.014)   
                                                                       
-----------------------------------------------------------------------
Observations           1,363        1,363        1,363        1,363    
R2                     0.716        0.682        0.696        0.674    
Adjusted R2            0.716        0.682        0.695        0.674    
Residual Std. Error    7.081        7.496        0.030        0.031    
F Statistic         3,435.808*** 2,919.088*** 3,110.029*** 2,814.311***
=======================================================================
Note:                                       *p<0.1; **p<0.05; ***p<0.01

Haciendo una validación de R2 se encuentra que el mejor de los modelos para aplicar es el Modelo 1 con un valor del 71.6%. Esto indica, que para saber el valor del apartamento se puede lograr una prediccion acertada del 71.6% tomando una única variable de área. Se encuentra ue el valor aproximado del metro cuadrado de construcci{on en un apartamento es de aproximadamente $498.000. Se evidencia que los residuos no tienen una correlación y por tanto se apoya en el modelo de Regresión Lineal

10. Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?

Hemos trabajado cuatro modelos proncipales. Los datos se enidencian a continuación

par(mfrow=c(1,4))
plot(modelo1, 1)
title(main = "Modelo 1", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
plot(modelo2, 1)
title(main = "Modelo 2", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
plot(modelo3, 1)
title(main = "Modelo 3", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
plot(modelo4, 1)
title(main = "Modelo 4", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)

Se evidencia visualmente que el modelo que mejor se ajusta es el Modelo 1. Se ha justificado su eleccion con las pruebas que hemos realizado en la parte anterior del proyecto. Con los graficos expuestos ahora, se evidencia que la data se ajusta al modelo de regresion lineal.

Intervalos de confianza del 95%

confint(modelo1)
                  2.5 %     97.5 %
(Intercept) 198.7494103 201.377500
areaconst     0.4817357   0.515097

Se determina que, (como se habia mensionado anteiromente) el derecho a tener apartamentos (lote) tiene un costo inicial esta entre 198.75 a 201.38 millones (valor del intercepto) Para el coeficiente de área construida (areaconst), el intervalo de confianza del 95% va desde aproximadamente 48,2 a 51.5 metros

Predicción de E[Y|xo] De acuerdo con el caso presentado durante la investigación, se determina hacer el analisis para un apartamento de 110 metros con un valor de 200 millones.

predict(modelo1, data.frame(areaconst=110), interval = "confidence", level = 0.95)
       fit      lwr      upr
1 254.8893 254.2014 255.5771

Despues de realizar el prcoso de prediccion con relacion al área, se determina que el valor real de in inmueble con las mismas características se encuentra entre 254 y 255 millones; por lo que al hacer la compra en un valor inferior se conviente en una oferta que se debería aceptar.

Predicción de Y0 Mirandolo con otro moelo de preducción, se evidencia que:

predict(modelo1, data.frame(areaconst=110), interval = "prediction", level = 0.95)
       fit      lwr      upr
1 254.8893 240.9814 268.7971

El rango de aceptacioon para el caso del apartamento de 110 metros, el valor debería estar entre 240 y 268 millones.

11. Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores.

Informe general final

Estimados señores

A continuación se presentan las principales características de los inmuebles presentados por ustedes para el análisis.

# Crear el gráfico de pastel con etiquetas de porcentaje
ggplot(df_conteo, aes(x = "", y = conteo, fill = tipo)) +
  geom_bar(stat = "identity", width = 1) +
  geom_text(aes(label = paste0(round(porcentaje), "%")), position = position_stack(vjust = 0.5)) +
  coord_polar("y", start = 0) +
  labs(title = "Distribución por tipo de vivienda") +
  scale_fill_manual(values = c("#A3E4D7", "#F8C471")) +
  theme_minimal()

Teniendo en cuenta que el nicho de mercado que ustedes manejan se determina trabajar UNICAMENTE CON APARTAMENTOS Estos inmuebles se encuentran ubicados en la siguientes sonas

# Crear el gráfico de barras mejorado con porcentajes utilizando ggplot2
ggplot(df_conteo_zonas, aes(x = reorder(zona, -conteo), y = conteo, fill = zona)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = paste0(round(porcentaje), "%")), vjust = -0.3, size = 3, color = "black") +
  labs(title = "Distribución de Apartamentos por Zonas", x = "Zona", y = "Cantidad") +
  scale_fill_manual(values = c("orange", "#3498DB", "yellow", "#9B59B6", "#CD6155")) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        axis.text = element_text(size = 10),
        axis.title = element_text(size = 12),
        plot.title = element_text(size = 14, face = "bold"),
        panel.grid.major = element_line(color = "#CB4335", linetype = "dashed")) +
  theme(plot.margin = margin(50, 100, 50, 50))

Aunque los apartamentos existen principalmente en la zona sur, se determina trabajar con todas las zonas para evidenciar el desarrollo de la venta de apartamentos en toda la ciudad.

Despues de realizar las pruebas del ajuste de los datos a los diferentes modelos, se determina que la informacion registrada se esta ajustando al modelo de regresión lineal simple, ya que el precio del inmueble se determina en un 71.61% con respecto al área del apartamento. Para poder determinar con mayor acierto el valor del inmueble, será necesario involucrar otras variables que afecten la relacion del apartamento con el precio, tales como zonas, piso del apartamento, ventajas del sector, etc.

Se recomienda especialmente invertir en apartamentos que se tengan las siguientes características:

Caracteristica Recomendación
Ubicación Se recomienda que los inmuebles se cnuentren en la Zona Sur
Valor El rango de confianza esta entre 198.75 a 201.38 millones
Tamaño Preferiblemente entre 48,2 a 51.5 metros

Tomando en cuenta estas recomendaciones, se logrará aumentar la posibilidad de realizar la venta de los apartamentos de manera mucho mas ágil.