Oferta de Viviendas - Apartamento estrato 4 Planteamiento del ejercicio
Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2 (vivienda4.RDS) la inmobiliaria A&C requiere el apoyo de un cientifico de datos en la construcción de un modelo que lo oriente sobre los precios de inmuebles.
Con este propósito el equipo de asesores a diseñado los siguientes pasos para obtener un modelo y así poder a futuro determinar los precios de los inmuebles a negociar
1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.
Inicialmente se cuenta con 1706 registros de información relacionada con propiedades. Se detecta que existe dentro de esta información no solamente “Apartamentos” sino tambien algunos inmuebles “Casa”
#pie(table(vivienda4$tipo), col=c("blue", "grey"), main="Distribucion por tipo de vivienda")
#library(ggplot2)
# Crear un dataframe con los datos de conteo
conteo_viviendas <- table(vivienda4$tipo)
df_conteo <- data.frame(tipo = names(conteo_viviendas), conteo = as.numeric(conteo_viviendas))
# Calcular los porcentajes
df_conteo$porcentaje <- df_conteo$conteo / sum(df_conteo$conteo) * 100
# Crear el gráfico de pastel con etiquetas de porcentaje
ggplot(df_conteo, aes(x = "", y = conteo, fill = tipo)) +
geom_bar(stat = "identity", width = 1) +
geom_text(aes(label = paste0(round(porcentaje), "%")), position = position_stack(vjust = 0.5)) +
coord_polar("y", start = 0) +
labs(title = "Distribución por tipo de vivienda") +
scale_fill_manual(values = c("#A3E4D7", "#F8C471")) +
theme_minimal()
apartamentos <- subset(vivienda4, tipo == "Apartamento")
#Calcula el valor del inmueble
apartamentos$valormetro <- round(apartamentos$preciom / apartamentos$areaconst,2)
ACCION De esta manera, se va a proceder a eliminar la información relacionada con las casas, ya que el ejercicio se va a realizar solamente con los apartamentos
Se identifican entonces como campos importantes para el análisis los siguientes campos: Zona Preciom Areaconst
Se construye ademas un campo donde se calcula el valor del metro cuadrado de las propiedades
De esta manera, se tiene la siguiente infornación con relacion a los registros logrados:
Descriptive Statistics
apartamentos
N: 1363
areaconst preciom
----------------- ----------- ---------
Mean 75.48 237.68
Std.Dev 22.56 13.29
Min 40.00 207.41
Q1 60.00 228.79
Median 70.00 236.14
Q3 84.00 243.59
Max 200.00 305.19
MAD 14.83 10.98
IQR 24.00 14.79
CV 0.30 0.06
Skewness 2.08 1.28
SE.Skewness 0.07 0.07
Kurtosis 6.32 3.19
N.Valid 1363.00 1363.00
Pct.Valid 100.00 100.00
El siguiente gráfico evidencia la cantidad de apartamentos relacionados con su precio
La revision de las variables nos presenta el siguiente resumen
Name | apartamentos |
Number of rows | 1363 |
Number of columns | 6 |
_______________________ | |
Column type frequency: | |
factor | 3 |
numeric | 3 |
________________________ | |
Group variables | None |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
zona | 0 | 1 | FALSE | 5 | Zon: 1065, Zon: 237, Zon: 52, Zon: 7 |
estrato | 0 | 1 | FALSE | 1 | 4: 1363, 3: 0, 5: 0, 6: 0 |
tipo | 0 | 1 | FALSE | 1 | Apa: 1363, Cas: 0 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
preciom | 0 | 1 | 237.68 | 13.29 | 207.41 | 228.79 | 236.14 | 243.58 | 305.19 | ▂▇▂▁▁ |
areaconst | 0 | 1 | 75.48 | 22.56 | 40.00 | 60.00 | 70.00 | 84.00 | 200.00 | ▇▅▁▁▁ |
valormetro | 0 | 1 | 3.33 | 0.66 | 1.50 | 2.89 | 3.34 | 3.83 | 5.49 | ▁▅▇▃▁ |
El precio varia entre 207.41 millones y 305.19 millones, con un precio promedio de 236.14 millones En cuanto al área, el minimo es de 40 metros y un maximo de 200 mestros, con un promedio de 70 metros
De la misma manera, el valor del metro esta entre 1.5 millones y 5.49 millones con un promedio de 3.34 millones
Es importante conocer las zonas en las que se encuentran los apartamentos. Por tanto se presenta a continuación la distribución de los apartamentos dentro de la ciudad:
En este gráfico se puede evidenciar que el 78% de las propiedades
que se esta evaluando corresponden a la Zona Sur.
2. Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida) - incluir gráficos e indicadores apropiados interpretados.
Para iniciar con el analisis, vamos a revisar la distibución de los precios y la cantidad de apartamentos registrados
Con relación a los precios, se presenta una asimetriía hacia la izquierda. Existe un sesgo en el precio de los apartamentos hacia los 300 millones Los apartamentos mas construidos son cuyo precio de venta esta entre 215 y 250 millones
Para apreciarlo mejor, se presenta a continuación el gráfico con relacion a los metros de los apartamentos
Se evidencia de la misma manera, una asimetría de la información sesgada hacia el lado izquierdo. Los tamaños mas construidos estan en el rango de 50 a 90 metros cuadrados
# A tibble: 1 × 6
media_preciom mediana_preciom varianza_preciom desvi_preciom Q1 P90
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 238. 236. 177. 13.3 229. 255.
El precio medio de los apartamentos es de 238 millones con una desviación de 13.3 millones y una mediana en 236 millones El 90% de los precios estan por debajo de 265 millones
`geom_smooth()` using formula = 'y ~ x'
Al analizar la dispersión de los precios contra el area construida, se observa una una relacion entre los metros del apartamento y el precio, la cual es de tipo lineal, es decir que a mayor área mayor es el precio de la vivienda. Hay una mayor concentración de apartamentos con área entre 50 y 100 metros cuadrados con precio entre 100 y 300 Millones.
Para confirmar la relación presentada en los diagramas de disperión, se procede a aplicar pruebas de correlación entre estas variables
Se encuentra que la correlación entre las variables es de 0.846. Es decir, presenta una correlación positiva fuerte 3. Estime el modelo de regresión lineal simple entre precio=f(area)+ε. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.
A continuacion se presenta el modelo de regresión lineal
Call:
lm(formula = preciom ~ areaconst, data = apartamentos)
Residuals:
Min 1Q Median 3Q Max
-26.5139 -5.0886 -0.0031 4.6406 24.3309
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.001e+02 6.698e-01 298.67 <2e-16 ***
areaconst 4.984e-01 8.503e-03 58.62 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.081 on 1361 degrees of freedom
Multiple R-squared: 0.7163, Adjusted R-squared: 0.7161
F-statistic: 3436 on 1 and 1361 DF, p-value: < 2.2e-16
Con la ejecución de este modelo de regresión lineal, se encuentra que: β0 = 200 Significa, que el punto donde se va a encontrar el apartamento cuesta (sin costruir nada) 200 millones (intercepto) β1 = 4.9e-1 Esto quiere decir, que por cada metro cuadrado que se aumenta en el apartamento, el valor crece en 4.9e-1 millones 4. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
2.5 % 97.5 %
(Intercept) 198.7494103 201.377500
areaconst 0.4817357 0.515097
El intervalo de confianza del ejercicio al 95% se encuntra con relacion a los metros cuadrados entre 48.17 y 51.50 metros cuadrados En este ejecicio es claro que los valores de β0 y β1 no son CERO como se plantea en la hipótesis nula. Por el contrario, se acepta que los dos son valores diferentes de CERO lo que hace que se tome la llamada hipótesis alterna 5. Calcule e interprete el indicador de bondad R2
Call:
lm(formula = preciom ~ areaconst, data = apartamentos)
Residuals:
Min 1Q Median 3Q Max
-26.5139 -5.0886 -0.0031 4.6406 24.3309
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.001e+02 6.698e-01 298.67 <2e-16 ***
areaconst 4.984e-01 8.503e-03 58.62 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.081 on 1361 degrees of freedom
Multiple R-squared: 0.7163, Adjusted R-squared: 0.7161
F-statistic: 3436 on 1 and 1361 DF, p-value: < 2.2e-16
Validando el indicador de R2, se encuentra que su valor es 0.7161 Esto significa que el valor de los apartamentos se puede explicar con el 71.61% de los apartamentos registrados. Se evidencia que evisten otras variables, llamadas covariables, que deberian intervenir en el modelo para ajustarse de mejor manera.
6. ¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.
fit lwr upr
1 254.8893 254.2014 255.5771
De este análisis se encuentra que el precio promedio para un apartamento de 110 metros es de 254.89 millones, con un límite inferior de 254.2 millones y un valor maximo de 255.58 millones Esto significa que si en el mismo sector se esta vendiendo un apartamento de 110 metros cuadrados por 200 millones, la oferta es muy atractiva.
7. Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
Modelo Lineal Simple
Análisis de Regresión Lineal
Lilliefors (Kolmogorov-Smirnov) normality test
data: modelo_apartamentos$residuals
D = 0.016011, p-value = 0.541
Para la normalidad vamos a realzar el test de kolmogorov-Smirnov con la modificación de test Lilliefors la cual se aplica cuando la varianza y la media son desconocidas.
Supuesto | Análisis |
---|---|
Normalidad | El valor p es 0.541, lo que significa que no hay suficiente evidencia para rechazar la hipótesis nula de que los residuos siguen una distribución normal. |
No hay evidencia significativa para concluir que los residuos no provienen de una distribución normal a un nivel de significancia típico (por ejemplo, α = 0.05). | |
Según los resultados de la prueba de normalidad de Lilliefors, no hay suficiente evidencia para rechazar la hipótesis nula de normalidad para los residuos del modelo de regresión lineal. Esto sugiere que los residuos pueden seguir una distribución normal. |
Prueba Gráfica
Prueba calculada Esta prueba se utiliza para
verificar si la varianza de los errores no está relacionada con una o
más variables independientes en el modelo.
studentized Breusch-Pagan test
data: modelo_apartamentos
BP = 0.83288, df = 1, p-value = 0.3614
Supuesto | Análisis |
---|---|
Homocedasticidad | Estadístico de prueba (BP): 0.83288 |
Grados de libertad (df): 1 | |
Valor p (p-value): 0.3614 | |
Grados de libertad (df): 1 | |
El valor p es 0.3614, lo que significa que no hay suficiente evidencia para rechazar la hipótesis nula de que no hay heterocedasticidad en los errores. | |
No hay evidencia significativa para sugerir que la varianza de los errores está relacionada con alguna de las variables independientes en el modelo. |
De acuerdo con los resultados del test de Breusch-Pagan, no hay suficiente evidencia para rechazar la hipótesis nula de que no hay heterocedasticidad en el modelo de regresión lineal. Esto sugiere que la varianza de los errores puede ser constante en relación con las variables independientes en el modelo.
Supuesto | Análisis |
---|---|
Linealidad | En la gráfica QQ de residuos se puede evidenciar que los residuos se encuentran perfectamente alineados con la linea intercuartílica, lo que indica que los residuos siguen una distribución normal |
Durbin-Watson test
data: modelo_apartamentos
DW = 2.0204, p-value = 0.6435
alternative hypothesis: true autocorrelation is greater than 0
Supuesto | Análisis |
---|---|
No correclación de Errores | El valor de prueba de Durbin-Watson (DW) se encuentra entre 0 y 4. Un valor de DW cercano a 2 sugiere que no hay autocorrelación de primer orden en los residuos. |
El valor p es 0.6435, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de que no hay autocorrelación de primer orden en los residuos. | |
La hipótesis alternativa sugiere que la autocorrelación de primer orden es mayor que cero, pero el p-valor alto no proporciona suficiente evidencia para apoyar esta afirmación. |
Esto sugiere que los residuos pueden considerarse independientes entre sí.
Supuesto | Análisis |
---|---|
Valores atìpicos | Por la disposicón de la gráfica, se pueden detectar algunos valores atípicos que se encuentran fuera del rango de -20 a 20. |
La cantidad de valores que se encuentran fuera del rango no es significativa, por lo que no afecta el resultado del ejercicio |
`geom_smooth()` using formula = 'y ~ x'
`geom_smooth()` using formula = 'y ~ x'
En general se observa que los residuos studentizados tienen un coportamiento cerecano a la linea de regresión
8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo. 9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.
[1] 1
Cuando el coeficiente de Durbin-Watson (DW) es igual a 1, sugiere que no hay autocorrelación de primer orden en los errores, lo que es deseable en un modelo de regresión, ya que implica que los errores son independientes entre sí y no muestran patrones sistemáticos de correlación temporal
Call:
lm(formula = nuevo_y ~ areaconst, data = apartamentos)
Residuals:
Min 1Q Median 3Q Max
-26.5139 -5.0886 -0.0031 4.6406 24.3309
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.991e+02 6.698e-01 297.18 <2e-16 ***
areaconst 4.984e-01 8.503e-03 58.62 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.081 on 1361 degrees of freedom
Multiple R-squared: 0.7163, Adjusted R-squared: 0.7161
F-statistic: 3436 on 1 and 1361 DF, p-value: < 2.2e-16
Modelo R_Cuadrado
1 Lineal 0.7162696
2 Exponencial 0.6955958
3 Logarítmico 0.6820159
4 Doblemente Logarítmico 0.6740362
5 Hiperbólico 0.0000000
6 Doblemente Inverso 0.6726953
Concepto | Abalisis |
---|---|
Residuals | Por la disposicón de la gráfica, se pueden detectar algunos valores atípicos que se encuentran fuera del rango de -20 a 20. |
La cantidad de valores que se encuentran fuera del rango no es significativa, por lo que no afecta el resultado del ejercicio |
A continuación vamos a validar los supuestos con los que se presentan los cuatro modelos:
Normalidad
Shapiro-Wilk normality test
data: modelo1$residuals
W = 0.99885, p-value = 0.5419
Shapiro-Wilk normality test
data: modelo2$residuals
W = 0.9971, p-value = 0.01302
Shapiro-Wilk normality test
data: modelo3$residuals
W = 0.99907, p-value = 0.7333
Shapiro-Wilk normality test
data: modelo4$residuals
W = 0.9985, p-value = 0.2868
Modelo | Analisis |
---|---|
Mod. 1 | Los residuos pueden tener una distribución normal al 99.885%. Con p = 0.5419 Indica que no hay suficiente evidencia para rechazar la hipótesis nula |
Mod. 2 | Con p = 0.01302 se evidencia que los residuos no siguen una distribución normal |
Mod. 3 | Ahora p = 0.7333. Para este modelo, los residuos pueden considerarse aproximadamente normales |
Mod. 4 | Ahora p = 0.2868. No hay evidencia de que los residuos no sigan una distribución normal |
Varianza Constante (heterocedasticidad) - Test de
Breusch-Pagan
studentized Breusch-Pagan test
data: modelo1
BP = 0.83288, df = 1, p-value = 0.3614
studentized Breusch-Pagan test
data: modelo2
BP = 14.481, df = 1, p-value = 0.0001416
studentized Breusch-Pagan test
data: modelo3
BP = 7.0095, df = 1, p-value = 0.008108
studentized Breusch-Pagan test
data: modelo4
BP = 0.11855, df = 1, p-value = 0.7306
Modelo | Analisis |
---|---|
Mod. 1 | BP = 0.83288, p = 0.3614 No hay evidencia de heterocedasticidad.La varianza de los errores puede considerarse constante a lo largo de los diferentes niveles de las variables independientes en el modelo. |
Mod. 2 | BP = 14.481, con p = 0.0001416.Esto sugiere que la varianza de los errores no se mantiene constante a través de las diferentes condiciones o niveles de las variables independientes en el modelo. |
Mod. 3 | BP = 7.0095,ahora p = 0.008108. Se evidencia que la varianza de los errores no se mantiene constante a través de las diferentes condiciones o niveles de las variables independientes en el modelo. |
Mod. 4 | BP = 0.11855,Ahora p = 0.2868. Esto sugiere que la varianza de los errores puede considerarse constante a través de las diferentes condiciones |
No autocorrelación de errores
Durbin-Watson test
data: modelo1
DW = 2.0204, p-value = 0.6435
alternative hypothesis: true autocorrelation is greater than 0
Durbin-Watson test
data: modelo2
DW = 1.9464, p-value = 0.1587
alternative hypothesis: true autocorrelation is greater than 0
Durbin-Watson test
data: modelo3
DW = 2.0219, p-value = 0.6534
alternative hypothesis: true autocorrelation is greater than 0
Durbin-Watson test
data: modelo4
DW = 1.9635, p-value = 0.2469
alternative hypothesis: true autocorrelation is greater than 0
Modelo | Analisis |
---|---|
Mod. 1 | DW = 2.0204, p = 0.6435. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva |
Mod. 2 | DW = 1.9464, p = 0.1587. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva |
Mod. 3 | DW = 2.0219, p = 0.6534. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva |
Mod. 4 | DW = 1.9635, p = 0.2469. El valor del estadístico de prueba está cerca de 2, lo que sugiere que no hay evidencia de autocorrelación positiva |
Trasnformación
=======================================================================
Dependent variable:
---------------------------------------------------
preciom log(preciom)
(1) (2) (3) (4)
-----------------------------------------------------------------------
areaconst 0.498*** 0.002***
(0.009) (0.00004)
log(areaconst) 42.878*** 0.174***
(0.794) (0.003)
Constant 200.063*** 53.820*** 5.318*** 4.723***
(0.670) (3.409) (0.003) (0.014)
-----------------------------------------------------------------------
Observations 1,363 1,363 1,363 1,363
R2 0.716 0.682 0.696 0.674
Adjusted R2 0.716 0.682 0.695 0.674
Residual Std. Error 7.081 7.496 0.030 0.031
F Statistic 3,435.808*** 2,919.088*** 3,110.029*** 2,814.311***
=======================================================================
Note: *p<0.1; **p<0.05; ***p<0.01
Haciendo una validación de R2 se encuentra que el mejor de los modelos para aplicar es el Modelo 1 con un valor del 71.6%. Esto indica, que para saber el valor del apartamento se puede lograr una prediccion acertada del 71.6% tomando una única variable de área. Se encuentra ue el valor aproximado del metro cuadrado de construcci{on en un apartamento es de aproximadamente $498.000. Se evidencia que los residuos no tienen una correlación y por tanto se apoya en el modelo de Regresión Lineal
10. Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
Hemos trabajado cuatro modelos proncipales. Los datos se enidencian a continuación
par(mfrow=c(1,4))
plot(modelo1, 1)
title(main = "Modelo 1", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
plot(modelo2, 1)
title(main = "Modelo 2", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
plot(modelo3, 1)
title(main = "Modelo 3", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
plot(modelo4, 1)
title(main = "Modelo 4", line = 1.5, cex.main = 0.8)
xlabel <- "Valores ajustados"
ylabel <- "Residuales"
mtext(xlabel, side = 1, line = 3, cex = 0.7)
mtext(ylabel, side = 2, line = 3, cex = 0.7)
Se evidencia visualmente que el modelo que mejor se ajusta es el Modelo 1. Se ha justificado su eleccion con las pruebas que hemos realizado en la parte anterior del proyecto. Con los graficos expuestos ahora, se evidencia que la data se ajusta al modelo de regresion lineal.
Intervalos de confianza del 95%
confint(modelo1)
2.5 % 97.5 %
(Intercept) 198.7494103 201.377500
areaconst 0.4817357 0.515097
Se determina que, (como se habia mensionado anteiromente) el derecho a tener apartamentos (lote) tiene un costo inicial esta entre 198.75 a 201.38 millones (valor del intercepto) Para el coeficiente de área construida (areaconst), el intervalo de confianza del 95% va desde aproximadamente 48,2 a 51.5 metros
Predicción de E[Y|xo] De acuerdo con el caso presentado durante la investigación, se determina hacer el analisis para un apartamento de 110 metros con un valor de 200 millones.
predict(modelo1, data.frame(areaconst=110), interval = "confidence", level = 0.95)
fit lwr upr
1 254.8893 254.2014 255.5771
Despues de realizar el prcoso de prediccion con relacion al área, se determina que el valor real de in inmueble con las mismas características se encuentra entre 254 y 255 millones; por lo que al hacer la compra en un valor inferior se conviente en una oferta que se debería aceptar.
Predicción de Y0 Mirandolo con otro moelo de preducción, se evidencia que:
predict(modelo1, data.frame(areaconst=110), interval = "prediction", level = 0.95)
fit lwr upr
1 254.8893 240.9814 268.7971
El rango de aceptacioon para el caso del apartamento de 110 metros, el valor debería estar entre 240 y 268 millones.
11. Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores.
Informe general final
Estimados señores
A continuación se presentan las principales características de los inmuebles presentados por ustedes para el análisis.
# Crear el gráfico de pastel con etiquetas de porcentaje
ggplot(df_conteo, aes(x = "", y = conteo, fill = tipo)) +
geom_bar(stat = "identity", width = 1) +
geom_text(aes(label = paste0(round(porcentaje), "%")), position = position_stack(vjust = 0.5)) +
coord_polar("y", start = 0) +
labs(title = "Distribución por tipo de vivienda") +
scale_fill_manual(values = c("#A3E4D7", "#F8C471")) +
theme_minimal()
Teniendo en cuenta que el nicho de mercado que ustedes manejan se determina trabajar UNICAMENTE CON APARTAMENTOS Estos inmuebles se encuentran ubicados en la siguientes sonas
# Crear el gráfico de barras mejorado con porcentajes utilizando ggplot2
ggplot(df_conteo_zonas, aes(x = reorder(zona, -conteo), y = conteo, fill = zona)) +
geom_bar(stat = "identity") +
geom_text(aes(label = paste0(round(porcentaje), "%")), vjust = -0.3, size = 3, color = "black") +
labs(title = "Distribución de Apartamentos por Zonas", x = "Zona", y = "Cantidad") +
scale_fill_manual(values = c("orange", "#3498DB", "yellow", "#9B59B6", "#CD6155")) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
axis.text = element_text(size = 10),
axis.title = element_text(size = 12),
plot.title = element_text(size = 14, face = "bold"),
panel.grid.major = element_line(color = "#CB4335", linetype = "dashed")) +
theme(plot.margin = margin(50, 100, 50, 50))
Aunque los apartamentos existen principalmente en la zona sur, se determina trabajar con todas las zonas para evidenciar el desarrollo de la venta de apartamentos en toda la ciudad.
Despues de realizar las pruebas del ajuste de los datos a los diferentes modelos, se determina que la informacion registrada se esta ajustando al modelo de regresión lineal simple, ya que el precio del inmueble se determina en un 71.61% con respecto al área del apartamento. Para poder determinar con mayor acierto el valor del inmueble, será necesario involucrar otras variables que afecten la relacion del apartamento con el precio, tales como zonas, piso del apartamento, ventajas del sector, etc.
Se recomienda especialmente invertir en apartamentos que se tengan las siguientes características:
Caracteristica | Recomendación |
---|---|
Ubicación | Se recomienda que los inmuebles se cnuentren en la Zona Sur |
Valor | El rango de confianza esta entre 198.75 a 201.38 millones |
Tamaño | Preferiblemente entre 48,2 a 51.5 metros |
Tomando en cuenta estas recomendaciones, se logrará aumentar la posibilidad de realizar la venta de los apartamentos de manera mucho mas ágil.