El mercado inmobiliario en Cali, una de las ciudades más vibrantes y culturalmente ricas de Colombia, presenta un terreno fértil para un análisis exhaustivo debido a su dinámica compleja y su importancia crítica tanto para la economía local como para el bienestar de sus residentes. con una creciente demanda de viviendas y una infraestructura en constante evolución, es crucial comprender las tendencias y los factores que influyen en el mercado inmobiliario de la ciudad. En este informe, se llevará a cabo un análisis estadístico de una base de datos que contiene información sobre el precio, ubicación, características y ventas de viviendas en Cali Entender el mercado inmobiliario de Cali es esencial no solo para los inversores y desarrolladores que buscan capitalizar oportunidades, sino también para los responsables de la formulación de políticas que aspiran a promover el desarrollo sostenible, y para los residentes que buscan mejorar su calidad de vida. Al proporcionar un análisis detallado y basado en evidencia.
Analizar la variación de la oferta inmobiliaria en diferentes zonas de Cali.
1. Preparación de los datos
se comienza por cargar la base de datos en un entorno de programación como los es Rstudio. Asegúrate de que los datos estén limpios y estructurados correctamente para el análisis.
En la gráfica anterior se observa que algunas variables tienen datos faltantes por lo que se reemplazan por la media y la moda dependiendo del tipo de variable con el objetivo que los datos estén estructurados correctamente
Se identifica que las variables fueron organizadas correctamente
2. Exploración de datos
Se realiza una exploración inicial de los datos para familiarizar con las variables disponibles. se identifica las variables relevantes para el análisis, como son el precio de las viviendas, la ubicación, el tipo de vivienda, el área construida y la zona características son esenciales para comprender la dinámica del mercado inmobiliario, identificar tendencias, determinar la demanda y la oferta, y tomar decisiones informadas tanto para compradores como para vendedores, desarrolladores y otros actores involucrados en el sector inmobiliario.
Se toman en cuenta 3 variables principales que son el precio de la vivienda, es una variable fundamental ya que representa el valor monetario de las viviendas. Analizar la distribución de precios y su variabilidad en diferentes zonas proporciona información valiosa sobre la accesibilidad económica de la vivienda en la ciudad la segunda es la zona es un factor crítico en el mercado inmobiliario, ya que influye en gran medida en el precio y la demanda de las viviendas y la ultima es • El tipo de vivienda (apartamento, casa unifamiliar) es importante porque cada tipo de propiedad tiene características únicas que atraen a diferentes segmentos de compradores y tienen diferentes implicaciones en términos de mantenimiento, espacio habitable y estilo de vida.
3. Análisis de medidas de tendencia central y dispersión
calcular las medidas de tendencia central, como la media, la mediana
y la moda, para entender el precio de las viviendas en diferentes zonas
de Cali. Esto te dará una idea de la distribución central de los precios
Calcular medidas de dispersión, como la desviación estándar y el rango intercuartílico, para comprender la variabilidad en los precios de las viviendas en cada zona. Esto te ayudará a entender qué tan dispersos están los precios alrededor de la medida central.
4. Visualización de datos
Crea histogramas de densidad para visualizar la distribución de los precios de las viviendas en diferentes zonas. Esto te permitirá ver la forma de la distribución y detectar posibles sesgos o patrones.
La grafica con indica que existe cierta periodicidad o regularidad en la distribución de densidad de propiedades a través de los diferentes estratos socioeconómicos en las zonas inmobiliarias de Cali, donde su mayor pico o concentración se encuentra en el estrato 5 confirmando los resultados obtenidos de la medida de la tendencia central.
El gráfico indica que la distribución tiene una cola larga hacia la derecha, lo que indica que hay algunas propiedades con precios muy por encima de la media. En general, el gráfico muestra que el mercado inmobiliario residencial donde tiene más propiedades asequibles y menos propiedades de lujo.
El gráfico muestra que la distribución del área construida de las residencias está sesgada hacia tamaños pequeños y medianos, siendo poco común encontrar inmuebles residenciales de grandes dimensiones
Se usaron los gráficos para representar la distribución de tipos de viviendas y otras características relevantes, esto ayudará a identificar las tendencias en la oferta de viviendas en Cali.
En el primer grafico de caja se observa que la mayoría de los
estratos residenciales representados se concentran entre los niveles 4 y
5, con una mediana alrededor de 4.5 a 5.0. La distribución parece
relativamente simétrica y sin valores atípicos.
En el segundo grafico de caja se compara la distribución del precio y el
área de propiedades, observándose valores atípicos por encima media, lo
cual sugiere una mayor dispersión y variabilidad de los datos.
5. Interpretación de resultados
Analiza los resultados obtenidos, identificando patrones, tendencias o discrepancias significativas en los precios y la oferta de viviendas en Cali.
Considera cómo estos hallazgos pueden relacionarse con factores socioeconómicos, demográficos o de infraestructura que podrían influir en el mercado inmobiliario.
6. Documentación de resultados
Posteriormente a la realización de la metodología se logra identificar los siguientes factores que permitirán comprender la dinámica del mercado inmobiliario, identificar tendencias, determinar la demanda y la oferta, y tomar decisiones informadas tanto para compradores como para vendedores, desarrolladores y otros actores involucrados en el sector inmobiliario.
Este grafico circular representa cinco zonas geográficas diferentes donde la zona sur ocupa más del 50 % del grafico indicando que su demografía es predominantes y el sector inmobiliario tiene gran influencia en este zona también se observa que según los datos encuestados, indican una preferencia o proporción mayor por los apartamento, ya estos puede ser más accesibles y cómodos para los clientes
El gráfico muestra la distribución de precios en diferentes zonas geográficas que representa 5 zonas representadas: Centro, Norte, Oeste, Oriente y Sur Se observa los siguientes puntos.
Todas las zonas muestran una amplia distribución de precios, con presencia de valores atípicos altos y bajos. La Zona oeste tienen los valores máximos más altos y más valores atípicos en cambio la zona centro y oriente tiene los valores mas bajo en comparación a las otras zonas
Las medianas y rangos intercuartílicos sugieren que los precios tienden a ser más altos en la Zona oeste y Zona Sur
En resumen el gráfico muestra amplia variabilidad de precios en todas las zonas, con Zona Centro relativamente más económica y Zonas Oriente y Sur con precios potencialmente más elevados.
En el gráfico de dispersión que muestra datos de estrato en diferentes zonas. El eje vertical indicar valores de estrato, mientras que en el eje horizontal se tienen las distintas zonas. Los puntos graficados muestran que el valor de estrato es relativamente consistente en todas las zonas.
El gráfico muestra similitudes en el estrato promedio de las diferentes zonas analizadas, lo que podría indicar que hay diferentes sectores socioeconómicos en cada zona, en otras palabras se refiere a que hay gran variedad de inmuebles de diferente estrato socioeconómico en la misma zona.
Gráfico de dispersión compara la distribución de un área de construcción de cada inmueble en diferentes zonas geográficas de la ciudad de Cali, de este grafico se puede observar los siguientes puntos
Las zonas centro y oriente tienen medianas más bajas en comparación con las otras zonas, lo que indica áreas de construcción más pequeñas en estos sectores y menor variabilidad de inmuebles con áreas grandes de construcción sin embargo presenta limitadas excepciones
Las zonas sur tienen medianas más altas en comparación, lo que indica áreas de construcción más grandes y mayor diversidad de inmuebles con áreas de construcción grandes.
Las zonas oeste y Norte presentan variabilidad promedio en el tamaño de las áreas de construcción.
En resumen, se observa que la zona sur tiene las áreas de construcción más grandes, con norte mostrando la mayor variabilidad. Las demás zonas tienen medianas y distribuciones más similares entre sí.
En el diagrama de dispersión que muestra la presencia de casas y apartamentos en diferentes zonas geográficas, de este grafico se puede observar hay puntos representando tanto casas como apartamentos en todas las zonas indicadas (Centro, Norte, Oeste, Oriente y Sur). Esto sugiere que hay disponibilidad de ambos tipos de propiedades residenciales a lo largo de estas zonas
En el diagrama de dispersión representa la relación entre dos variables cuantitativas. El eje horizontal, representa a la variable precio, mientras que el eje vertical, representar el área de construcción. Los puntos en el gráfico sugieren una relación general en la que a mayor precio corresponde, en promedio, una mayor área de construcción, sin embargo, esta relación no es del todo precisa ya que existe una dispersión considerable de los datos. También se puede observar varios valores atípicos es posiblemente puede ser por prácticas de mercado o características netas de los inmuebles. por ultimo se observa que hay una mayor concentración de puntos en la parte inferior izquierda, lo que sugiere que hay mayor número de propiedades de menor tamaño y precio.
1. Precio de las viviendas en diferentes zonas de Cali:
Se observa que los precios de las viviendas varían significativamente según la zona de Cali y sus características . Se identifican áreas con precios más altos, como la zona sur y zonas residenciales exclusivas, mientras que otras áreas tienen precios más accesibles, como en el centro de la ciudad.
Se presentará un análisis detallado de la distribución de precios por zona, incluyendo medidas de tendencia central y dispersión.
2.Tipo de viviendas más ofertadas en Cali:
A partir de los datos, se determina que los apartamentos son el tipo de vivienda más comúnmente ofertado en Cali. Sin embargo, también se observa una presencia significativa de casas unifamiliares.
Se proporcionará una comparación visual de la distribución de tipos de viviendas.
3.Características más relevantes de la oferta de vivienda en Cali:
El mercado inmobiliario de Cali es diverso, con variaciones significativas en los precios y la oferta de viviendas según la ubicación.
Los apartamentos son el tipo de vivienda más comúnmente ofertado en la ciudad, aunque también hay una presencia notable de otros tipos de viviendas.
Las características como el área de construccion y la zona juegan un papel crucial en la determinación de los precios y la demanda de viviendas en Cali.
La zona sur es donde presenta mayor variabilidad en tipo de inmuebles debido a que tiene gran oferta en precios área de construcción y tipo de vivienda.
Análisis de Datos Faltantes: Se imputaron valores faltantes utilizando la media o la moda, Sin embargo, sería útil discutir las implicaciones de esta técnica y cómo podría afectar la precisión de los resultados. Ya que la imputación de datos puede afectar la validez de los análisis posteriores.
Análisis de Tendencias de tiempo:No se menciona si los datos se recopilaron en un período específico o si se trata de una instantánea del mercado inmobiliario. Sería útil discutir cómo las tendencias pueden cambiar con el tiempo y cómo esto podría influir en las conclusiones.
Análisis de Correlación:No se realizó un análisis de correlación entre las variables, lo que podría proporcionar información adicional sobre las relaciones entre el precio, la ubicación y otras características de la vivienda.
La interpretación de resultados Podría desarrollarse mas para incluir discusiones sobre las implicaciones de los hallazgos y cómo podrían influir en las decisiones de los compradores, vendedores y desarrolladores.
Calidad de los Datos:La calidad de los datos y cómo se abordaron los problemas de calidad, como valores atípicos o datos faltantes. La calidad de los datos es fundamental para la validez de los análisis y las conclusiones.
Análisis Estadísticos Avanzados:Agregar análisis estadísticos más avanzados para profundizar en las relaciones entre las variables.
Se adjuntarán tablas y gráficos que respalden los resultados presentados en el informe, proporcionando una referencia visual y numérica para un análisis más detallado junto con el programa de Rstudio que se uso para la realización del informe
install.packages("devtools") # solo una vez
devtools::install_github("dgonxalex80/paqueteMETODOS")
library(paqueteMETODOS)
data(vivienda_faltantes)
save(vivienda_faltantes,
file = "C:\ Users\ USUAR\ OneDrive\ Escritorio\ Universidad Javeriana\ 1 semestre\ Metodos y Simulacion Estadistica")
#limpieza de la datos
vivienda_faltantes # se visualiza la tabla
str(vivienda_faltantes) # se verifica la table y sus componentes
faltantes <- colSums(is.na(vivienda_faltantes)) %>% as.data.frame() # se verifica los datos faltantes como una tabla
install.packages("naniar")
library(naniar)
gg_miss_var(vivienda_faltantes) # se visualiza grafico de datos faltantes
# como se visualiza en piso y parqueadero se presenta el mayor numero de datos faltantes por otro lados las demas columnas sono 3 datos install.packages("VIM")
VIM::aggr(vivienda_faltantes, cex.axis = 0.5, cex.lab= 0.8) # graficos de datos faltantes# se eliminan las columnas de piso y parqueadero
install.packages("dplyr")
library(dplyr)
datos <- vivienda_faltantes%>%select(-piso,-parquea)
datos # se hizo una nueva tabla eliminando los datos de piso y parquea debido a que tienen un gran numero de datos faltantes
#se hace una tabla para hacer un sondeo exploratorio de los datos con las columnas
# se observa que que no hay coerencia cuando se regsitraron los datos debido a que se escribieron las misma palabra de diferentes formas
# se elimino la la columnas de piso, parqueadero, barrio, logitud, latitud ya que no muestrta datos revelnates para este sonde exploratorio
install.packages("table1")
require(table1)
table1(~ id + zona + estrato + preciom+areaconst + banios + habitac + tipo + longitud + latitud , data=datos )
# se observa que los datos entre la media y la mediana son muy similares por que se procede arremplzar los valores que faltan por la mediana para las variables cualitativas
# se calcula las mediana
ID <- median(datos$id, na.rm = TRUE)
ESTRATO <- median(datos$estrato, na.rm = TRUE)
precio <- median(datos$preciom,na.rm = TRUE)
baños <- median(datos$banios,na.rm = TRUE)
habitaciones<- median(datos$habitac,na.rm = TRUE)
area<- median(datos$areaconst,na.rm = TRUE)
longitud1<- median(datos$longitud,na.rm = TRUE)
latitud1<- median(datos$latitud,na.rm = TRUE)
# se reemplaza los valores faltantes por las mediana
datos$id[is.na(datos$id)] <- ID
datos$estrato[is.na(datos$estrato)] <- ESTRATO
datos$preciom[is.na(datos$preciom)] <- precio
datos$banios[is.na(datos$banios)] <- baños
datos$habitac[is.na(datos$habitac)] <- habitaciones
datos$areaconst[is.na(datos$areaconst)] <- area
datos$habitac[is.na(datos$habitac)] <- habitaciones
datos$longitud[is.na(datos$longitud)] <- longitud1
datos$latitud[is.na(datos$latitud)] <- latitud1
datos
#las variables cualitativas se reemplazan por la moda
install.packages("DescTools")
library(DescTools)
moda_zona <- Mode(datos$zona, na.rm = TRUE)
moda_barrio <- Mode(datos$barrio, na.rm = TRUE)
moda_tipo <- Mode(datos$tipo, na.rm = TRUE)
datos$zona[is.na(datos$zona)] <- moda_zona
datos$barrio[is.na(datos$barrio)] <- moda_barrio
datos$tipo[is.na(datos$tipo)] <- moda_tipo
# se verifica que no hayan datos faltan nuevamente con una tabla y graficos
faltantes2 <- colSums(is.na(datos))%>% as.data.frame()
VIM::aggr(datos, cex.axis = 0.4, cex.lab= 0.8)
#para llevar a cabo el análisis estadístico descriptivo de
#la base de datos proporcionada sobre el mercado inmobiliario en Cali:
## exploracion de datos
# se seleccionan las variables de interes : precio, zona, area, estracto y tipo las otras variables no se tiene en cuenta segun el objetivo del informe
library(dplyr)
datos1 <- datos%>%select(estrato,preciom,areaconst) # cuantiitativos
exploracion <- summary.data.frame(datos1)%>%as.table(,sep = ":",)
exploracion1 =as.data.frame.matrix(exploracion ,sep = ":")
table1(~estrato+preciom+areaconst,data=datos1)
save(exploracion,file ="C:\ Users \ USUAR \ OneDrive \ Documentos\ tabla.r")
datos = replace(datos,datos=="casa"|datos=="CASA","Casa")
datos = replace(datos,datos=="APARTAMENTO"|datos=="apto","Apartamento")
datos2<- datos%>%select(zona,tipo) # datos cualitativos
exploracion2 <- summary.data.frame(datos2)%>%as.table()
table1(~zona+tipo,data=datos2)
datos3<- datos%>%select(preciom,areaconst)
# medidas de desviacion
estrato1=datos1$estrato
precio1=datos1$preciom
area1=datos1$areaconst
zona1=datos2$zona
tipo1=datos2$tipo
#varianza
varianza1 = var(estrato1)
varianza2 = var(precio1)
varianza3 = var(area1)
#desviancion estandar
desviancion1 = sd(estrato1)
desviancion2 = sd(precio1)
desviancion3 = sd(area1)
#se corrige la estritura de las variables
tipo1= replace(tipo1,tipo1=="APARTAMENTO"|tipo1=="apto","Apartamento")
tipo1= replace(tipo1,tipo1=="casa"|tipo1=="CASA","Casa")
#GRAFICASSSS cualitativas
t1=table(zona1)
pie(t1)
t2=table(tipo1)
pie(t2)
#graficas cuantitativas
stem(estrato1) # Diagrama de tallos y hojas
stem(precio1)
stem(area1)
# histogramas
hist(estrato1,breaks = 4,las=1,main = "Distribución de los estratos inmobiliarios en Cali",xlab="estrato",
ylab = "frecuencia",col ="#ee964b")
hist(precio1,breaks = 8,las=1,main = "Distribución de los Precios inmobiliarios en Cali",xlab="Precio",
ylab = "frecuencia",col ="#ee964b")
hist(area1,breaks = 8,las=2,main = "Distribución de los areas contruidad por residencia inmobiliarios en Cali",xlab="area m^2",
ylab = "frecuencia",col ="#ee964b")
# digrama de histograma de densidad
plot(density(estrato1), lwd=3, col="#0d3b66",
main = "Distribución del estracto en las zonas inmobiliarias de Cali",
xlab="tiempo (min)",
ylab = "densidad", las=1,
cex.lab=1, # tamaño de etiqueta ejes
cex.axis=.8, # tamaño escalas de los ejes
cex.main=1, # tamaño del titulo
cex.sub=1) # tamaño del subtitulo)
plot(density(precio1), lwd=3, col="#0d3b66",
main = "Distribución del precio en las residencias inmobiliarias",
xlab="tiempo (min)",
ylab = "densidad", las=1,
cex.lab=1, # tamaño de etiqueta ejes
cex.axis=.8, # tamaño escalas de los ejes
cex.main=1, # tamaño del titulo
cex.sub=1) # tamaño del subtitulo)
plot(density(area1), lwd=3, col="#0d3b66",
main = "Distribución del area construida en las residencias inmobiliarias ",
xlab="tiempo (min)",
ylab = "densidad", las=1,
cex.lab=1, # tamaño de etiqueta ejes
cex.axis=.8, # tamaño escalas de los ejes
cex.main=1, # tamaño del titulo
cex.sub=1) # tamaño del subtitulo)
# diagrama de caja
boxplot(estrato1,main = "Distribución de los estratos en las residencias inmobiliarias de cali",ylab="tiempo (min)",
xlab = "Estrato", las=1,col=c("#f4d35e","#ee964b"))
boxplot(datos3,main = "Distribución del precio y area en las residencias inmobiliarias de cali",ylab="tiempo (min)",
xlab = "precio", las=1,col=c("#f4d35e","#ee964b"))
install.packages("ggplot2")
library(ggplot2)
ggplot(datos1, aes(x = estrato)) +
geom_bar(width = 0.4, fill=rgb(0,1,1,0.5,0.7)) +
scale_x_discrete("estracto") + # configuración eje X (etiqueta del eje)
scale_y_continuous("Frecuencia") +
labs(title = "Gráfico de barras ",
subtitle = "Frecuencia absoluta de la variable estracto")
library(dplyr)
datos4<- datos%>%select(zona,preciom)
datos5<- datos%>%select(zona,estrato)
datos6<- datos%>%select(zona,areaconst)
datos7<- datos%>%select(zona,estrato,preciom)
install.packages("MASS")
library(MASS) # Para la función mvrnorm
# Plot
datos4%>% ggplot( aes(x=zona, y=preciom)) + geom_line() + geom_point()
datos5%>% ggplot( aes(x=zona, y=estrato)) + geom_line() + geom_point()
datos6%>% ggplot( aes(x=zona, y=areaconst)) + geom_line() + geom_point()
datos3%>% ggplot( aes(x=preciom, y=areaconst)) + geom_point()
datos2%>% ggplot( aes(x=zona, y=tipo)) + geom_line() + geom_point()
install.packages("hrbrthemes")
library(hrbrthemes)
# A basic scatterplot with color depending on Species
datos7 %>% ggplot(aes(x= zona, y= preciom, color= estrato)) +
geom_point(size=6) + theme_ipsum()