1. Introduccion

El mercado inmobiliario es un componente vital de la economía de cualquier ciudad, y Cali no es una excepción. Con una creciente demanda de viviendas y una infraestructura en constante evolución, es crucial comprender las tendencias y los factores que influyen en el mercado inmobiliario de la ciudad. En este informe, se llevará a cabo un análisis estadístico de una base de datos que contiene información sobre el precio, ubicación, características y ventas de viviendas en Cali.

2. Objetivos

Ojetivo principal

Analizar la variación de la oferta inmobiliaria en diferentes zonas de Cali.

Objetivos especificos

  • Analizar la variación de precios de las viviendas en diferentes zonas de Cali.
  • Identificar el tipo de viviendas más ofertadas en el mercado inmobiliario de Cali.
  • Determinar las características más relevantes de la oferta de vivienda en la ciudad.

3. Metodos

1. Preparación de los datos

se comienza por cargar la base de datos en un entorno de programación como los es Rstudio. Asegúrate de que los datos estén limpios y estructurados correctamente para el análisis.

Grafica de datos faltantes
Grafica de datos faltantes


En la grafica anteior se observa que algunas variables tienen datos faltantes por lo que se reemplzazan por la media y la moda dependiendo del tipo de variable con el objetivo que los datos esten estructurados correctamente

Grafica de datos faltantes
Grafica de datos faltantes


Se identifica que las variables fueron organizadas correctamente

2. Exploración de datos

Se realiza una exploración inicial de los datos para familiarizar con las variables disponibles. se iIdentifica las variables relevantes para el análisis, como son el precio de las viviendas, la ubicación, el tipo de vivienda, el area contruida y la zona característicasson esenciales para comprender la dinámica del mercado inmobiliario, identificar tendencias, determinar la demanda y la oferta, y tomar decisiones informadas tanto para compradores como para vendedores, desarrolladores y otros actores involucrados en el sector inmobiliario.

Tabla de exploracion de datos Tabla de exploracion de datos


Se toman en cuenta 3 variables principales que son el precio de la vivienda, es una variable fundamental ya que representa el valor monetario de las viviendas. Analizar la distribución de precios y su variabilidad en diferentes zonas proporciona información valiosa sobre la accesibilidad económica de la vivienda en la ciudad la segunda es la zona es un factor crítico en el mercado inmobiliario, ya que influye en gran medida en el precio y la demanda de las viviendas y la ultima es • El tipo de vivienda (apartamento, casa unifamiliar) es importante porque cada tipo de propiedad tiene características únicas que atraen a diferentes segmentos de compradores y tienen diferentes implicaciones en términos de mantenimiento, espacio habitable y estilo de vida.

3. Análisis de medidas de tendencia central y dispersión

calcular las medidas de tendencia central, como la media, la mediana y la moda, para entender el precio de las viviendas en diferentes zonas de Cali. Esto te dará una idea de la distribución central de los precios

Tabla de medidas de tendencia central
Tabla de medidas de tendencia central


Calcular medidas de dispersión, como la desviación estándar y el rango intercuartílico, para comprender la variabilidad en los precios de las viviendas en cada zona. Esto te ayudará a entender qué tan dispersos están los precios alrededor de la medida central.

4. Visualización de datos

Crea histogramas de densidad para visualizar la distribución de los precios de las viviendas en diferentes zonas. Esto te permitirá ver la forma de la distribución y detectar posibles sesgos o patrones.

Distribución del estracto en las zonas inmobiliarias de Cali
Distribución del estracto en las zonas inmobiliarias de Cali


La grafica con indica que existe cierta periodicidad o regularidad en la distribución de densidad de propiedades a través de los diferentes estratos socioeconómicos en las zonas inmobiliarias de Cali, donde su mayor pico o concentracion se encuentra en el estrato 5 confirmando los resultados obtenidos de la medida de la tendencia central.

Distribución del precio en las residencias inmobiliarias
Distribución del precio en las residencias inmobiliarias


El gráfico indica que la distribución tiene una cola larga hacia la derecha, lo que indica que hay algunas propiedades con precios muy por encima de la media. En general, el gráfico muestra que el mercado inmobiliario residencial donde tiene más propiedades asequibles y menos propiedades de lujo.

Distribución del area construida en las residencias inmobiliarias
Distribución del area construida en las residencias inmobiliarias


El gráfico muestra que la distribución del área construida de las residencias está sesgada hacia tamaños pequeños y medianos, siendo poco común encontrar inmuebles residenciales de grandes dimensiones

Se usaron los gráficos para representar la distribución de tipos de viviendas y otras características relevantes,esto ayudará a identificar las tendencias en la oferta de viviendas en Cali.

Grafica de datos faltantes Grafica de datos faltantes


En el primer grafico de caja se observa que la mayoría de los estratos residenciales representados se concentran entre los niveles 4 y 5, con una mediana alrededor de 4.5 a 5.0. La distribución parece relativamente simétrica y sin valores atípicos.
En el segundo grafico de caja se compara la distribución del precio y el área de propiedades, observandose valores atípicos por encima media, lo cual sugiere una mayor dispersión y variabilidad de los datos.

5. Interpretación de resultados *

6. Documentación de resultados

4. Resultados

Posteriormente a la realizacion de la metodologia se logra identificar los siguentes factores que permitiran comprender la dinámica del mercado inmobiliario, identificar tendencias, determinar la demanda y la oferta, y tomar decisiones informadas tanto para compradores como para vendedores, desarrolladores y otros actores involucrados en el sector inmobiliario.

Grafico de zona inmobiliariaGrafico de tipo de apartamento


Este grafico circular representa cinco zonas geográficas diferentes donde la zona sur ocupa más del 50 % del grafico indicando que su demografia es predominantes y el sector inmobiliario tiene gran influencia en este zona también se observa que según los datos encuestados, indican una preferencia o proporción mayor por los apartamento, ya estos puede ser más accesibles y cómodos para los clientes

La distribución de precios en diferentes zonas de cali
La distribución de precios en diferentes zonas de cali


El gráfico muestra la distribución de precios en diferentes zonas geográficas que representa 5 zonas representadas: Centro, Norte, Oeste, Oriente y Sur Se observa los siguientes puntos.

En resumen el gráfico muestra amplia variabilidad de precios en todas las zonas, con Zona Centro relativamente más económica y Zonas Oriente y Sur con precios potencialmente más elevados.

Distribucion del de estrato socioeconomico en diferentes zonas
Distribucion del de estrato socioeconomico en diferentes zonas


En el gráfico de dispersión que muestra datos de estrato en diferentes zonas. El eje vertical indicar valores de estrato, mientras que en el eje horizontal se tienen las distintas zonas. Los puntos graficados muestran que el valor de estrato es relativamente consistente en todas las zonas.

El gráfico muestra similitudes en el estrato promedio de las diferentes zonas analizadas, lo que podría indicar que hay diferentes sectores socioeconómicos en cada zona, en otras palabras se refiere a que hay gran variedad de inmuebles de diferente estrato socioeconómico en la misma zona.

La distribución de un área de construcción por zonas
La distribución de un área de construcción por zonas


Gráfico de dispersión compara la distribución de un área de construcción de cada inmueble en diferentes zonas geográficas de la ciudad de Cali, de este grafico se puede observar los siguientes puntos

En resumen, se observa que la zona sur tiene las áreas de construcción más grandes, con norte mostrando la mayor variabilidad. Las demás zonas tienen medianas y distribuciones más similares entre sí.

Distribucion del tipo de inmueble por zonas
Distribucion del tipo de inmueble por zonas


En el diagrama de dispersión que muestra la presencia de casas y apartamentos en diferentes zonas geográficas, de este grafico se puede observar hay puntos representando tanto casas como apartamentos en todas las zonas indicadas (Centro, Norte, Oeste, Oriente y Sur). Esto sugiere que hay disponibilidad de ambos tipos de propiedades residenciales a lo largo de estas zonas

Relacion entre el precio y el area construida
Relacion entre el precio y el area construida


En el diagrama de dispersión representa la relación entre dos variables cuantitativas. El eje horizontal, representa a la variable precio, mientras que el eje vertical, representar el área de construcción. Los puntos en el gráfico sugieren una relación general en la que a mayor precio corresponde, en promedio, una mayor área de construcción, sin embargo, esta relación no es del todo precisa ya que existe una dispersión considerable de los datos. También se puede observar varios valores atípicos es posiblemente puede ser por prácticas de mercado o características netas de los inmuebles. por ultimo se observa que hay una mayor concentración de puntos en la parte inferior izquierda, lo que sugiere que hay mayor número de propiedades de menor tamaño y precio.

1. Precio de las viviendas en diferentes zonas de Cali:

2.Tipo de viviendas más ofertadas en Cali:

3.Características más relevantes de la oferta de vivienda en Cali:

5. Conclusiones

6. anexos

Se adjuntarán tablas y gráficos que respalden los resultados presentados en el informe, proporcionando una referencia visual y numérica para un análisis más detallado junto con el programa de Rstudio que se uso para la realizacion del informe

grafica de datos faltantes
grafica de datos faltantes
grafica de datos faltantes
grafica de datos faltantes
grafica de datos faltantes
grafica de datos faltantes
grafica de datos faltantes
grafica de datos faltantes
install.packages("devtools") # solo una vez
devtools::install_github("dgonxalex80/paqueteMETODOS")
library(paqueteMETODOS)
data(vivienda_faltantes)
save(vivienda_faltantes,
file = "C:\ Users\ USUAR\ OneDrive\ Escritorio\ Universidad Javeriana\ 1 semestre\ Metodos y Simulacion Estadistica") 

#limpieza de la datos 

vivienda_faltantes # se visualiza la tabla
str(vivienda_faltantes) # se verifica la table y sus componentes 
faltantes <- colSums(is.na(vivienda_faltantes)) %>% as.data.frame() # se verifica los datos faltantes como una tabla 

install.packages("naniar")
library(naniar)
gg_miss_var(vivienda_faltantes) # se visualiza grafico de datos faltantes

# como se visualiza en piso y parqueadero se presenta el mayor numero de datos faltantes por otro lados las demas columnas sono 3 datos install.packages("VIM")

VIM::aggr(vivienda_faltantes, cex.axis = 0.5, cex.lab= 0.8)  # graficos de datos faltantes# se eliminan las columnas de piso y parqueadero 

install.packages("dplyr")
library(dplyr)
datos <- vivienda_faltantes%>%select(-piso,-parquea)
datos # se hizo una nueva tabla eliminando los datos de piso y parquea debido a que tienen un gran numero de datos faltantes 

#se hace una tabla para hacer un sondeo exploratorio de los datos con las columnas 
# se observa que que no hay coerencia cuando se regsitraron los datos debido a que se escribieron las misma palabra de diferentes formas 
# se elimino la la columnas de piso, parqueadero, barrio, logitud, latitud ya que no muestrta datos revelnates para este sonde exploratorio

install.packages("table1")
require(table1)
table1(~ id + zona + estrato + preciom+areaconst + banios + habitac + tipo  + longitud + latitud , data=datos   )

# se observa que los datos entre la media y la mediana son muy similares  por que se procede arremplzar los valores que faltan por la mediana para las variables cualitativas

# se calcula las mediana 
ID <- median(datos$id, na.rm = TRUE)
ESTRATO <- median(datos$estrato, na.rm = TRUE)
precio <- median(datos$preciom,na.rm = TRUE)
baños <- median(datos$banios,na.rm = TRUE)
habitaciones<- median(datos$habitac,na.rm = TRUE)
area<- median(datos$areaconst,na.rm = TRUE)
longitud1<- median(datos$longitud,na.rm = TRUE)
latitud1<- median(datos$latitud,na.rm = TRUE)

# se reemplaza los valores faltantes por las mediana
datos$id[is.na(datos$id)] <- ID
datos$estrato[is.na(datos$estrato)] <- ESTRATO
datos$preciom[is.na(datos$preciom)] <- precio
datos$banios[is.na(datos$banios)] <- baños
datos$habitac[is.na(datos$habitac)] <- habitaciones

datos$areaconst[is.na(datos$areaconst)] <- area
datos$habitac[is.na(datos$habitac)] <- habitaciones
datos$longitud[is.na(datos$longitud)] <- longitud1
datos$latitud[is.na(datos$latitud)] <- latitud1

datos
#las variables cualitativas se reemplazan por la moda

install.packages("DescTools")
library(DescTools)
moda_zona <- Mode(datos$zona, na.rm = TRUE)
moda_barrio <- Mode(datos$barrio, na.rm = TRUE)
moda_tipo <- Mode(datos$tipo, na.rm = TRUE)

datos$zona[is.na(datos$zona)] <- moda_zona
datos$barrio[is.na(datos$barrio)] <- moda_barrio
datos$tipo[is.na(datos$tipo)] <- moda_tipo

# se verifica que no hayan datos faltan nuevamente con una tabla y graficos 
faltantes2 <- colSums(is.na(datos))%>% as.data.frame() 
VIM::aggr(datos, cex.axis = 0.4, cex.lab= 0.8)


#para llevar a cabo el análisis estadístico descriptivo de 
#la base de datos proporcionada sobre el mercado inmobiliario en Cali:


## exploracion de datos 
# se seleccionan las variables de interes : precio, zona, area, estracto y tipo las otras variables no se tiene en cuenta segun el objetivo del informe
library(dplyr)
datos1 <- datos%>%select(estrato,preciom,areaconst) # cuantiitativos
exploracion <- summary.data.frame(datos1)%>%as.table(,sep = ":",) 
exploracion1 =as.data.frame.matrix(exploracion ,sep = ":")
table1(~estrato+preciom+areaconst,data=datos1)
save(exploracion,file ="C:\ Users \ USUAR \ OneDrive \ Documentos\ tabla.r")


datos = replace(datos,datos=="casa"|datos=="CASA","Casa")
datos = replace(datos,datos=="APARTAMENTO"|datos=="apto","Apartamento")

datos2<- datos%>%select(zona,tipo) # datos cualitativos 
exploracion2 <- summary.data.frame(datos2)%>%as.table() 
table1(~zona+tipo,data=datos2)

datos3<- datos%>%select(preciom,areaconst)
# medidas de desviacion 

estrato1=datos1$estrato
precio1=datos1$preciom
area1=datos1$areaconst
zona1=datos2$zona
tipo1=datos2$tipo

#varianza
varianza1 = var(estrato1)
varianza2 = var(precio1)
varianza3 = var(area1)

#desviancion estandar
desviancion1 = sd(estrato1)
desviancion2 = sd(precio1)
desviancion3 = sd(area1)



#se corrige la estritura de las variables 
tipo1= replace(tipo1,tipo1=="APARTAMENTO"|tipo1=="apto","Apartamento")
tipo1= replace(tipo1,tipo1=="casa"|tipo1=="CASA","Casa")



#GRAFICASSSS cualitativas

t1=table(zona1)
pie(t1)

t2=table(tipo1)
pie(t2)

#graficas cuantitativas 
stem(estrato1) # Diagrama de tallos y hojas
stem(precio1)
stem(area1)

# histogramas  

hist(estrato1,breaks = 4,las=1,main = "Distribución de los estratos inmobiliarios en Cali",xlab="estrato",
     ylab = "frecuencia",col ="#ee964b")
hist(precio1,breaks = 8,las=1,main = "Distribución de los Precios inmobiliarios en Cali",xlab="Precio",
     ylab = "frecuencia",col ="#ee964b")
hist(area1,breaks = 8,las=2,main = "Distribución de los areas contruidad por residencia inmobiliarios en Cali",xlab="area m^2",
     ylab = "frecuencia",col ="#ee964b")

# digrama de  histograma de densidad 

plot(density(estrato1), lwd=3, col="#0d3b66",
     main = "Distribución del estracto en las zonas inmobiliarias de Cali",
     xlab="tiempo (min)",
     ylab = "densidad", las=1,
     cex.lab=1,  # tamaño de etiqueta ejes
     cex.axis=.8, # tamaño escalas de los ejes 
     cex.main=1, # tamaño del titulo
     cex.sub=1)    # tamaño del subtitulo)
plot(density(precio1), lwd=3, col="#0d3b66",
     main = "Distribución del precio en las residencias inmobiliarias",
     xlab="tiempo (min)",
     ylab = "densidad", las=1,
     cex.lab=1,  # tamaño de etiqueta ejes
     cex.axis=.8, # tamaño escalas de los ejes 
     cex.main=1, # tamaño del titulo
     cex.sub=1)    # tamaño del subtitulo)
plot(density(area1), lwd=3, col="#0d3b66",
     main = "Distribución del area construida en las residencias inmobiliarias ",
     xlab="tiempo (min)",
     ylab = "densidad", las=1,
     cex.lab=1,  # tamaño de etiqueta ejes
     cex.axis=.8, # tamaño escalas de los ejes 
     cex.main=1, # tamaño del titulo
     cex.sub=1)    # tamaño del subtitulo)

#  diagrama de caja

boxplot(estrato1,main = "Distribución de los estratos en las residencias inmobiliarias de cali",ylab="tiempo (min)",
xlab = "Estrato", las=1,col=c("#f4d35e","#ee964b"))


boxplot(datos3,main = "Distribución del precio y area en las residencias inmobiliarias de cali",ylab="tiempo (min)",
        xlab = "precio", las=1,col=c("#f4d35e","#ee964b"))


install.packages("ggplot2")
library(ggplot2)
ggplot(datos1, aes(x = estrato)) +
  geom_bar(width = 0.4,  fill=rgb(0,1,1,0.5,0.7)) +
  scale_x_discrete("estracto") +     # configuración eje X (etiqueta del eje)
  scale_y_continuous("Frecuencia") +
  labs(title = "Gráfico de barras ",
       subtitle = "Frecuencia absoluta de la variable estracto")

library(dplyr)
datos4<- datos%>%select(zona,preciom)
datos5<- datos%>%select(zona,estrato)
datos6<- datos%>%select(zona,areaconst)
datos7<- datos%>%select(zona,estrato,preciom)

install.packages("MASS")
library(MASS) # Para la función mvrnorm

# Plot
datos4%>%  ggplot( aes(x=zona, y=preciom)) +  geom_line() +  geom_point()
datos5%>%  ggplot( aes(x=zona, y=estrato)) +  geom_line() +  geom_point()
datos6%>%  ggplot( aes(x=zona, y=areaconst)) +  geom_line() +  geom_point()
datos3%>%  ggplot( aes(x=preciom, y=areaconst)) +  geom_point()
datos2%>%  ggplot( aes(x=zona, y=tipo)) +  geom_line() +  geom_point()


install.packages("hrbrthemes")
library(hrbrthemes)
# A basic scatterplot with color depending on Species
datos7 %>% ggplot(aes(x= zona, y= preciom, color= estrato)) + 
  geom_point(size=6) + theme_ipsum()