library(mice)
library(tidyverse)
library(stats)
library(DT)
library(kableExtra)
library(ggmap)
library(modeest)
library(psych)
library(moments)
library(kableExtra)
library(ggcorrplot)
###Cargamos la base de datos desde nuestro directorio
vivienda_cali <- read_csv("C:/Users/juanr/OneDrive/Escritorio/U Javeriana/Primer semestre/Métodos Y simulación estadística/Unidad N°1/vivienda_faltantes.csv",
                               na = "NA")
### Eliminar NA en la columna ID, ya que en esta columna se presentan 3 varoles N/A, y al observar las filas correspondientes a estos N/A tambien aparecen N/a, así que no se pierde información de las demás columnas.
vivienda_cali <- vivienda_cali[complete.cases(vivienda_cali$id), ] 

Introducción.

El análisis inmobiliario es uno de los sectores económicos más importantes de la ciudad de Cali, por lo tanto, es importante realizar el análisis del mercado inmobiliario para la toma de decisiones de inversión de vivienda en la ciudad. Este informe se centra detalladamente en el análisis de los precios de las casas y de los apartamentos, la cantidad de baños y habitaciones, área de construcción y zonas para adquirir vivienda.

El precio es un factor determinante a la hora de tomar la decisión de invertir en un casa o apartamento, pues éste, dependiendo de las características del bien inmueble es un indicador de las preferencias de los clientes. Estos datos son fundamentales para entender el comportamiento del valor de las propiedades e identificar oportunidades de inversión.

También, analizar las mejores zonas en Cali donde están comprando las personas es importante para determinar donde se va a realizar la inversión por parte de la constructora, asimismo, que precios en tanto a apartamentos y casas están siendo más apetecidos por parte de los clientes y que cantidad de baños y habitaciones buscan. Esto es importante conocerlos, porque facilita determinar las preferencias de los clientes y posibilita la toma de decisiones de inversión en cuanto a qué características deben de llevar las viviendas en dichas zonas.

En conclusión, realizar el análisis del mercado inmobiliario en Cali es imprescindible para la empresa B&C, ya que permite el estudio detallado de los precios, cantidad de baños y habitaciones e identifica cuales son las mejores zonas para realizar inversiones en Cali, a partir de conocer las preferenciasde las personas ¿qué es lo que están buscando las personas al momento de comprar vivienda? y de esta forma satisfacer las necesidades del mercado, llegando a ser una empresa competitiva en el sector inmobiliario.

Objetivos.

Los objetivos de este informe son los siguientes:

  • General
    • Realizar un análisis descriptivo del mercado inmobiliario en la ciudad de Cali, Colombia.
  • Específicos
    • Desarrollar un análisis descriptivo sobre el precio de las viviendas de diferentes zonas de la ciudad de Cali.
    • Identificar las características de las viviendas según estratos socioeconómicos.
    • Determinar las preferencias de las características de los consumidores de los diferentes tipos de vivienda en Cali.

Métodos.

En relación con los métodos utilizados, se emplea los indicadores de posición, variabilidad, centro y de dispersión para las variables cuantitativas Precio, cantidad de baños, cantidad de habitaciones y áreas construida, con el fin de comprender como se comportan esas variables dentro de la base de datos.

Por otra parte, se realiza una serie de gráficos de barras, pastel, bigotes y de cajas, en los cuales se relacionan las variables cualitativas Tipo (Casa y apartamento) y Zona (Norte, Sur, Oeste y Oriente) junto con las variables cuantitativas mencionadas anteriormente para mostrar conjuntamente el comportamiento de estas variables y obtener una mejor descripción del mercado inmobiliario en la ciudad de Cali.

Resultados.

En esta primera parte analizamos el precio de las viviendas en Cali, se puede observar en el siguiente histograma el precio de las viviendas tiene una gran concentración en la parte izquierda del gráfico, lo cual nos refleja una asimetría positiva dándonos a conocer que hay gran compra de las viviendas de menor precio y hay poca compra de las viviendas de mayor precio.

## histograma de los precios de vivienda
ggplot(data=vivienda_cali)+
  geom_histogram(aes(x=preciom),binwidth = 100)+
  theme(axis.text.x = element_text(size = 10))+
  labs(title = "Histograma variable Precio", x = "Precio", y = "Frecuencia")+
  theme(plot.title = element_text(hjust = 0.5))

MODA, MINIMO, MÁXIMO

kable(
data.frame(Maximo=max(vivienda_cali$preciom),Mínimo= min(vivienda_cali$preciom), Moda= mfv(vivienda_cali$preciom)),
caption= "Indicadores de posición", aling= "c",col.names = c("Máximo", "Mínimo", "Moda")
)%>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición
Máximo Mínimo Moda
1999 58 350

Se puede observar en la primera tabla que el precio que más se repite es 350 millones; sin embargo, también encontramos que el precio mínimo de algunas viviendas es de 58 millones y el máximo es de 1.999 millones de pesos

CUARTILRES

kable(data.frame(Cuartiles =quantile(vivienda_cali$preciom,
                    prob=c(0.25,0.5,0.75))),caption= "Indicadores de posición",aling= "lcrr") %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición
Cuartiles
25% 220
50% 330
75% 540

En relación a los cuartiles, encontramos que el 25% de las viviendas tienen un precio menor o igual a 220 millones, el 50% de las viviendas tiene un precio menor o igual a 330 millones y por último el 75% de las viviendas tienen un valor menos que o igual a 540 millones de pesos.

Esta representación de lo cuartiles se evidencia de una mejor forma en el siguiente gráfico, donde podemos afirmar lo anteriormente dicho y anexándole que hay un pequeña cantidad viviendas con altos precios:

  ggplot(data=vivienda_cali)+
  geom_boxplot(mapping = aes(x=preciom), col = "green")+
  labs(title = "Cuartiles", x = "Precio", y="Porcentaje")+
  theme(plot.title = element_text(hjust = 0.5))

Por último, para terminar de analizar los precios de las viivendas en Cali, tenemos los idicadores de centro y de disperción.

Como lo muestran los indicadores de posición, tenemos que en promedio el valor de las viviendas en Cali son 434,25 millones de pesos; sin embargo, hay que tener en cuenta los valores atípicos que se pidieron evidenciar en el grafico de bigotes, donde hay precios de 1999 millones de pesos y de 58 millones de pesos, lo que hace que esta medida presente un sesgo en los datos. Por otro lado, tenemos la mediana la cual nos dicen que el valor central de los precios de vivienda ordenados de forma ascendente, siendo esta de 330, lo cual nos dice el 50% de las viviendas en Cali tiene un precio igual o inferior a 330 millones de pesos.

kable(table(Media = mean(vivienda_cali$preciom), Mediana = median(vivienda_cali$preciom),
            Media_geometrica= geometric.mean(vivienda_cali$preciom),
            Media_truncada =mean(vivienda_cali$preciom,                                                                                        na.rm = TRUE, trim = 0.10)),caption= "Indicadores de centro",
      aling= "c", col.names = c("Media", "Mediana", "Media geométrica", "Media Truncada", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de centro
Media Mediana Media geométrica Media Truncada Freq
434.253152395821 330 344.132888030455 374.722197208465 1

En relación con los indicadores de variabilidad, tenemos por un lado la deviación estándar del precio, la cual nos refleja que la desviación del precio frente a la media es de 329, dando a conocer que hay datos muy alejados de la media, como ya se mencionó anteriormente; así mismo, el coeficiente de variación al ser tan alto (75%) nos indica que los datos muy heterogéneos.

Por último, tenemos el indicador Curtosis. la curtosis positiva indica que los datos muestran más valores atípico-extremos que una distribución normal, esto se debe por los grandes valores que tienes algunas viviendas en Cali.

precio_medio <- mean(vivienda_cali$preciom) 
precio_sd <- sd(vivienda_cali$preciom)

kable(
table(Rango=max(vivienda_cali$preciom)-min(vivienda_cali$preciom), Varianza= var(vivienda_cali$preciom), Desviación_estandar=sd(vivienda_cali$preciom), Coeficiente_variacion=(precio_sd / precio_medio)*100, kurtosis(vivienda_cali$preciom)), 
caption= "Indicadores de variabilidad y de forma",
      aling= "c", col.names = c("Rango", "Varianza", "Desviación estandar", "coeficiente de variación", "kurtosis", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")%>%
  kable_styling(position = "center")
Indicadores de variabilidad y de forma
Rango Varianza Desviación estandar coeficiente de variación kurtosis Freq
1941 108263.029588608 329.033477914646 75.7699687611554 6.65889163999132 1

– Indicadores de posición.

Podemos observar en la siguiente tabla que hay viviendas que cuentan con un máximo de 10 habitaciones, y viviendas que tienen 0 habitaciones. También la cantidad de habitaciones que más se repite son 3.

kable(
data.frame(Maximo=max(vivienda_cali$habitac),Mínimo= min(vivienda_cali$habitac), Moda= mfv(vivienda_cali$habitac)),
caption= "Indicadores de posición", aling= "c",col.names = c("Máximo", "Mínimo", "Moda")
)%>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición
Máximo Mínimo Moda
10 0 3

– Cuartiles.

En relación a los cuartiles, encontramos que el 75% de las viviendas tienen una cantidad de habitaciones menor o igual a 4, asimismo tanto el 25% como el 50% de las viviendas tienen una cantidad igual o inferior a 3

kable(data.frame(Cuartiles =quantile(vivienda_cali$habitac,
                    prob=c(0.25,0.5,0.75))),caption= "Indicadores de posición",aling= "lcrr") %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición
Cuartiles
25% 3
50% 3
75% 4

– Indicadores de centro

En relación a los indicadores de centro para la variable habitaciones, encontramos que en pormedio las viviendas en Cali tiene alrededor de 4 casas, sin embargo, el 50% de las casas tiene 3 o menos haitaciones.

kable(table(Media = mean(vivienda_cali$habitac), Mediana = median(vivienda_cali$habitac),
            Media_geometrica= geometric.mean(vivienda_cali$habitac),
            Media_truncada =mean(vivienda_cali$habitac,                                                                                        na.rm = TRUE, trim = 0.10)),caption= "Indicadores de centro",
      aling= "c", col.names = c("Media", "Mediana", "Media geométrica", "Media Truncada", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de centro
Media Mediana Media geométrica Media Truncada Freq
3.60513990632881 3 0 3.41017559657812 1

–Indicadores de variabilidad y de forma

En relación con los indicadores de variabilidad y de forma, podemos ver que la desviación de la cantidad de viviendas es de más de 1,4 habitaciones a su promedio que es 3,6 habitaciones. Es decir, se puede esperar que la mayoría de las viviendas tengan una cantidad de habitaciones aproximadamente de 1,4 por encima o por de debajo de la media, de esta forma se pueden esperar viviendas con más de 5 habitaciones con viviendas con menos de 2 habitaciones.

El coeficiente de variación de 40,47% nos indica que la cantidad de habitaciones tienen a fluctuar relativamente bastante alrededor de la media.

habitc_medio <- mean(vivienda_cali$habitac) 
habitc_sd <- sd(vivienda_cali$habitac)

kable(
table(Rango=max(vivienda_cali$habitac)-min(vivienda_cali$habitac), Varianza= var(vivienda_cali$habitac), Desviación_estandar=sd(vivienda_cali$habitac), Coeficiente_variacion=(habitc_sd / habitc_medio)*100, kurtosis(vivienda_cali$habitac)), 
caption= "Indicadores de variabilidad y de forma",
      aling= "c", col.names = c("Rango", "Varianza", "Desviación estandar", "coeficiente de variación", "kurtosis", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")%>%
  kable_styling(position = "center")
Indicadores de variabilidad y de forma
Rango Varianza Desviación estandar coeficiente de variación kurtosis Freq
10 2.12895748402704 1.45909474813222 40.4726248091174 6.98874751051558 1

– Indicadores de centro Con relación a la variable baños, tenemos que en promedio hay 3 baños por viviendas y el 50% tienen 3 o menos baños.

kable(table(Media = mean(vivienda_cali$banios), Mediana = median(vivienda_cali$banios),
            Media_geometrica= geometric.mean(vivienda_cali$banios),
            Media_truncada =mean(vivienda_cali$banios,                                                                                        na.rm = TRUE, trim = 0.10)),caption= "Indicadores de centro",
      aling= "c", col.names = c("Media", "Mediana", "Media geométrica", "Media Truncada", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de centro
Media Mediana Media geométrica Media Truncada Freq
3.11204515431728 3 0 2.986492570914 1

– Cuartiles.

Por otro lado, los cuartiles no indican que el 75% de las viviendas tienen 4 o menos baños y el 25% de las viviendas tiene 2 o menos baños.

kable(data.frame(Cuartiles =quantile(vivienda_cali$banios,
                    prob=c(0.25,0.5,0.75))),caption= "Indicadores de posición",aling= "lcrr") %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición
Cuartiles
25% 2
50% 3
75% 4

–Indicadores de variabilidad y de forma

Podemos observar que la desviación de la cantidad de baños de las viviendas varía en 1,4 baños por encima o debajo de la media. Por otro lado, el coeficiente de variación nos indica que la cantidad de baños puede fluctuar bastante alrededor de la media.

En este caso la kurtosis es positiva, no indica que hay bastantes casas que cuentas con 3 baños (media), y hay menos viviendas con muchos baños.

banios_medio <- mean(vivienda_cali$banios) 
banios_sd <- sd(vivienda_cali$banios)

kable(
table(Rango=max(vivienda_cali$banios)-min(vivienda_cali$banios), Varianza= var(vivienda_cali$banios), Desviación_estandar=sd(vivienda_cali$banios), Coeficiente_variacion=(banios_sd / banios_medio)*100, kurtosis(vivienda_cali$banios)), 
caption= "Indicadores de variabilidad y de forma",
      aling= "c", col.names = c("Rango", "Varianza", "Desviación estandar", "coeficiente de variación", "kurtosis", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")%>%
  kable_styling(position = "center")
Indicadores de variabilidad y de forma
Rango Varianza Desviación estandar coeficiente de variación kurtosis Freq
10 2.04017077480446 1.42834546759685 45.8973246456702 4.12369536882476 1

– Indicadores de centro

En relación al área construida, tenemos que en promedio las viviendas tiene un área construida de 174 m2 y el 50% de las viviendas tiene una área construida igual o menos a 123 m2. También, podemos observar en los deciles que 90% de las viviendas tiene un área construida menor o igual a 350 m2, también que solo el 10% de las viviendas tienen un área construida menor o igual a 60 m2

kable(table(Media = mean(vivienda_cali$areaconst), Mediana = median(vivienda_cali$areaconst),
            Media_geometrica= geometric.mean(vivienda_cali$areaconst),
            Media_truncada =mean(vivienda_cali$areaconst,                                                                                        na.rm = TRUE, trim = 0.10)),caption= "Indicadores de centro",
      aling= "c", col.names = c("Media", "Mediana", "Media geométrica", "Media Truncada", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de centro
Media Mediana Media geométrica Media Truncada Freq
174.987600576438 123 137.44552763367 149.215818700285 1

– Deciles

kable(data.frame(deciles= quantile(vivienda_cali$areaconst, c(0.1,0.2,0.3,0.40,0.50,0.60,0.70,0.80,0.90), type=6
                    )),caption= "Indicadores de posición",aling= "lcrr") %>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición
deciles
10% 60.00
20% 73.00
30% 86.24
40% 102.00
50% 123.00
60% 153.00
70% 200.00
80% 258.00
90% 350.00

–Indicadores de variabilidad y de forma

areaconst_medio <- mean(vivienda_cali$areaconst) 
areaconst_sd <- sd(vivienda_cali$areaconst)

kable(
table(Rango=max(vivienda_cali$areaconst)-min(vivienda_cali$areaconst), Varianza= var(vivienda_cali$areaconst), Desviación_estandar=sd(vivienda_cali$areaconst), Coeficiente_variacion=(areaconst_sd / areaconst_medio)*100, kurtosis(vivienda_cali$areaconst)), 
caption= "Indicadores de variabilidad y de forma",
      aling= "c", col.names = c("Rango", "Varianza", "Desviación estandar", "coeficiente de variación", "kurtosis", "Freq")) %>%
  kable_classic(full_width= F, html_font = "Cambria")%>%
  kable_styling(position = "center")
Indicadores de variabilidad y de forma
Rango Varianza Desviación estandar coeficiente de variación kurtosis Freq
1715 20434.6591749291 142.949848460672 81.6914158430492 15.9068877977547 1

A continuación, se presenta el precio promedio por zona, donde las viviendas en la zona oeste son en promedio más costosas que en el resto de las zonas, pues una vivienda en esta zona cuesta 678 millones de pesos, seguidamente de la zona sur donde en promedio el precio de las viviendas es de 426 millones de pesos. Las viviendas de la zona norte y centro tienen en promedio con unos valores respectivamente de 345 y 309 millones. Por último, tenemos que las viviendas menos costosas son las ubicadas en la zona oriente, donde el valor promedio es de 228 millones de pesos.

Cabe mencionar que las zonas con más viviendas vendidas fueron la zona sur con un total de 4.725 viviendas vendidas; zona norte con un total de 1922; zona oeste con un total de 1204 viviendas; zona oriente con un total de 351 de viviendas, y por último la zona centro con un total de 124 viviendas vendidas.

precio_promedio_vivienda_zona <- group_by(vivienda_cali, zona)
promedio_zona<-summarise(precio_promedio_vivienda_zona, precio_promedio=na.omit(mean(preciom)))
### Gráfico pormedio de precios por zona
ggplot(data=promedio_zona,aes(x=zona, y=precio_promedio, fill=zona)) +
  geom_bar(stat = "identity", ) +
  labs(title = "Precio promedio por zona",
       x = "Zona",
       y = "Precio promedio")+
  theme(plot.title = element_text(hjust = 0.5))

Para observar un poco más el comportamiento de los precios de las viviendas por zona, se realiza un gráfico de bigotes por cada zona, donde nos muestra que las zonas oriente y centro es donde menos valores atípicos se presentan, en dichas zonas el 50% de las viviendas tiene un valor igual o menor a 297 millones para la zona centro y 210 millones para la zona oriente.

También observamos que la zona norte y sur son las que más valores atípicos presentan. Además, el 50% de los precios de las viviendas tienen un valor menor o igual a 300 millones para la zona norte y 320 para la zona sur.

Con relación a la zona oeste tenemos que el 75% de los valores de las vivienda tiene un valor igual o menor a 900 millones de pesos, el 50% tiene un valor menor o igual a 580 millones de pesos, dándonos a mostrar que en dicha zona las viviendas sean apartamentos o casas son las más costosas.

### Zona - Precio 
ggplot(vivienda_cali,mapping=aes(x=zona, y=preciom )) +
  geom_boxplot()+
  labs(title = "Precio según zona",
       x = "Zona",
       y = "Precio")+
  theme(plot.title = element_text(hjust = 0.5))

En los siguientes gráficos se relaciona las variables precio y área construida por zona donde observamos que la zona sur es la que mayor viviendas construida presenta, seguidamente del zona norte y posterior por las zonas oeste, oriente y por último la zona que menos viviendas construidas presenta es la centro.

l<-vivienda_cali%>%
  group_by(zona)
ggplot(data = l) +
  geom_point(mapping = aes(x =preciom, y =areaconst, color=zona),na.rm = TRUE)+
    labs(title = "Cantidad de viviendas construidas según precio y área por zona",
       x = "Precio",
       y = "Área construida")+
  theme(plot.title = element_text(hjust = 0.5))

ggplot(data=l) +
  geom_point(mapping = aes(x =preciom, y =areaconst))+
  facet_grid(. ~ zona)+
    labs(title = "Cantidad de viviendas construidas según precio y área por zona",
       x = "Precio",
       y = "Área construida")+
  theme(plot.title = element_text(hjust = 0.5))

De acuerdo con lo anterior, observando que estos indicadores no nos están reflejando con gran certeza los precios de vivienda, vamos a realizar el análisis separado por Casas y Apartamentos, para una mejor comprensión de precios en cada una de estas categorías.

vivienda_cali$tipo <- gsub("apto", "Apartamento", vivienda_cali$tipo)
vivienda_cali$tipo <- gsub("APARTAMENTO", "Apartamento", vivienda_cali$tipo)
vivienda_cali$tipo <- gsub("CASA", "Casa", vivienda_cali$tipo)
vivienda_cali$tipo <- gsub("casa", "Casa", vivienda_cali$tipo)
apartamento <- filter(vivienda_cali, tipo=="Apartamento")
Casa <- filter(vivienda_cali, tipo=="Casa")
precio_casa_medio <- mean(Casa$preciom) 
precio_casa_sd <- sd(Casa$preciom)

kable(
data.frame(Maximo=max(Casa$preciom),Mínimo= min(Casa$preciom), Moda= mfv(Casa$preciom), Media = mean(Casa$preciom), Mediana =  median(Casa$preciom),Media_geometrica=geometric.mean(Casa$preciom),Media_truncada=mean(Casa$preciom),Rango=max
           (Casa$preciom)-min(Casa$preciom), Varianza= var(Casa$preciom), Desviación_estandar=sd(Casa$preciom), Coeficiente_variacion=(precio_casa_sd / precio_casa_medio)*100, kurtosis(Casa$preciom)
                      ),
caption= "Indicadores de posición, forma, centro y variabilidad - Casa", aling= "c",col.names = c("Máximo", "Mínimo", "Moda", "Media", "Mediana", "Media Geometrica", "Media truncada","Rango", "Varianza", "Desviación estandar", "coeficiente de variación", "kurtosis"))%>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición, forma, centro y variabilidad - Casa
Máximo Mínimo Moda Media Mediana Media Geometrica Media truncada Rango Varianza Desviación estandar coeficiente de variación kurtosis
1999 77 350 539.8758 430 447.1098 539.8758 1922 128284.5 358.1683 66.34272 5.285916
precio_apartamento_medio <- mean(apartamento$preciom) 
precio_apartamento_sd <- sd(apartamento$preciom)

kable(
data.frame(Maximo=max(apartamento$preciom),Mínimo= min(apartamento$preciom), Moda= mfv(apartamento$preciom), Media = mean(apartamento$preciom), Mediana =  median(apartamento$preciom),  Media_geometrica=geometric.mean(apartamento$preciom), Media_truncada=mean(apartamento$preciom), Rango=max(apartamento$preciom)-min(apartamento$preciom) ,Varianza= var(apartamento$preciom), Desviación_estandar=sd(apartamento$preciom), Coeficiente_variacion=(precio_apartamento_sd / precio_apartamento_medio)*100, kurtosis(apartamento$preciom)
                      ),
caption= "Indicadores de posición, forma, centro y variabilidad - Apartamentos", aling= "c",col.names = c("Máximo", "Mínimo", "Moda", "Media", "Mediana", "Media Geometrica", "Media truncada","Rango", "Varianza", "Desviación estandar", "coeficiente de variación", "kurtosis"))%>%
  kable_classic(full_width= F, html_font = "Cambria")
Indicadores de posición, forma, centro y variabilidad - Apartamentos
Máximo Mínimo Moda Media Mediana Media Geometrica Media truncada Rango Varianza Desviación estandar coeficiente de variación kurtosis
1950 58 250 367.6236 280 291.7486 367.6236 1892 84176.24 290.1314 78.92079 8.40456

Ahora, teniendo los diferentes indicadores para cada tipo de vivienda (Casa y Apartamento), podemos hacer un análisis más detallado del precio para cada uno. Por un lado, tenemos que en promedio el valor de la casa es de 541 millones de pesosy el de los apartamentos es de 368 millones de pesos.

Asimismo, tenemos que el 50% de las casas tienen un valor menor o igual a 430 millones y por el lado de los apartamentos es del 280 millones de pesos. De esta forma, podemos ver que los apartamentos son menos costosos, pero eso se debe a que el 50% de las casas tienen un área contruida menor o igual a 240 metros y cuentan con 4 baños, en relación con los apartamentos donde el 50% cuenta con un área construida igual o menor a 90 metros y con 2 baños.

Sin embargo, podemos ver que ambos casos hay casas y apartamentos con precios muy altos y unos con precios muy bajos. La desviación estándar esta muy alejada en ambos casos de la media, el coeficiente de variación mayormente alto en los precios de los apartamentos, pero en ambos casos sigue siendo alto, y por el lado de indicador curtosis nos refleja que en los datos que es positiva en ambos casos dándonos a conocer que hay valores muy altos en ambas categorías.

En relación con los diferentes tipos de vivienda, tenemos que las casas de estrato 5 son las más vendidas, las cuales representan un 30,73%, seguidamente de las de estrato 3 con un 25% y por último las de estrato 4 y 6, las cuales representan 22,56% y 21,69% respectivamente.

estrato_casa <- table(Casa$estrato)
estrato_casa_1 <- as.data.frame(estrato_casa)
colnames(estrato_casa_1) <- c("Estratos", "Frecuencia")
estrato_casa_1$Porcentaje <- prop.table(estrato_casa_1$Frecuencia) * 100

ggplot(data = estrato_casa_1,aes(x = "", y = Porcentaje, fill = Estratos)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar(theta = "y") +
  labs(title = "Porcentaje de casas por estrato", fill = "Estratos") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

En el siguiente gráfico tenemos la relación Precio, Estrato y área construida por casa, en el cual observamos que las casas de estrato 3 son las que menos valor tienen e igualmente son las que menos área construida presentan, excepto algunas casas que si presentan áreas de construcción más grandes que el promedio, pero siguen siendo de menor precio. Asimismo, se evidencia que las viviendas de estrato 5 y 6 son las que mayor área construida y precio tienen.

ggplot(data = Casa) +
  geom_point(mapping = aes(x =preciom, y =areaconst,  color= factor(estrato)))+
    labs(title = "Relación Estrato - Precio - Área Construida según tipo de vivenda (Casa)", x = "Precio", y = "Area Construida")+
  scale_color_discrete(name = "Estrato")+
  theme(plot.title = element_text(hjust = 0.5))

En la siguiente tabla se puede observar que hay una relación directa entre el nivel de estrato, el área construida y el precio, donde a mayor estrato sea casa mayor va ser el precio y el área construida.

kable(Casa %>%
  group_by(estrato) %>%
  summarize(Promedio_Area_Construida = mean(areaconst),
            Promedio_Precio = mean(preciom)),
  caption= "Promedio del Área construida y Precio por estrato", aling= "c",colnames = c("Promedio área construida", "promedio Precio"))%>%
  kable_classic(full_width= F, html_font = "Cambria")
Promedio del Área construida y Precio por estrato
estrato Promedio_Area_Construida Promedio_Precio
3 200.3215 274.1818
4 233.9252 406.9298
5 286.4815 545.2856
6 381.3431 981.8348

En el caso de los apartamentos, tenemos que el 34,69% de los apartamentos vendidos fueron de estrato 5, seguidamente de los de estrato 4 con un 27,44%, y por último los de estrato 6 y 3, los cuales representan 25,55% y 12,30% respectivamente.

estrato_apartamento <- table(apartamento$estrato)
estrato_apartamento_1 <- as.data.frame(estrato_apartamento)
colnames(estrato_apartamento_1) <- c("Estratos", "Frecuencia")
estrato_apartamento_1$Porcentaje <- prop.table(estrato_apartamento_1$Frecuencia) * 100

ggplot(data = estrato_apartamento_1, aes (x = "", y = Porcentaje, fill = Estratos)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar(theta = "y") +
  labs(title = "Porcentaje de apartamento por estrato - Casas", fill = "Estratos") +
  theme_minimal()+
  theme(plot.title = element_text(hjust = 0.5))

El gráfico a continuación muestra algo muy similar a lo ocurrido con las casas, en este caso los apartamentos de estrato 3,4 y parte de los de estrato 5 son los que menor área construida presentan junto con un menor precio. Los apartamentos que están ubicados en el estrato 6 son los mas costoso de la ciudad de Cali, igualmente son los que mayor área construida tienen.

ggplot(data = apartamento) +
  geom_point(mapping = aes(x =preciom, y =areaconst, color= factor(estrato)))+
  labs(title = "Relación Estrato - Precio - Área Construida según tipo de vivenda (Apartamento)", x = "Precio", y = "Area Construida")+
  scale_color_discrete(name = "Estrato")+
  theme(plot.title = element_text(hjust = 0.5))

En la siguiente tabla se puede observar que hay una relación directa entre el nivel de estrato, el área construida y el precio, donde a mayor estrato el apartaemnto casa mayor va ser el precio y el área construida, caso similar al ocurrido con las viviendas tipo casa.

kable(
  apartamento %>%
  group_by(estrato) %>%
  summarize(Promedio_Area_Construida = mean(areaconst),
            Promedio_Precio = mean(preciom)),
  caption= "Promedio del Área construida y Precio por estrato - Apartamento", aling= "c",colnames = c("Promedio área construida", "promedio Precio", "Kurtosis"))%>%
   kable_classic(full_width= F, html_font = "Cambria")
Promedio del Área construida y Precio por estrato - Apartamento
estrato Promedio_Area_Construida Promedio_Precio
3 66.98135 128.9765
4 78.06200 206.9651
5 110.26856 335.0475
6 177.03640 703.7515

En relación con los precios de las casas según la zona donde está se encuentra ubicada, encontramos que la zona oeste y sur son las más costosas, pues en la zona oeste el 50% de las casas ubicadas en esta, tiene un precio menor o igual a 680 millones de pesos, y en la zona sur es de 480 millones de pesos. Las zonas más baratas para comprar casa en Cali son las zonas oriente y centro, pues estas zonas, por el lado de la zona oriente el 50% de las casas tiene un valor menor o igual a 235 millones de pesos y en la zona centro es de 310 millones de pesos

#
ggplot(Casa,mapping=aes(x=zona, y=preciom, fill=zona)) +
  geom_boxplot()+
  labs(title = "Caja de bigotes por precio según zona - Vivienda Casa",
       x = "Zona",
       y = "Precio")+
  theme(plot.title = element_text(hjust = 0.5))

Por el lado de los apartamentos, vemos que hay una zona mayormente más costosa que las demás, la zona oeste presenta que en el 50% de los apartamentos tiene un precio menor o igual a 570 millones de pesos. Por otro lado, la zona donde los precios de los apartamentos son menores es la zona oriente, donde el 50% de los apartamentos tiene un precio menor o igual a 115 millones de pesos.

#Apartamento
ggplot(apartamento,mapping=aes(x=zona, y=preciom, fill= zona)) +
  geom_boxplot()+
  labs(title = "Caja de bigotes por precio según zona - Vivienda Apartamento",
       x = "Zona",
       y = "Precio")+
  theme(plot.title = element_text(hjust = 0.5))

Por último, vamos a analizar cuáles son las características más buscadas en vivienda por los vendedores, pues por un lado tenemos que los apartamentos más vendidos fueron los que contaban con 2 baños, seguidamente con los que contaban con 3 baños. Por el lado de las casas más vendidas fueron aquellas que contaban con 3 y 4 baños.

También en el histograma podemos encontrar que las casas son las que mayor cantidad de baños cuentan en comparación con los apartamentos, obviamente esto se debe a que las casa tiene áreas de construcción más grandes.

Por otro lado, tenemos que el 81,3% de las viviendas corresponden a apartamento y el 38,7% a casas, donde el en promedio las casas tiene 4 baños y los apartamentos 3 baños.

Vivienda_tipo <- group_by(vivienda_cali, tipo)


ggplot(data=Vivienda_tipo, aes( x= banios, fill=tipo))+
  geom_histogram(position = "dodge", binwidth = .5) +
  labs(title = "Histograma de Cantidad de Baños por Tipo de Vivienda",
       x = "Cantidad de Baños",
       y = "Frecuencia") +
  scale_fill_discrete(name = "Tipo de Vivienda")+
  scale_x_continuous(breaks = seq(min(Vivienda_tipo$banios), max(Vivienda_tipo$banios), 1))+
  theme(plot.title = element_text(hjust = 0.5))

También podemos observar que tanto para casas como para a apartamentos entre mayor cantidad de baños tenga la vivienda mayor va ser el precio. Sin embargo, como ya se mencionó anteriormente los apartamentos son lo que menor cantidad de balos poseen en relación a las casas, y tienen a ser más baratos.

ggplot(data = vivienda_cali) +
  geom_point(mapping = aes(x =preciom, y =banios, color=tipo))+
  labs(title = "Precio según cantidad de baños por tipo de vivenda", x = "Precio", y = "Cantidad de baños")+
  scale_color_discrete(name = "Estrato")+
  theme(plot.title = element_text(hjust = 0.5))

  • Correlación Variables
-   Correlación varibles Casa.

En relación con las correlaciones entre las variables cuantitativas, encontramos que en este caso las variables precio y estrato de las casas tiene una correlación moderadamente fuerte, con una correlación de 0,67, seguidamente de la correlación entre área construida y precio, con una correlación 0,65.

Casa1 <- select(Casa, Piso=piso, Estrao=estrato,Precio=preciom,Área_construida=areaconst,Cantidad_Parqueaderos=parquea,Cantidad_baños=banios, Cantidad_habitaciones=habitac)
Casa_cor <- cor(Casa1)
ggcorrplot(Casa_cor, type = "upper", lab = TRUE)+
  labs(title = "Mapa de Correlación - Casa")+
  theme(plot.title = element_text(hjust = 0.5))

  • Correlación varibles Apartamento.

Por el lado de los apartamentos hay 3 correlaciones bastantes fuertes, pues por un lado tenemos la correlación entre precio y área construida, con una correlación de 0,83; por otro lado, esta la correlación entre las variables cantidad de baños y precio, y cantidad de baños-área construida, con unas correlaciones de 0,74 y 0,73 respectivamente.

También, las variables precio-estrato y baños-estrato, tiene una correlación moderadamente fuerte entre ellas, pues para el primer caso es de 0,67 y en el segundo caso es de 0,62.

apartamento1 <- select(apartamento, Piso=piso, Estrao=estrato,Precio=preciom,Área_construida=areaconst,Cantidad_Parqueaderos=parquea,Cantidad_baños=banios, Cantidad_habitaciones=habitac)
apartamento_cor <- cor(apartamento1)
ggcorrplot(apartamento_cor, type = "upper", lab = TRUE)+
  labs(title = "Mapa de correlación - Apartamentos")+
  theme(plot.title = element_text(hjust = 0.5))

Discusión.

Como bien se evidencia en el apartado anterior, se realiza un análisis descriptivo de los precios de los diferentes tipos de vivienda (Casas y apartamentos) en Cali. En general se muestra que hay una gran concentración de precios de las viviendas cuando estos son menores, pues el 50% de las viviendas tiene un precio menor o igual a 330 millones, pero al discriminar el tipo de vivienda entre casas y apartamentos encontramos que en promedio el valor de las casas es mayor al de los apartamentos; Sin embargo, en ambas categorías hay una gran concentración cuando los precios son bajos, pues el 50% de las casa tienen un valor menor o igual a 430 millones de pesos y por el lado de los apartamentos es de 280 millones de pesos.

También cabe destacar que dentro de la base de datos el 81,3% de los registros corresponden a casas y el 38,7% correspondes a apartamentos, se hace imperante esta aclaración ya que al presentarse más datos de una categoría que otra (pues es este caso hay mayor predominancia en la base de datos por casas), al realizar un análisis sin discriminar por tipo de vivienda sucede que los altos precios de las casas afectan a los de los apartamentos, como se evidencio en los indicadores de variabilidad Con relación a las zonas donde están ubicadas las viviendas, encontramos que la zona Oeste de Cali es la más costosa para comprar cualquier tipo de vivienda, pues una vivienda en esta zona cuenta en promedio 678 millones de pesos, seguidamente de la zona sur de Cali, donde en promedio cuesta comprar una vivienda 426 millones de pesos.

Al sacar la mediana de estas dos zonas encontramos que el 50% de las viviendas de la zona oeste tiene un valor menor o igual a 580 millones y en la zona sur es de 320 millones de pesos, precios muy por debajo que los precios promedios de las mismas zonas. Esto se debe a que son zonas que presentan valores muy atípicos, lo que generan que haya sesgos en el promedio de los precios. En cambio, las zonas más baratas para comprar casa en Cali son la zona centro y la zona oriente, pues en la zona centro en promedio las viviendas tienen un valor de 228 millones de pesos y la zona centro de 309 millones de pesos. Sin embargo, la zona centro presenta que el 50% de las viviendas tienen un valor menor o igual a 297 millones y en la zona oriente es de 210 millones de pesos.

Cabe mencionar, que la zona centro es la zona donde hay menor cantidad de viviendas, pues el 75% de las viviendas tiene un valor menos o igual a 361 millones de pesos, en dicha zona solo se presentan 124 viviendas construidas.

Es importante mencionar la cantidad de viviendas construidas porque están afectan el promedio del valor de las viviendas por zona. Pues las zonas que con mayor cantidad de viviendas es la zona sur con un total de 4726 viviendas, seguidamente de la zona norte con un total de 1992 viviendas, zona oeste 1204 viviendas, zona oriente 351 viviendas y zona centro 124 viviendas. De acuerdo con eso, se infiere que hay gran preferencia de las personas por comprar viviendas en las sur, norte y oeste. También, se encuentra que en dichas zonas el 75% de las viviendas, para el caso de la zona sur son viviendas con un área construida igual o menor de 220 metros cuadrados, en la zona norte de 216 m^2 y en la zona oeste de 240 metros cuadrados.

De acuerdo con lo anterior, se realiza el análisis separado por tipo de vivienda para que la interpretación de los datos sea sobre cada categoría y no sobre todo el conjunto de datos, para que los precios de los apartamentos no se vieran afectados por los precios y características de las casas.

Una vez dicho eso, se realiza el análisis de las viviendas por estrato, por el lado de las casas vemos mayor predominancia en las casas de estrato 5 con un 30,73% del total, seguidamente de las de estrato 3 con un 25% y por último las de estrato 4 y 6, las cuales representan 22,56% y 21,69% respectivamente; esto es importante porque nos da una imagen de las preferencias de los consumidores en relación con que estrato buscan las casas. Asimismo, encontramos que las casas de menor estrato socioeconómico son la que presentan menor precio y menor área construida.

Es más, se puede decir que hay una correlación moderadamente fuerte entre el estrato y el precio de las casas, la correlación entre estas dos variables es del 0.66, pues entre estas dos variables entre más alto sea el estrato más alto va a ser el valor de las casas. Caso opuesto sucede con las variables estrato y área construida, en entre estas dos variables se evidencia más bien una correlación moderada, pues la prueba de correlación arroja que es del 0.37. Caso similar se presenta en el caso de los apartamentos, pues tenemos que el 34,69% de los apartamentos vendidos fueron de estrato 5, seguidamente de los de estrato 4 con un 27,44%, y por último los de estrato 6 y 3, los cuales representan 25,55% y 12,30% respectivamente.

Por el lado del área construida según estrato por apartamentos, tenemos que se presenta una mayor correlación entre estas dos variables, la prueba arroja una correlación medianamente fuerte de 0.54, pues existe una relación lineal que a medida que el nivel de estrato es alto también va ser mayor el área construida, así mismo ocurre con los el precio-estrato, pues a medida que el estrato es más alto el nivel de precio de los apartamentos va incrementando. Es importante tener en cuenta que el coeficiente de correlación por sí solo no es suficiente para inferir una relación causal entre las variables. Una correlación fuerte solo indica una relación lineal entre las dos variables, pero no necesariamente implica una relación de causa y efecto.

Por otro lado, en relación con el precio de las casas por zonas (Centro, Norte, Oeste, Oriente y Sur), encontramos que en promedio la zona más costosa donde se ubican las casas es la zona oeste pues en esta zona el 50% de las casas, tiene un precio menor o igual a 680 millones de pesos, y en la zona sur es de 480 millones de pesos. Las zonas más baratas para comprar casa en Cali son las zonas oriente y centro, pues estas zonas, por el lado de la zona oriente el 50% de las casas tiene un valor menor o igual a 235 millones de pesos y en la zona centro es de 310 millones de pesos y por el lado o de los apartamentos, vemos que hay una zona mayormente más costosa que las demás, la zona oeste presenta que en el 50% de los apartamentos tiene un precio menor o igual a 570 millones de pesos. Por otro lado, la zona donde los precios de los apartamentos son menores es la zona oriente, donde el 50% de los apartamentos tiene un precio menor o igual a 115 millones de pesos.

En relación con la cantidad de baños según tipo de vivienda, tenemos que hay una gran preferencia por apartamentos que cuentan con 2 y 3 baños, en cambio por el lado de las casas se refleja una preferencia por las casas entre 3 a 5 baños, esto puede ser porque en las casas las familias tienden hacer más grandes en comparación con los apartamentos, en los cuales viven 2 o 3 personas, pero en las casas pueden vivir más de 4 persona, Igualmente, entre mayor cantidad de baños tenga tanto Casas como Apartamentos, el precio de los mismos tienden a subir.

Conclusiones.

De forma general, encontramos que 50% de las viviendas tiene 3 o menos habitaciones y baños, con un área construida de 123 m2, también encontramos que los precios de las viviendas son en promedio de 434 millones de pesos y el 50% de las viviendas tienen un valor igual o menor a 330 millones de pesos.

También encontramos que la deviación de los precios de las viviendas frente a la media (434 millones de pesos) es de 329 millones de pesos, es decir, podemos encontrar viviendas con un valor de 763 millones de pesos o 105 millones de pesos. Hay viviendas con precios muy elevados, alcanzando 1.999 millones de pesos y casas con precios muy bajos 58 millones de pesos. Por otro lado, encontramos viviendas con 0 habitaciones, esto puede ser que hubo un error en la recolección de los datos o el registro corresponde a vivienda pequeña sin divisiones de espacio.

En conclusión, en relación con los precios, las personas prefieren comprar más casas que apartamentos, pues el 75% prefieren comprar casas con precios menores o iguales a 670 millones de pesos, también hay preferencia por comprar casas que estén en un estrato socioeconómico entre el nivel 3 a 5 y con áreas que construcciones no muy grandes, pues el 50% de las viviendas tiene un área construida igual o menor a 240 metros cuadrados. Asimismo, prefieren casas con de a 3 a 5 baños y ubicadas en la zona sur y norte, de la misma manera el 72,8% de las casas vendidas tiene entre 3,4 y 5 habitaciones.

Por el lado de los apartamentos, se puede evidenciar que hay una preferencia por los apartamentos con un área igual o menor a 130 metro cuadrados, también que el valor no supere los 430 millones de pesos, pues el 75% de los apartamentos tiene un valor o igual al ya mencionado. Además, los apartamentos con de 2 a 3 habitaciones son mayormente preferidos que los de más habitaciones, pues el 83% de los apartamentos tienen esta característica y que estén ubicados entra las zonas sur norte y oeste; igualmente, al ser apartamentos pequeños, se prefieren en el 75% de las ocasiones aquellos que tienen 3 o menos baños.

Por último, con relación a las zonas, es preferiblemente construir viviendas en las zonas Oeste, Oriente o Sur, pues en estas zonas las viviendas son más costosas y son más apetecidas por clientes, y sobre todo por las personas que buscan casas.

Anexos

Los códigos utlizados se encuentran publicados en el plataforma GitHub en el siguiente enlace:

https://github.com/JuanRaigoso/Metodos_Estadistica.git