La estadística es una rama de las matemáticas que permite recopilar, organizar y analizar datos según la necesidad se presente. Actualmente aplicar estadística es de gran importancia para las compañías ya que permite generar valor al tener un mejor entendimiento, conocimiento y aprovechamiento de los datos, todo esto con el fin de extraer conocimiento, optimizar procesos, generar estrategias y tomar decisiones. Una de las formas más comunes de utilizar la estadística de las empresas es a través de la recolección de datos, fórmulas, algoritmos y otros procesos de datos que se realizan sobre variables y dan lugar a informaciones, las cuales al ser analizadas arrojan resultados, dichos resultados son presentados a través de un documento llamado informe estadístico. Para este trabajo, se presentará un informe estadístico de la empresa B&C (agencia de bienes raíces) con el fin de analizar información sobre el precio, la ubicación, las características y la venta de viviendas en Cali para que la empresa tome decisiones como la definición de su nicho de mercado y precios de venta, generación de estrategias de marketing y oferta de servicios personalizados a sus clientes. Es importante aclarar que el mercado de bienes raíces en la ciudad de Cali, Colombia ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios.
• Presentar un informe estadístico de la empresa B&C para analizar información importante de las viviendas en Cali para la toma de decisiones y mejora de procesos. • Realizar un análisis descriptivo de los datos, para identificar las tendencias y patrones en los datos. • Entregar el informe en la plataforma RPulse, en la cuál se presentarán los elementos solicitados por la dirección de la empresa B&C.
Para iniciar el proceso de análisis de los datos, se presentará un reporte con el porcentaje de datos perdidos para cada una de las variables de la base de datos, así como un gráfico de agregación dónde se evidenciará la cantidad de valores que faltan en cada columna y la frecuencia en la que hacen falta varias variables simultáneamente.
## Skipping install of 'paqueteMET' from a github remote, the SHA1 (624823ee) has not changed since last install.
## Use `force = TRUE` to force installation
Reporte datos perdidos en porcentaje:
colMeans(is.na(vivienda_faltantes))#datos perdidos
## id zona piso estrato preciom areaconst
## 0.0003601441 0.0003601441 0.3170468187 0.0003601441 0.0002400960 0.0003601441
## parquea banios habitac tipo barrio longitud
## 0.1927971188 0.0003601441 0.0003601441 0.0003601441 0.0003601441 0.0003601441
## latitud
## 0.0003601441
## Loading required package: colorspace
## Loading required package: grid
## The legacy packages maptools, rgdal, and rgeos, underpinning the sp package,
## which was just loaded, will retire in October 2023.
## Please refer to R-spatial evolution reports for details, especially
## https://r-spatial.org/r/2023/05/15/evolution4.html.
## It may be desirable to make the sf package available;
## package maintainers should consider adding sf to Suggests:.
## The sp package is now running under evolution status 2
## (status 2 uses the sf package in place of rgdal)
## VIM is ready to use.
## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues
##
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
##
## sleep
Gráfico de agregación:
aggr(vivienda_faltantes)
• Se puede evidenciar que la mayoria de datos perdidos de las viviendas se encuentran en las variables piso y parqueaderos con un 31% y 19% respectivamente.
• Se puede inferir de estas estadisticas que el 31% de las viviendas que no cuentan con información de piso es debido a que no son viviendas de tipo apartamento, más adelante en este informe se dará la información referente a esta variable.
• El 19% de las viviendas que no cuentan con información de parqueaderos, se puede inferir que corresponden a las viviendas que no cuentan con ningun parqueadero, cabe aclarar que los nuevos proyectos de vivienda, más que todo de tipo VIS cuentan con parqueaderos comunales y no están en la obligación de brindar parqueadero individual a cada vivienda.
• En este caso, los análisis de todas las variables se realizarán con los datos que se encuentren vacios o que se consideren perdidos, ya que se evidencia que los dos campos con mayor cantidad (piso y parqueaderos), estan justificados en los items anteriores.
Para las variables cualitativas como zona dónde se encuentra la vivienda, tipo de vivienda y barrio de ubicación se generará una representación gráfica que permitirá analizar su comportamiento.
➜Zona de la vivienda:
Resumen de frecuencia
str(vivienda_faltantes$zona)
## chr [1:8330] "Zona Oeste" "Zona Oeste" "Zona Oeste" "Zona Sur" ...
variable<-as.factor(vivienda_faltantes$zona)
zona <- table(variable); zona
## variable
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 124 1922 1204 351 4726
zonas<-as.data.frame(zona); zonas
## variable Freq
## 1 Zona Centro 124
## 2 Zona Norte 1922
## 3 Zona Oeste 1204
## 4 Zona Oriente 351
## 5 Zona Sur 4726
porcentajes <- prop.table(zona)
porcentaje <- as.data.frame(porcentajes); porcentaje
## variable Freq
## 1 Zona Centro 0.01489132
## 2 Zona Norte 0.23081542
## 3 Zona Oeste 0.14458989
## 4 Zona Oriente 0.04215204
## 5 Zona Sur 0.56755134
Tabla1 <- data.frame(zona, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Zona", "Frecuencia", "Porcentaje (%)")
Tabla1
## Zona Frecuencia Porcentaje (%)
## 1 Zona Centro 124 1.49
## 2 Zona Norte 1922 23.08
## 3 Zona Oeste 1204 14.46
## 4 Zona Oriente 351 4.22
## 5 Zona Sur 4726 56.76
barplot(table(vivienda_faltantes$zona),
main="Información de vivienda por zona",
xlab="Zona",
ylab="Cantidad de viviendas",
border="blue",
col="blue")
➜Tipo de vivienda:
v<- c(5109, 3212)
labels<-c ("Apartamentos", "Casas")
pie(v,labels, main="Tipo de vivienda",border="yellow", col=rainbow(length(v)))
Cantidad de casas:
nrow(vivienda_faltantes[vivienda_faltantes$tipo == "CASA" | vivienda_faltantes$tipo == "casa" | vivienda_faltantes$tipo == "Casa",])
## [1] 3224
x<-3212
y<-8330
p<-100
z = x/y*p
print(paste("Los apartamentos equivalen al",z," %","del total de las viviendas"))
## [1] "Los apartamentos equivalen al 38.5594237695078 % del total de las viviendas"
Cantidad de apartamentos:
nrow(vivienda_faltantes[vivienda_faltantes$tipo == "Apartamento" | vivienda_faltantes$tipo == "APARTAMENTO" | vivienda_faltantes$tipo == "apto", ])
## [1] 5109
x<-5109
y<-8330
p<-100
z=x/y*p
print(paste("Los apartamentos equivalen al",z," %", "del total de las viviendas"))
## [1] "Los apartamentos equivalen al 61.3325330132053 % del total de las viviendas"
x<-5109
y<-8330
p<-100
z=x/y*p
print(paste("Los apartamentos equivalen al",z," %", "del total de las viviendas"))
## [1] "Los apartamentos equivalen al 61.3325330132053 % del total de las viviendas"
➜Barrio:
Top 10 barrios:
Por medio de este código se obtuvieron los 10 barrios con más cantidad de viviendas:
barplot(table(vivienda_faltantes$barrio), main="Barrio",
xlab="Barrio",
ylab="Cantidad de viviendas",
border="blue",
col="blue",
density=10)
• Se puede evidenciar que las viviendas más vendidas se encuentran en la Zona Sur con un 56.76% de participación en el mercado, mientras que la Zona Centro es aquella en dónde menos se venden viviendas, ya que las viviendas ubicadas allí, solo equivalen a un 1.49%.
•El tipo de vivienda que más se vende en la ciudad de Cali son los apartamentos, puesto que equivalen a un 61.33% del total de las viviendas vendidas, mientras que las casas ocupan un 38.55%, esta cifra se relaciona con la variable piso en donde se evidenció que más de un 30% no presenta información. Con esto se puede inferir que menos del 1% de tipos de vivienda corresponden a otros tipos como lo pueden ser cuevas, puentes, carpas, vagones de tren, entre otros.
•Los barrios en dónde se encuentran la mayor cantidad de viviendas son Valle de Lili, Ciudad Jardin y Pance, los cuales ocupan un 12.11%, 6.20% y 4.91% rrspectivamente, por lo tanto se puede inferir que son los barrios con mayor crecimiento y oferta de Cali.
Para las variables cuantitativas como piso dónde se encuentra la vivienda, estrato, precio en millones,area construida, número de parqueaderos, número de baños y número de habitaciones se calcularán la cantidad de valores nulos,los indicadores de centro (media y mediana) y los indicadores de dispersión (rango, varianza, desviación estándar y coeficiente de variación) y se mostrarán graficamente las variables con respecto al número de viviendas. Además se generán dos gráficas adicionales que mostrarán la relación entre las variables precio, estrato, habitaciones y baños.
➜Piso:
hist(vivienda_faltantes$piso,
main="Piso",
xlab="Piso",
ylab="Cantidad de viviendas",
border="blue",
col="yellow",
density=10)
Tabla de frecuencia:
str(vivienda_faltantes$piso)
## num [1:8330] 4 1 NA 2 NA NA 2 NA NA 2 ...
variable<-as.factor(vivienda_faltantes$piso)
piso<-table(variable); piso
## variable
## 1 2 3 4 5 6 7 8 9 10 11 12
## 861 1450 1097 607 568 245 207 211 146 130 84 83
pisos<-as.data.frame(piso); pisos
## variable Freq
## 1 1 861
## 2 2 1450
## 3 3 1097
## 4 4 607
## 5 5 568
## 6 6 245
## 7 7 207
## 8 8 211
## 9 9 146
## 10 10 130
## 11 11 84
## 12 12 83
porcentajes <- prop.table(piso)
porcentaje <- as.data.frame(porcentajes); porcentaje
## variable Freq
## 1 1 0.15134470
## 2 2 0.25487783
## 3 3 0.19282827
## 4 4 0.10669713
## 5 5 0.09984180
## 6 6 0.04306557
## 7 7 0.03638601
## 8 8 0.03708912
## 9 9 0.02566356
## 10 10 0.02285112
## 11 11 0.01476534
## 12 12 0.01458956
Tabla1 <- data.frame(piso, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Piso", "Frecuencia", "Porcentaje (%)")
Tabla1
## Piso Frecuencia Porcentaje (%)
## 1 1 861 15.13
## 2 2 1450 25.49
## 3 3 1097 19.28
## 4 4 607 10.67
## 5 5 568 9.98
## 6 6 245 4.31
## 7 7 207 3.64
## 8 8 211 3.71
## 9 9 146 2.57
## 10 10 130 2.29
## 11 11 84 1.48
## 12 12 83 1.46
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$piso))#cantidad datos nulos
## [1] 2641
Resumen de indicadores:
Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$piso)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 5689 3.77 2.62 3 3.37 1.48 1 12 11 1.28 1.05 0.03
Varianza:
var(as.numeric(vivienda_faltantes$piso),na.rm=TRUE) #varianza
## [1] 6.838294
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$piso),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$piso),na.rm=TRUE)*100 #coeficiente de variación
## [1] 69.32021
➜Estrato:
pie(table(vivienda_faltantes$estrato),main="Estrato")
Tabla de frecuencia:
str(vivienda_faltantes$estrato)
## num [1:8330] 6 6 5 3 5 5 6 5 5 5 ...
variable<-as.factor(vivienda_faltantes$estrato)
estrato<-table(variable); estrato
## variable
## 3 4 5 6
## 1453 2131 2751 1992
estratos<-as.data.frame(estrato); estratos
## variable Freq
## 1 3 1453
## 2 4 2131
## 3 5 2751
## 4 6 1992
porcentajes <- prop.table(estrato)
porcentaje <- as.data.frame(porcentajes); porcentaje
## variable Freq
## 1 3 0.1744926
## 2 4 0.2559145
## 3 5 0.3303711
## 4 6 0.2392218
Tabla1 <- data.frame(estrato, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Estrato", "Frecuencia", "Porcentaje (%)")
Tabla1
## Estrato Frecuencia Porcentaje (%)
## 1 3 1453 17.45
## 2 4 2131 25.59
## 3 5 2751 33.04
## 4 6 1992 23.92
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$estrato))#cantidad datos nulos
## [1] 3
Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$estrato)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 8327 4.63 1.03 5 4.67 1.48 3 6 3 -0.18 -1.11 0.01
Varianza:
var(as.numeric(vivienda_faltantes$estrato),na.rm=TRUE) #varianza
## [1] 1.059514
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$estrato),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$estrato),na.rm=TRUE)*100 #coeficiente de variación
## [1] 22.21095
➜Precio en millones:
hist(vivienda_faltantes$preciom,
main="Precio en millones",
xlab="Precio",
ylab="Cantidad de viviendas",
border="yellow",
col="blue")
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$preciom))#cantidad datos nulos
## [1] 2
Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$preciom)
## vars n mean sd median trimmed mad min max range skew kurtosis
## X1 1 8328 434.24 329.02 330 374.72 209.05 58 1999 1941 1.85 3.66
## se
## X1 3.61
Varianza:
var(as.numeric(vivienda_faltantes$preciom),na.rm=TRUE) #varianza
## [1] 108251.3
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$preciom),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$preciom),na.rm=TRUE)*100 #coeficiente de variación
## [1] 75.76806
Relación precio vs Estrato:
plot(vivienda_faltantes$preciom,vivienda_faltantes$estrato, main="Relación precio vs Estrato",
xlab="Precio",
ylab="Estrato",
col="red")
➜Área construida:
barplot(table(vivienda_faltantes$areaconst),
main="Área construida",
xlab="Área construida",
ylab="Cantidad de viviendas",
border="blue",
density=10)
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$areaconst))#cantidad datos nulos
## [1] 3
Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$areaconst)
## vars n mean sd median trimmed mad min max range skew kurtosis
## X1 1 8327 174.99 142.95 123 149.22 84.51 30 1745 1715 2.69 12.9
## se
## X1 1.57
Varianza:
var(as.numeric(vivienda_faltantes$areaconst),na.rm=TRUE) #varianza
## [1] 20434.66
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$areaconst),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$areaconst),na.rm=TRUE)*100 #coeficiente de variación
## [1] 81.69142
➜Parqueaderos:
table(vivienda_faltantes$parquea)
##
## 1 2 3 4 5 6 7 8 9 10
## 3156 2478 521 386 68 68 18 17 4 8
barplot(table(vivienda_faltantes$parquea),
main="Número de parqueaderos",
xlab="Parqueaderos",
ylab="Cantidad de viviendas",
border="blue",
col="yellow")
Tabla de frecuencia:
str(vivienda_faltantes$parquea)
## num [1:8330] 2 1 4 1 2 8 2 4 1 2 ...
variable<-as.factor(vivienda_faltantes$parquea)
parquea<-table(variable); parquea
## variable
## 1 2 3 4 5 6 7 8 9 10
## 3156 2478 521 386 68 68 18 17 4 8
parqueas<-as.data.frame(parquea); parqueas
## variable Freq
## 1 1 3156
## 2 2 2478
## 3 3 521
## 4 4 386
## 5 5 68
## 6 6 68
## 7 7 18
## 8 8 17
## 9 9 4
## 10 10 8
porcentajes <- prop.table(parquea)
porcentaje <- as.data.frame(porcentajes); porcentaje
## variable Freq
## 1 1 0.469363474
## 2 2 0.368530637
## 3 3 0.077483641
## 4 4 0.057406306
## 5 5 0.010113028
## 6 6 0.010113028
## 7 7 0.002676978
## 8 8 0.002528257
## 9 9 0.000594884
## 10 10 0.001189768
Tabla1 <- data.frame(parquea, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Parqueaderos", "Frecuencia", "Porcentaje (%)")
Tabla1
## Parqueaderos Frecuencia Porcentaje (%)
## 1 1 3156 46.94
## 2 2 2478 36.85
## 3 3 521 7.75
## 4 4 386 5.74
## 5 5 68 1.01
## 6 6 68 1.01
## 7 7 18 0.27
## 8 8 17 0.25
## 9 9 4 0.06
## 10 10 8 0.12
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$parquea))#cantidad datos nulos
## [1] 1606
Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$parquea)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 6724 1.84 1.13 2 1.62 1.48 1 10 9 2.32 8.29 0.01
Varianza:
var(as.numeric(vivienda_faltantes$parquea),na.rm=TRUE) #varianza
## [1] 1.265814
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$parquea),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$parquea),na.rm=TRUE)*100 #coeficiente de variación
## [1] 61.28039
➜Baños:
table(vivienda_faltantes$banios)
##
## 0 1 2 3 4 5 6 7 8 9 10
## 45 497 2946 1994 1460 891 315 107 48 15 9
hist(vivienda_faltantes$banios, main="Número de baños",
xlab="Baños",
ylab="Cantidad de viviendas",
border="yellow",
col="blue",
density=50)
Tabla de frecuencia:
str(vivienda_faltantes$banios)
## num [1:8330] 4 4 7 2 4 10 3 4 2 4 ...
variable<-as.factor(vivienda_faltantes$banios)
banios<-table(variable); banios
## variable
## 0 1 2 3 4 5 6 7 8 9 10
## 45 497 2946 1994 1460 891 315 107 48 15 9
banioss<-as.data.frame(banios); banioss
## variable Freq
## 1 0 45
## 2 1 497
## 3 2 2946
## 4 3 1994
## 5 4 1460
## 6 5 891
## 7 6 315
## 8 7 107
## 9 8 48
## 10 9 15
## 11 10 9
porcentajes <- prop.table(banios)
porcentaje <- as.data.frame(porcentajes); porcentaje
## variable Freq
## 1 0 0.005404107
## 2 1 0.059685361
## 3 2 0.353788880
## 4 3 0.239461991
## 5 4 0.175333253
## 6 5 0.107001321
## 7 6 0.037828750
## 8 7 0.012849766
## 9 8 0.005764381
## 10 9 0.001801369
## 11 10 0.001080821
Tabla1 <- data.frame(banios, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Baños", "Frecuencia", "Porcentaje (%)")
Tabla1
## Baños Frecuencia Porcentaje (%)
## 1 0 45 0.54
## 2 1 497 5.97
## 3 2 2946 35.38
## 4 3 1994 23.95
## 5 4 1460 17.53
## 6 5 891 10.70
## 7 6 315 3.78
## 8 7 107 1.28
## 9 8 48 0.58
## 10 9 15 0.18
## 11 10 9 0.11
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$banios))#cantidad datos nulos
## [1] 3
Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$banios)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 8327 3.11 1.43 3 2.99 1.48 0 10 10 0.92 1.12 0.02
Varianza:
var(as.numeric(vivienda_faltantes$banios),na.rm=TRUE) #varianza
## [1] 2.040171
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$banios),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$banios),na.rm=TRUE)*100 #coeficiente de variación
## [1] 45.89732
➜Número de habitaciones:
Tabla de frecuencia:
str(vivienda_faltantes$habitac)
## num [1:8330] 2 4 5 4 3 10 3 4 3 3 ...
variable<-as.factor(vivienda_faltantes$habitac)
habitac<-table(variable); habitac
## variable
## 0 1 2 3 4 5 6 7 8 9 10
## 66 59 927 4101 1731 680 318 173 138 83 51
habitacs<-as.data.frame(habitac); habitacs
## variable Freq
## 1 0 66
## 2 1 59
## 3 2 927
## 4 3 4101
## 5 4 1731
## 6 5 680
## 7 6 318
## 8 7 173
## 9 8 138
## 10 9 83
## 11 10 51
porcentajes <- prop.table(habitac)
porcentaje <- as.data.frame(porcentajes); porcentaje
## variable Freq
## 1 0 0.007926024
## 2 1 0.007085385
## 3 2 0.111324607
## 4 3 0.492494296
## 5 4 0.207877987
## 6 5 0.081662063
## 7 6 0.038189024
## 8 7 0.020775790
## 9 8 0.016572595
## 10 9 0.009967575
## 11 10 0.006124655
Tabla1 <- data.frame(habitac, round(porcentaje[,2]*100, 2))
colnames(Tabla1) <- c("Habitaciones", "Frecuencia", "Porcentaje (%)")
Tabla1
## Habitaciones Frecuencia Porcentaje (%)
## 1 0 66 0.79
## 2 1 59 0.71
## 3 2 927 11.13
## 4 3 4101 49.25
## 5 4 1731 20.79
## 6 5 680 8.17
## 7 6 318 3.82
## 8 7 173 2.08
## 9 8 138 1.66
## 10 9 83 1.00
## 11 10 51 0.61
Cantidad datos nulos:
sum(is.na(vivienda_faltantes$habitac))#cantidad datos nulos
## [1] 3
Resumen de indicadores: Cantidad de datos (n), Media (mean), Desviacion estandar (sd), Mediana (median), Media truncada (trimmed), desvicación absoluta media (mad), Minimo (min), Maximo (max), Rango (range), coeficiente de asimetría (skew), kurtosis (curtosis) y sesgo estadistico (se)
psych::describe(vivienda_faltantes$habitac)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 8327 3.61 1.46 3 3.41 1.48 0 10 10 1.64 3.99 0.02
Varianza:
var(as.numeric(vivienda_faltantes$habitac),na.rm=TRUE) #varianza
## [1] 2.128957
Coeficiente de variación:
sd(as.numeric(vivienda_faltantes$habitac),na.rm=TRUE)/mean(as.numeric(vivienda_faltantes$habitac),na.rm=TRUE)*100 #coeficiente de variación
## [1] 40.47262
Relación Habitación y baños:
plot(table(vivienda_faltantes$habitac,vivienda_faltantes$banios), main="Relación Baños y Habitaciones de las Viviendas",
xlab="Habitaciones",
ylab="Baños",col=rainbow(4))
•Para la variable piso, es de gran importancia conocer acerca del contexto de estos datos, ya que no es claro si hace referencia al piso en donde se encuentra ubicada la vivienda (apartamentos), o la cantidad de pisos que tienen las viviendas (casas). Sin embargo en los resultados del análisis se evidencia que casi un 50% de la muestra esta ubicada en el piso 3 o tienen 3 pisos, de igual forma, el 70% del total de los datos arroja que las viviendas están o se encuentran ubicadas en los primeros cuatro pisos. El 30 % restante se distribuye entre el quinto y doceavo piso.
•Para la variable estrato, se evidencia que el minimo estrato que se tiene en cuenta es el no. 3 y el máximo es el no. 6, es decir, no se tomaron estratos 1 y 2. Las viviendas que más se vendieron se encuentran en los estratos 4,5 y 6, lo que permite inferir que las viviendas de estos estratos se encuentran en la zona sur y zona norte de la ciudad.
•Para la variable de precio, se evidencia que el promedio de precio de las viviendas vendidas en Cali es de 434 millones de pesos, además se observa que es una de las variables que mayor coeficiente de variación presenta (75.76), ya que el precio minimo se encuentra en 59 millones mientras que el maximo es de 1999 millones. Por otro lado, al hacer la relación de precio y estrato se evidencia que la mayoría de viviendas de los estratos 3 y 4 llegan a los 500 millones de pesos. Mientras que las viviendas de los estratos 5 y 6 osicilan entre los 100 y 1000 millones de pesos.
•El promedio de área construida de las viviendas es de 174.99 m, al igual que el precio, ésta es una variable que presenta un coeficiente de variación bastante alto (81.69), ya que puede variar entre 30 m y 1475 m. Adicional, el diagrama de barras permite evidenciar que más de 300 viviendas tienen un área de 60 m.
•Se puede observar, que aproximadamente el 46% de las viviendas vendidas en la ciudad de Cali tienen un solo parqueadero, sin embargo, un 36% tienen dos parqueaderos, lo que equivale a un 84% de la muestra total. Cabe aclarar, que el 16% restante corresponden a las viviendas que tienen más de dos parqueaderos y aquellas que no tienen parqueaderos.
•Se logra determinar que un 35% de las viviendas vendidas tienen 2 baños en sus instalaciones, sin embargo, un 23.93% tiene 3 baños, un 17.53% tiene 4 baños y un 10.70% tiene 5 baños, lo que corresponde al 87% de la muestra total. Sin embargo, se evidencia que 45 viviendas que equivale al 0.54% no tienen ningún baño, por lo que se puede suponer que éstas hacen parte del tipo de viviendas que se mencionaron inicialmente (“Un 1% de tipos de vivienda corresponden a otros tipos como lo pueden ser cuevas, puentes, carpas, vagones de tren, entre otros”).
•Con respecto a las habitaciones, se observa que la cantidad de habitaciones oscila entre 0 y 10, no obstante, casi un 50% de las viviendas vendidas tienen 3 habitaciones, aproximadamente un 30% de las viviendas, se distribuye entre 2 y 4 habitaciones (11.13% y 20.79% respectivamente). Al igual que los baños se evidencia que 66 viviendas que equivale al 0.79% no tienen ninguna habitación, por lo que se puede suponer que éstas hacen parte del tipo de viviendas que se mencionaron inicialmente (“Un 1% de tipos de vivienda corresponden a otros tipos como lo pueden ser cuevas, puentes, carpas, vagones de tren, entre otros”).
•Finalmente se realizó una relación entre número de habitaciones y baños, y se puede inferir que la mayoría de las viviendas tienen un baño social y un baño en una de sus habitaciones, más no en cada una de ellas.
Este informe estadistico le presenta a la empresa B&C de bienes raíces un análisis descriptivo por medio de la generación de indicadores y gráficas visuales,con el fin de mostrar el comportamiento de los datos y las variables que corresponden a las viviendas vendidas en la ciudad de Cali, Colombia. Con este informe, se pretende que la gerencia de la compañía tome decisiones respecto a las tendencias y patrones analizados.