Problema
Una empresa inmobiliaria líder en una gran ciudad está buscando
comprender en profundidad el mercado de viviendas urbanas para tomar
decisiones estratégicas más informadas. La empresa posee una base de
datos extensa que contiene información detallada sobre diversas
propiedades residenciales disponibles en el mercado. Se requiere
realizar un análisis holístico de estos datos para identificar patrones,
relaciones y segmentaciones relevantes que permitan mejorar la toma de
decisiones en cuanto a la compra, venta y valoración de propiedades.
Análisis
exploratorio
Tipo de datos de las
variables
Tabla 1. Resumen del
tipo de dato
|
Variable
|
Tipo
|
Ejemplo
|
|
id
|
numeric
|
1147, 1169, 1350
|
|
zona
|
character
|
Zona Oriente, Zona Oriente, Zona Oriente
|
|
piso
|
character
|
NA, NA, NA
|
|
estrato
|
numeric
|
3, 3, 3
|
|
preciom
|
numeric
|
250, 320, 350
|
|
areaconst
|
numeric
|
70, 120, 220
|
|
parqueaderos
|
numeric
|
1, 1, 2
|
|
banios
|
numeric
|
3, 2, 2
|
|
habitaciones
|
numeric
|
6, 3, 4
|
|
tipo
|
character
|
Casa, Casa, Casa
|
|
barrio
|
character
|
20 de julio, 20 de julio, 20 de julio
|
|
longitud
|
numeric
|
-76.51168, -76.51237, -76.51537
|
|
latitud
|
numeric
|
3.43382, 3.43369, 3.43566
|
Resumen del set de
datos
Tabla 2. Resumen de
estadísticas descriptivas de variables numéricas
|
Variable
|
N
|
Min
|
1st Qu.
|
Median
|
Mean
|
3rd Qu.
|
Max
|
|
estrato
|
8319
|
3.00000
|
4.000000
|
5.000
|
4.633610
|
5.00000
|
6.0000
|
|
preciom
|
8320
|
58.00000
|
220.000000
|
330.000
|
433.891947
|
540.00000
|
1999.0000
|
|
areaconst
|
8319
|
30.00000
|
80.000000
|
123.000
|
174.934938
|
229.00000
|
1745.0000
|
|
parqueaderos
|
6717
|
1.00000
|
1.000000
|
2.000
|
1.835194
|
2.00000
|
10.0000
|
|
banios
|
8319
|
0.00000
|
2.000000
|
3.000
|
3.111311
|
4.00000
|
10.0000
|
|
habitaciones
|
8319
|
0.00000
|
3.000000
|
3.000
|
3.605361
|
4.00000
|
10.0000
|
|
longitud
|
8319
|
-76.58915
|
-76.541580
|
-76.530
|
-76.528606
|
-76.51889
|
-76.4630
|
|
latitud
|
8319
|
3.33300
|
3.380795
|
3.416
|
3.417644
|
3.45200
|
3.4977
|
Valores
faltantes
Tabla 3. Valores
faltantes por variable
|
Variable
|
NA_count
|
|
zona
|
3
|
|
piso
|
2638
|
|
estrato
|
3
|
|
preciom
|
2
|
|
areaconst
|
3
|
|
parqueaderos
|
1605
|
|
banios
|
3
|
|
habitaciones
|
3
|
|
tipo
|
3
|
|
barrio
|
3
|
|
longitud
|
3
|
|
latitud
|
3
|