PRUEBA
Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
| Nombre | Descripción | Clasificación por naturaleza |
|---|---|---|
| id | Llave registro unico | Cuantitativa discreta |
| zona | Zona donde se encuantra unicada la vivienda | Cualitativa nominal |
| piso | Piso dentro del edificio donde se cuentra la vivienda | Cuantitativa discreta |
| estrato | Nivel del estrato de la vivienda | Cualitativa ordinal |
| preciom | Precio de la vivienda | Cuantitativa discreta |
| areaconst | Area construida | Cuantitativa continua |
| parqueaderos | Numero de parqueaderos que posee la vivienda | Cuantitativa discreta |
| banios | Numero de baños que posee la vivienda | Cuantitativa discreta |
| habitaciones | Numero de habitaciones que posee la vivienda | Cuantitativa discreta |
| tipo | Tipo de vivinda (Casa, Apartamento) | Cualitativa nominal |
| barrio | Nombre del barrio donde esta ubicada la vivienda | Cualitativa nominal |
| longitud | Coordenadas de longitud | Cuantitativa continua |
| latitud | Coordenadas de latitud | Cuantitativa continua |
## [1] 8322 13
Se cuenta con un dataset de 8322 regustros y 13 variables o atrubutos.
El primer paso en el procesamiento y limpieza de los datos, fue identificar los registros duplicados. Partiendo de un total de 8322 registros, aplicamos la función ‘duplicated’ de R. se encontraron un total de 1 registro duplicados, los cuales son removidos para quedar con 8321 registros.
Los errores en los datos y valores atípicos se identificaron a partir de gráficas y tablas que permiten tener una visión completa y complementaria para evitar que se omitan datos que deben ser tratados; para esto se debe asegurar que se aplica el gráfico correcto por cada tipo de variable; por lo tanto, se hace division del análisis entre variables Cualitativas o categóricas (incluyendo las cuantitativas discretas de pocos valores) y las variables Cuantitativas continuas y discretas (con muchos valores).
Para este tipo de variables se escogen las gráficas de barras al ser por excelencia la mejor forma de representarlas.
En la Figura 1, se pueden observar las gráficas de la 1.1 a la 1.6, donde aparentemente las variables parecen presentar valores dentro del rango espredo segun el contexto de cada viarable; solo se observa en algunas graficas la etiqueta “NA” que sera tratada mas adelante. La viarble “barrio” no fue considerada dentro de estas graficas ya que presenta demasiadas categorias (>400) y no se hace legible su interpretacion.
Figura 1: Gráficas de barras
Para las variables cuantitativas, si bien se pueden representar con histogramas, no son tan buenas para identificar datos atípicos, por lo que se utilizaron mejor graficas de cajas.
En la Figura 2, se pueden observar las gráficas de la 2.1 a la 2.17, donde varias variables presentan una gran cantidad de datos atípicos que se remontan unos con otros, dificultando identificar la cantidad de estos. Analizando la lógica de los valores para estas variables, si bien valores altos para montos de dinero o número de compras son poco comunes, siguen siendo valores posibles. solo se observan inconsistencias en la gráfica “2.14 - Age” con valores cercanos a 250 años, lo cual es imposible. También se observan inconsistencias en la gráfica “2.17 - MntRegularProds” con valores negativos de dinero que no se alcanzan a identificar cuántos ni cuanto. por lo que se complementará con una tabla resumen.
Figura 2: Graficas de Cajas
| Num_Inconsistencias | Num_Atipicos | |
|---|---|---|
| preciom | 0 | 552 |
| areaconst | 0 | 382 |
La gráfica de la figura 6.1 permite visualizar que variables presentan datos faltantes. En este se observa que solo las variables Income y MntWines presentan 68 y 20 registros respectivamente.
Figura 6.1 Variables que tienen datos faltantes
Para comprobar y visualizar mejor estos datos, se utiliza la **gráfica 6.2* de matriz de patrones de faltantes, que muestra la cantidad y distribución de dichos faltantes entre las variables.
Figura 6.2 Matriz de patrones de datos faltantes
En resumen, los datos faltantes y su frecuencia relativa, se pueden observar en la tabla 6.3
| Faltantes | Porcentaje % | |
|---|---|---|
| piso | 2637 | 31.69 |
| parqueaderos | 1604 | 19.28 |
| id | 2 | 0.02 |
| zona | 2 | 0.02 |
| estrato | 2 | 0.02 |
| areaconst | 2 | 0.02 |
| banios | 2 | 0.02 |
| habitaciones | 2 | 0.02 |
| tipo | 2 | 0.02 |
| barrio | 2 | 0.02 |
| longitud | 2 | 0.02 |
| latitud | 2 | 0.02 |
| preciom | 1 | 0.01 |
Por otro lado, para la variable Income, se hacen diferentes tipos de análisis con el fin de determinar qué tipo de faltantes presenta. como una de las técnicas más ampliamente utilizadas en el manejo de faltantes es la imputación por modelos de regresión, esto es, estimar los valores faltantes utilizando la relación observada con otras variables del dataset, se construye una gráfica de matriz de correlaciones, con el fin de observar la fortaleza entre las variables, ver Figura 6.4
Figura 6.4 Matriz de correlación entre variables.
Se observa una fuerte correlación (0.82) entre la variable Income y las variable MntTotal y MntRegularProdis, lo cual tiene todo el sentido al suponer que entre mayor sean los ingresos de una persona, mayor capacidad de gasto tendrá y por lo tanto, se veran mayores montos en estas variables.
Para complementar el análisis anterior, se realiza la prueba de little con el fin de determinar si los datos faltantes tienen un comportamiento MCAR. el detalle de esta prueba se puede observar en el Anexo 4
El resultado del valor - p de la prueba fue 0.127, que es mayor al límite 0.05, esto significa que no se descarta la hipótesis nula de que los datos faltantes siguen un comportamiento MCAR para la variable Income.
Partiendo de lo analizado en el punto anterior, se utiliza un modelo de regresión simple para que, a partir de los datos de la variable MntTotal (variable predictora), se pueda estimar los datos faltantes de la variable income.
En la Figura 6.5 Se observa un gráfico de correlación entre estas 2 variables. Si se resaltan los valores imputados a la variable Income, se puede observar cómo estos nuevos valores siguen la tendencia del comportamiento de una manera aceptablemente ajustada. El código y pasos para este proceso se pueden observar en el anexo 5.
Código utilizado para revisar en consola las frecuencias de las variables cuantitativas
# Mostrar resultados de valores atípicos por variable
cat("Resultados del análisis multivariado:\n")
## Resultados del análisis multivariado:
for (var in names(resultados_multivariado)) {
cat(paste("Variable: ", var, "\n"))
cat(" Límites: ", resultados_multivariado[[var]]$Limites, "\n")
cat(" Inconsistencias: ", resultados_multivariado[[var]]$Inconsistencias, "\n")
cat(" Atípicos: ", resultados_multivariado[[var]]$Atipicos, "\n\n")
}
## Variable: preciom
## Límites: -260 1020
## Inconsistencias:
## Atípicos: 1400 1400 1150 1200 1100 1130 1850 1950 1050 1200 1400 1100 1190 1106 1300 1350 1350 1050 1250 1150 1050 1050 1300 1200 1220 1100 1090 1126 1100 1300 1700 1500 1700 1300 1200 1300 1200 1200 1350 1200 1200 1380 1850 1300 1200 1600 1200 1195 1200 1700 1400 1800 1200 1500 1300 1100 1125 1400 1400 1120 1200 1450 1450 1250 1380 1350 1450 1370 1250 1195 1200 1480 1100 1700 1700 1400 1750 1600 1150 1150 1550 1100 1561 1400 1700 1600 1550 1100 1050 1650 1100 1200 1680 1500 1250 1550 1100 1600 1150 1300 1800 1500 1500 1600 1100 1600 1200 1400 1240 1700 1350 1150 1150 1150 1600 1500 1280 1200 1100 1800 1800 1200 1500 1200 1200 1150 1200 1500 1200 1100 1800 1700 1800 1400 1700 1800 1650 1500 1200 1400 1900 1800 1200 1100 1400 1350 1700 1500 1100 1280 1250 1250 1250 1050 1200 1200 1250 1200 1255 1590 1100 1390 1350 1590 1350 1650 1090 1385 1150 1150 1200 1250 1400 1450 1250 1200 1300 1400 1250 1400 1100 1500 1150 1800 1100 1200 1050 1080 1100 1200 1250 1200 1100 1700 1650 1250 1800 1200 1400 1800 1500 1390 1385 1600 1440 1300 1133 1600 1077 1090 1100 1180 1250 1800 1500 1250 1200 1200 1200 1200 1250 1300 1400 1400 1400 1280 1750 1350 1100 1100 1200 1400 1400 1400 1400 1150 1100 1500 1050 1200 1320 1180 1400 1100 1400 1300 1200 1200 1200 1850 1100 1500 1370 1400 1250 1050 1350 1180 1850 1300 1400 1850 1200 1200 1850 1100 1300 1500 1400 1300 1300 1250 1650 1900 1600 1700 1700 1700 1200 1150 1250 1600 1600 1600 1800 1200 1398 1700 1250 1500 1400 1480 1650 1800 1300 1400 1300 1600 1500 1100 1550 1100 1200 1450 1450 1200 1300 1450 1300 1300 1200 1700 1100 1170 1200 1250 1200 1280 1200 1700 1800 1250 1300 1280 1160 1200 1100 1700 1850 1280 1350 1400 1150 1600 1700 1250 1300 1600 1750 1050 1050 1200 1100 1350 1250 1270 1900 1850 1400 1400 1300 1150 1250 1900 1580 1500 1200 1200 1280 1350 1350 1200 1900 1900 1400 1100 1150 1500 1300 1300 1300 1280 1590 1300 1800 1300 1300 1800 1400 1200 1300 1300 1700 1280 1700 1900 1350 1200 1350 1600 1200 1150 1680 1100 1360 1100 1300 1200 1500 1800 1100 1330 1200 1200 1900 1500 1300 1600 1700 1900 1500 1500 1100 1600 1999 1600 1350 1530 1650 1940 1950 1300 1051 1078 1200 1103 1580 1500 1100 1270 1100 1160 1350 1500 1900 1600 1800 1550 1300 1150 1830 1200 1200 1850 1584 1100 1500 1550 1100 1950 1400 1500 1300 1250 1250 1200 1150 1200 1350 1350 1150 1226 1150 1300 1150 1250 1250 1150 1450 1200 1220 1850 1900 1850 1800 1350 1200 1220 1250 1350 1800 1050 1100 1300 1800 1270 1149 1200 1200 1550 1250 1750 1600 1400 1300 1200 1150 1400 1090 1500 1400 1400 1583 1250 1150 1080 1200 1180 1250 1400 1350 1050 1400 1500 1290 1330 1330 1350 1801 1200 1800 1230 1110 1330 1200 1395 1100 1250 1200 1400 1600 1590 1400 1450 1200 1400 1400 1500 1500 1250 1650 1600 1200 1200 1400 1050 1100 1100 1550 1400 1650 1800
##
## Variable: areaconst
## Límites: -143.5 452.5
## Inconsistencias:
## Atípicos: 455 480 480 550 540 460 595 480 960 500 752 463 460 750 487 1365 520 900 700 660 600 1000 730 467 520 520 870 650 500 540 760 530 530 485 490 930 560 724 1000 520 960 500 530 800 520 505 619 1050 490 520 500 588 1040 500 910 540 600 460 480 500 480 630 836 500 464 510 500 610 640 520 534 900 1000 520 1586 535 850 480 620 600 590 500 540 550 800 600 600 600 600 480 800 660 600 600 600 550 600 530 530 542 470 517 780 700 1188 500 500 1000 500 500 500 550 500 460 616 600 750 486 600 1200 750 500 550 453 610 454 600 750 500 551 500 550 700 584 476 552 600 520 600 480 550 550 470 470 605 550 600 500 460 700 1745 455 607 500 520 495 573 728 850 460 650 736 468 736 463 920 480 503 503 503 500 500 600 600 536 500 560 470 457 460 490 640 455 520 520 838 550 500 597 474.63 500 500 460 600 530 460 500 590 495 500 800 487 700 489 800 483 670 600 510 510 530 806 537 540 600 1500 455 463 500 550 619 565 1500 619 461 619 600 720 596 570 1000 462 480 520 844 835 1000 575 500 500 469 1090 550 833 565 600 619 700 650 619 619 800 850 1100 465 700 619 1250 550 700 500 550 461 470 550 1000 619 650 503 980 480 740 980 480 900 1092 773 1600 500 500 765 700 510 472 500 800 500 583 560 759 480 510 502 900 500 700 530 500 776 850 734 734 500 490 624 792 552 520 454 1200 453 600 950 496 650 455 453 470 800 525 453 463 615 500 628 638 550 550 480 500 480 457 459 459 475 475 474 720 480 825 637 530 740 739 627 487 470 500 487 630 487 467 741 500 490 500 455 455 900 500 484 600 475 640 640 480 480 932 465 496 942 496 523.3 660 730 520 588 500 1440 537 507 460