Consideraciones iniciales. Transformación de datos. Modelos avanzados. Interpretación de resultados. Próximos pasos.
Se comenzó con la consigna de la parte 1: Variables a considerar: lat, lon, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, property_type, price. Filtrado de valores: Capital Federal. Departamento, PH, Casa. Random state = 42 para todos los procesos aleatorios.
Análisis de valores faltantes. Resultado más curioso: Variables: latitud y longitud. Tipo de variable: MAR. Mayor cantidad en las zonas más costosas. En esta primera fase se decidió eliminar todos los datos faltantes.
Para tener en cuenta según el problema a tratar: ¡Precaución! Hacer primero el encoding antes del train/test split. Asegurarse que las etiquetas existan en ambos conjuntos.
Es el primer proceso que se hace luego del train/test split. Se aplicó StandardScaler únicamente en los atributos numéricos.
Se aplicó PCA. Mantener el 95% de la varianza. Se obtuvo 6 componentes (95,96%). Se graficaron los 3 primeros componentes: 52% - 16% - 13%. Mejora de un 43% aproximadamente para el árbol de decisión.
Se usaron los siguientes modelos con hiper-parámetros por defecto: Lasso (regresión lineal con regularización). Random Forest (Bagging). XGBoost (Boosting).
Optimización de hiper-parámetros. Usar PolynomialFeatures con Lasso. Construir los modelos con el dataset completo. Imputación de valores: Usar KNN con latitud y longitud por barrio. Usar regresión lineal con superficie cubierta y total. Análisis de residuos con los nuevos resultados. Clustering: Validar etiquetas de barrios y tipo de propiedad.