7/28/2020

Agenda

  • Consideraciones iniciales.
  • Transformación de datos.
  • Modelos avanzados.
  • Interpretación de resultados.
  • Próximos pasos.

Consideraciones iniciales

  • Se comenzó con la consigna de la parte 1:
    • Variables a considerar:
      • lat, lon, l3, rooms, bedrooms, bathrooms, surface_total, surface_covered, property_type, price.
    • Filtrado de valores:
      • Capital Federal.
      • Departamento, PH, Casa.
  • Random state = 42 para todos los procesos aleatorios.

Transformación de datos

Imputación de valores faltantes

  • Análisis de valores faltantes.
  • Resultado más curioso:
    • Variables: latitud y longitud.
    • Tipo de variable: MAR.
    • Mayor cantidad en las zonas más costosas.
  • En esta primera fase se decidió eliminar todos los datos faltantes.

Transformación de datos

Imputación de valores faltantes

Transformación de datos

Imputación de valores faltantes

Transformación de datos

Detección de valores atípicos

Transformación de datos

Encoding

Para tener en cuenta según el problema a tratar:

¡Precaución!

  1. Hacer primero el encoding antes del train/test split.
  2. Asegurarse que las etiquetas existan en ambos conjuntos.

Transformación de datos

Escalado de datos

  • Es el primer proceso que se hace luego del train/test split.
  • Se aplicó StandardScaler únicamente en los atributos numéricos.

Transformación de datos

Reducción de dimensionalidad

  • Se aplicó PCA.
  • Mantener el 95% de la varianza.
  • Se obtuvo 6 componentes (95,96%).
  • Se graficaron los 3 primeros componentes: 52% - 16% - 13%.
  • Mejora de un 43% aproximadamente para el árbol de decisión.

Transformación de datos

Reducción de dimensionalidad

Transformación de datos

Comparación con Decision Tree

Transformación de datos

Comparación con Decision Tree

Modelos Avanzados

Selección de modelos

  • Se usaron los siguientes modelos con hiper-parámetros por defecto:
    • Lasso (regresión lineal con regularización).
    • Random Forest (Bagging).
    • XGBoost (Boosting).

Modelos Avanzados

Comparación de modelos

Interpretación de modelos

Análisis de residuos

Proximos pasos

  • Optimización de hiper-parámetros.
  • Usar PolynomialFeatures con Lasso.
  • Construir los modelos con el dataset completo.
  • Imputación de valores:
    • Usar KNN con latitud y longitud por barrio.
    • Usar regresión lineal con superficie cubierta y total.
  • Análisis de residuos con los nuevos resultados.
  • Clustering:
    • Validar etiquetas de barrios y tipo de propiedad.

¡Gracias!
¿Preguntas?