Workflow de un proyecto de Datos

Asier Goikoetxea
2017ko Apirilaren 26a

Introduccion

  • Proceso semi-artesanal
  • subjetivo
  • Muchas herramientas que podemos utilizar:
    • Generales: python o R
    • Usos Especificos: Carto, opnerefine…

Estructura de un Proyecto de Datos

titulo

Importar datos

  • Ficheros con datos: csv, tsv, txt, excel.
  • Bases de Datos: mysql, postgre sql, oracle.
  • Servicios web (API): twitter, facebook,
  • Web scrapping (el caso de Udalmap)

Limpiar Datos

  • Tidy Data: Una variable en cada columna, una observacion por cada fila.
  • Limpiar datos:
    • Valores NA
    • Caracteres de texto (acentos, simbolos…)
    • Limpiar categorias (coherencia en las unidades de los datos)

Transformar Datos

  • Crear nuevas variables
  • Modificar valores de tablas
    • Transformar unidades (log, m -> km, porcentajes…)
  • Calculo de estadisticas:
    • medias, max / min, percentiles..
    • por mes, por municipio, por comunidades, areas…

Visualizar Datos

  • Analizar la distribucion de los datos: simetria, “normalidad”, colas.
    • Graficos de Distribucion (Histogramas o diagramas de Cajas)
  • Buscar correlaciones

    • Graficos de dispersion (Scatterplot)
  • Identificar “Outliers”, patrones…

  • Validar modelos de regresion:

    • Graficos de residuos

Modelar

  • Modelos estadisticos “tradicionales” (modelos de regresion)
    • Menor capacidad de prediccion
    • Funcionan mejor “cantidades reducidas” de datos o variables
    • Mas faciles de interpretar y entender
  • Machine Learning (Random Forests, unsupervised learnig)
    • Gran capacidad de prediccion
    • Necesitan grandes cantidades de datos y variables
    • Problemas para entender bien lo que sucede por dentro (sindrome de la caja negra)

Iterar

  • Repetir el proceso hasta llegar al mejor modelo posible:

    • Metodologias para elegir el mejor modelo
  • Buscar la mejor forma de visualizar nuestras conclusiones

Comunicar

  • Un paso que no se le da la importancia adecuada
  • Analisis reproducible:
    • Todas las funciones utilizadas estan especificadas
    • Los “datos en bruto” utilizados para el analisis estan disponibles
    • El proceso de transformar los datos en bruto esta definido
    • Documentar bien

Mismos Datos + Mismo Script = Mismo Resultado

  • Medios para comunicar: Articulos, Presentaciones, Web
    • Adaptarnos al medio: Graficos interactivos, responsive

titulo