Entendimiento y Preparación de Datos

UNIDAD 1: INTRODUCCIÓN A LA GESTIÓN PREDICTIVA

Enver G. Tarazona Vargas
etarazon@ulima.edu.pe

650036 - Analítica Predictiva de Datos
Universidad de Lima

–>

Proyecto de Modelamiento Predictivo

Proceso de Extracción del Conocimiento (KDD)

CRISP-DM

  • CRISP-DM es una metodología completa de Minería de Datos y modelamiento de procesos que proporciona a cualquiera, desde principiantes a expertos, un programa completo para la realización de un proyecto de minería de datos.

  • La metodología enumera los pasos para reproducir el éxito.

CRISP-DM:Fases y Tareas

Fases de un Proyecto de Ciencia de Datos

Entendimiento de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Tipos de Datos

Análisis Exploratorio de Datos (EDA)

  • Motivación: Comprender mejor los datos

  • Principales tareas:

    • Organizar: tablas de frecuencia
    • Visualizar: gráficas estadísticas, distribuciones de frecuencia.
    • Resumir: cálculo de medidas estadísticas
    • Analizar asociaciones

Visualización de Distribuciones

  • Las herramientas gráficas brindan la posibilidad de investigar de manera visual las características de los datos para ayudar a entenderlos.
  • Las exploración de los datos pueden claramente identificar errores en los datos y particularidades sobre la forma en que fueron recolectados.
  • Es muy importante que en una primera etapa de un proyecto de análisis de datos, se examine visualmente la distribución de los valores de cada una de las variables de nuestra base de datos.
  • El R es uno de los programas estadísticos con mayor capacidad para realizar gráficas.

Preparación de Datos

¿Por qué preparar los datos?

  • Algún tipo de preparación de datos siempre es necesario..
  • El propósito es transformar los conjuntos de datos de tal forma que la información que contienen esté mejor expuesta para la herramienta que se utilizará.
  • Los errores de predicción deberían ser menores (o en el peor caso similares) luego de la preparación de datos, en comparación con los datos iniciales.
  • Prepara al analista para producir mejores modelos y de manera más rápida.
  • Tener buenos datos es un requisito para producir modelos efectivos de cualquier tipo.
  • Los datos necesitan ser formateados para cada software en particular.
  • Los datos necesitan ser adecuados para un método en particular

¿Por qué preparar los datos?

  • Los datos en la vida real están sucios
    • incompletos: Falta de valores en los atributos, carecen de algunos atributos de interés, sólo contienen datos agregados:
      ej., ocupación = ” ”

    • anómalos: errores y outliers
      ej., Salario = “-10”

    • inconsistentes: contienen discrepancias en códigos y nombres
      ej., Edad = “42” , Cumpleaños = “03/07/1997”
      ej., Rating previo: “1,2,3”, Rating actual “A, B, C”
      ej., Discrepancia con registros duplicados

¿Por qué los datos están sucios?

  • Los datos incompletos pueden venir de

    • Datos “No aplicables” al momento de ser colectados.
    • Diferentes consideraciones de tiempo cuando fueron recolectados y cuando son analizados
    • Problemas Humanos/hardware/software
  • Datos anómalos (valores incorrectos) pueden venir de

    • Instrumentos de recolección de datos defectuoso
    • Errores humanos o de computadora en la entrada de los datos
    • Errores en la transmisión de datos

¿Por qué los datos están sucios?

  • Datos inconsistentes pueden venir de

    • Diferentes fuentes de datos
    • Violación de dependencias funcionales (ej., modificación en algunos datos relacionados)
  • Registros duplicados también necesitan ser limpiados

  • ¡No hay calidad en los datos, no hay calidad en los resultados!

    • Decisiones de calidad deben de basarse en datos de calidad
    • ej., datos duplicados o perdidos pueden producir estadísticas engañosas o incorrectas.
    • Data warehouse necesita una integración consistente de datos de calidad
    • La selección de datos, la limpieza y la transformación comprende la mayor parte del trabajo de construir un data warehouse

Problemas asociados con los datos

  • Imprecisión:

    • Problemas del instrumento de medición y errores de digitación.
  • Falta de Registros:

    • Algún entrevistado no responde a una pregunta de una encuesta.
  • Inconsistencia:

    • Formatos diferentes para las mismas variables, fechas, nombres, etc.
  • Interpretabilidad:

    • Códigos de respuesta poco claros y no explícitos

Principales Tareas

  • Limpieza de datos

    • Completa valores faltantes, suavizar datos ruidosos, identificar o remover outliers y resolver inconsistencias.
  • Integración de datos

    • Integración de múltiples bases de datos, cubos de datos, archivos.
  • Transformación de datos

    • Normalización y agregación (totalización)
  • Reducción de datos

    • Se obtiene una representación más reducida en volumen pero que produce los mismos o similares resultados analíticos.
  • Discretización de datos

    • Parte de la reducción de datos pero con particular importancia, especialmente para datos numéricos