UNIDAD 1: INTRODUCCIÓN A LA GESTIÓN PREDICTIVA
650036 - Analítica Predictiva de Datos
Universidad de Lima
–>
CRISP-DM es una metodología completa de Minería de Datos y modelamiento de procesos que proporciona a cualquiera, desde principiantes a expertos, un programa completo para la realización de un proyecto de minería de datos.
La metodología enumera los pasos para reproducir el éxito.
Motivación: Comprender mejor los datos
Principales tareas:
incompletos: Falta de valores en los atributos, carecen de algunos atributos de interés, sólo contienen datos agregados:
ej., ocupación = ” ”
anómalos: errores y outliers
ej., Salario = “-10”
inconsistentes: contienen discrepancias en códigos y nombres
ej., Edad = “42” , Cumpleaños = “03/07/1997”
ej., Rating previo: “1,2,3”, Rating actual “A, B, C”
ej., Discrepancia con registros duplicados
Los datos incompletos pueden venir de
Datos anómalos (valores incorrectos) pueden venir de
Datos inconsistentes pueden venir de
Registros duplicados también necesitan ser limpiados
¡No hay calidad en los datos, no hay calidad en los resultados!
Imprecisión:
Falta de Registros:
Inconsistencia:
Interpretabilidad:
Limpieza de datos
Integración de datos
Transformación de datos
Reducción de datos
Discretización de datos