Taller Calidad de Datos

Consigna:

Costos de Calidad:

Directos: Indirectos:
Pérdidas de ingreso
Pérdida de oportunidades
Exposición al fraude
Pérdida de mercado
Incumplimientos regulatorios
Pérdida de reputación
Multas
Pérdidas por malas decisiones impulsaadas por datos incorrectos (Garbage in-Garbage out)

Causas comunes de los problemas:

  • Entrada de Datos.
  • Diseño.
  • Transformaciones.

  • Solucionar problemas.

Dimensiones de Calidad

  • Precisión.
  • Completitud.

  • Integridad.

  • Consistencia.

  • Validez.

  • Razonabilidad.

  • Frescura.

  • Unicidad.

    Reglas de Negocio

    Aplicación de las dimensiones al contexto:

  • Rangos de Edad.

  • Rangos de Fechas.

  • Existencia de outliers.

  • Valores correctos pero que no pueden existir en la realidad.

  • Duplicación.

¿Cómo gestionamos la calidad?

  • Gestión Reactiva vs Gestión Proactiva.

  • Es necesario medir y anticipar los impactos.

  • Requiere liderazgo, compromiso y recursos.

  • Requiere cambio cultural.

Herramientas:

Perfilados de datos:
- Pandas profiling
- DataCleaner
- Great expectations

Limpieza y Enriquecimiento de datos:
- OpenRefine.
- Paquete Dplyr lenguaje R.

Ejercicio Profiling:

Data set de información de personas. Problemas de calidad de datos

El Data set está compuesto por: 327000 filas y 10 columnas con los siguientes nombres:

names(calidad)
##  [1] "...1"                "ID"                  "Nombre"             
##  [4] "Email"               "Teléfono"            "Sexo"               
##  [7] "Fecha de Nacimiento" "Dirección"           "Cantidad de Hijos"  
## [10] "Estado Civil"

Vista de las primeras entradas de datos:

head(calidad, 10)
## # A tibble: 10 × 10
##     ...1     ID Nombre      Email Teléfono Sexo  `Fecha de Nacimiento` Dirección
##    <dbl>  <dbl> <chr>       <chr> <chr>    <chr> <date>                <chr>    
##  1     0 101476 Garza, Che  pvel… 1-577-4… M     1982-08-04            Paseo Sa…
##  2     1 230236 Tiziano Be… mia-… 9999999  1     1959-01-09            87 Viadu…
##  3     2 157934 Sanchez, M… <NA>  9999999  f     NA                    4796 Urb…
##  4     3 290239 Alma Valen… olim… +54 9 3… M     1965-11-12            58817424 
##  5     4 189243 Jenaro Gar… no_t… <NA>     M     NA                    31 Alame…
##  6     5 146880 Eugenio, C… <NA>  9999999  M     1983-01-21            55004321 
##  7     6  20219 Olivia, Fe… a@a.… 9999999  2     NA                    33436    
##  8     7 139259 Nicolas Ga… a@a.… +54 9 3… Feme… NA                    Calzada …
##  9     8 146306 Sergio Cin… rang… +54 15 … 1     1913-05-10            2 Blv. P…
## 10     9 147364 Emma Aliaga <NA>  9999999  Masc… NA                    10048967 
## # ℹ 2 more variables: `Cantidad de Hijos` <dbl>, `Estado Civil` <chr>

Errores:

Error 1: Variable “…1” comienza con punto, no determina a qué representa los valores de dicha columna. Podría transformarse en cantidad de entradas corrigiendo la segunda fila que comienza con “0”.

Error 2 Contenidos de variable ” Nombre”, para gestionar mejor los datos, podrían separarse el nombre del apellido, o que tengan el mismo orden, ya que algunas entradas comienzan con el nombre y otras con el apellido. Además de los signos como “,” y otros ausentes. que no permiten alinear criterios para luego transformarlos.

Error 3 Campos vacíos que se observan desde las 10 primeras filas en las siguientes columnas: email, Teléfono, Fecha de Nacimiento.

Error 4 Repetición de datos. Por ejemplo E-mail: en filas 8 y 9.También se observa en variable teléfono.

Error5 Sintaxis

  • Del nro. de teléfono. la estructura no es homogénea en las entradas.
    En algunos campos se observa por ejemplos tres valores: en filas 9, 10, código de país, código de provincia y número de tel. También cantidad de números, extensión, que se debería permitir.

  • En la variable dirección. estructura no homogénea en las entradas. Más de un valor por campo.

Error6 Falta de unificación en categorías (factor) en variable Sexo. Debería ser por ejemplo: 0 = M, 1 = F o al revés y utilizar una categoría numérica o la categoría de carácter.

Error7 Fecha de Nacimiento: falla en algunos no hay una edad válida, algunos no mayores de edad, otros no tienen completo el dato.

Error8 en la variable cantidad de hijos. Hay campos con valores no válidos. por ejemplo -3.

Error9 en la variable estado civil. Se observa categoría sin valor para el análisis ” no tiene”.

Resumen:

A simple viste ya se observan varias fallas de calidad de datos. El ejercicio para continuar es entender a qué dimensión de calidad pertenece cada error. Luego transformar la tabla de datos para poder luego analizarlos.